Korpus Linguistik

corpusbig

 

1.0 Pengenalan

Apakah itu korpus linguistik?

Corpus linguistik adalah satu kajian bahasa dan kaedah analisis linguistik yang menggunakan koleksi teks asli atau “sebenar perkataan” yang dikenali sebagai corpus. Corpus linguistik digunakan untuk menganalisis dan penyelidikan beberapa soalan linguistik dan menawarkan wawasan yang unik ke dalam dinamik bahasa yang telah menjadikan ia salah satu daripada metodologi linguistik yang paling banyak digunakan.

Sejak corpus linguistik melibatkan penggunaan korpora besar yang terdiri daripada berjuta-juta atau kadangkala bilion kata-kata, ia banyak bergantung kepada penggunaan komputer untuk menentukan apa kaedah-kaedah mengawal bahasa dan apa patters (tatabahasa atau leksikal misalnya) berlaku. Oleh itu, ia tidak menghairankan bahawa linguistik korpus muncul dalam bentuk moden hanya selepas revolusi komputer pada 1980-an. The Brown Corpus, corpus moden dan boleh dibaca secara elektronik yang pertama, bagaimanapun, telah dicipta oleh Henry Kucera dan W. Nelson Francis seawal tahun 1960-an.

2.0 Kaedah korpus lingustik

Corpus Linguistik telah menjana beberapa kaedah penyelidikan, cuba untuk mengesan laluan dari data teori. Wallis dan Nelson (2001)  mula diperkenalkan apa yang mereka dipanggil perspektif 3A: Anotasi, Pengekstrakan dan Analisis.

  • Anotasi terdiri daripada permohonan skim untuk teks.
  • Pengekstrakan terdiri daripada terjemahan (pemetaan) istilah di dalam skim ini kepada terma dalam model didorong secara teori atau dataset. Pengekstrakan biasanya termasuk ahli bahasa-diarahkan carian tetapi mungkin termasuk contohnya, memerintah-pembelajaran untuk parsers.
  • Analisis terdiri daripada statistik menyelesaikan sesuatu, memanipulasi dan generalising dari dataset itu. Analisis mungkin termasuk penilaian statistik, pengoptimuman peraturan asas atau kaedah penemuan pengetahuan.

Kebanyakan korpora leksikal hari ini adalah sebahagian-of-ucapan-tagged (POS-tagged). Walau bagaimanapun juga ahli bahasa corpus yang bekerja dengan ‘teks biasa unannotated’ tidak dapat tidak memohon kaedah untuk mengasingkan beberapa terma-terma penting. Dalam situasi ini anotasi dan abstraksi digabungkan dalam carian leksikal.

Kelebihan menerbitkan corpus beranotasi ialah pengguna lain boleh melakukan uji kaji ke atas korpus. Ahli bahasa dengan kepentingan-kepentingan lain dan perspektif berbeza daripada ciptaan asal boleh mengeksploitasi kerja ini. Dengan berkongsi data, ahli bahasa corpus dapat merawat korpus sebagai lokus perdebatan linguistik, dan bukannya sebagai satu bentuk huruf lengkap pengetahuan.

3.0  Kelebihan korpus linguistik

  • Memberi akses kepada maklumat linguistik naturalistik. Seperti yang dinyatakan sebelum ini, korpora terdiri daripada “perkataan yang benar” teks yang kebanyakannya hasil daripada situasi kehidupan sebenar.Ini menjadikan korpora sumber kajian yang berharga untuk Dialektologi, sosiolinguistik dan gaya bahasa.
  • Memudahkan penyelidikan linguistik. Korpora boleh dibaca secara elektronik telah dikurangkan secara mendadak masa yang diperlukan untuk mencari perkataan atau frasa tertentu. Satu penyelidikan yang akan mengambil hari atau tahun untuk disiapkan secara manual boleh dilakukan dalam masa beberapa saat dengan tahap tertinggi ketepatan.
  • Membolehkan kajian pola yang lebih luas dan penempatan bersama kata-kata.Sebelum kemunculan komputer, linguistik korpus belajar hanya kata-kata tunggal dan kekerapan mereka. Teknologi moden dibenarkan kajian patters lebih luas dan penempatan bersama kata-kata.
  • Membolehkan analisis pelbagai parameter pada masa yang sama. Pelbagai program perisian linguistik korpus, pemasaran online dan alat-alat analitikal membenarkan penyelidik untuk menganalisis bilangan yang lebih besar daripada parameter serentak. Selain itu, banyak korpora diperkaya dengan pelbagai maklumat linguistik seperti anotasi.
  • Memudahkan kajian bahasa kedua. Kajian bahasa kedua dengan penggunaan bahasa semula jadi membolehkan pelajar untuk mendapatkan “perasaan” lebih baik untuk bahasa dan belajar bahasa seperti ia digunakan dalam sebenar dan bukannya “mencipta” situasi.

4.0 Kelemahan korpus lingustik

  • Tidak menjelaskan mengapa. Kajian korpora memberitahu kita apa dan bagaimana berlaku tetapi ia tidak memberitahu kami mengapa kekerapan perkataan tertentu telah meningkat dari masa ke masa misalnya.
  • Tidak mewakili keseluruhan bahasa. Korpus linguistik mengkaji bahasa dengan menggunakan korpora dipilih secara rawak atau sistematik. Mereka biasanya terdiri daripada sebilangan besar yang berlaku secara semulajadi teks, bagaimanapun, ia tidak mewakili keseluruhan bahasa. Analisis linguistik yang menggunakan kaedah dan alat linguistik korpus itu tidak mewakili keseluruhan bahasa.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s