Internet

Apa itu Corpus Teks?

Corpus teks adalah kumpulan teks, diucapkan atau ditulis, yang merupakan dasar untuk penelitian linguistik corpus.Menyimpan bank teks besar ini memungkinkan para peneliti untuk menganalisis berbagai aspek bahasa apa pun.Corpus teks adalah cara yang efisien untuk melakukan penelitian karena begitu materi dikumpulkan, dapat digunakan untuk menyelidiki berbagai masalah terkait bahasa termasuk morfologi, sintaksis, kosa kata dan pragmatik.Tidak seperti metode yang lebih lama dalam melakukan penelitian linguistik, sebuah corpus teks memungkinkan para peneliti untuk melihat bahasa sesuai dengan bagaimana sebenarnya digunakan dalam konteks, daripada bagaimana hal itu dapat digunakan secara hipotetis.Ahli bahasa biasanya memiliki akses ke sampel data yang jauh lebih besar daripada ketika mereka harus membatasi diri pada data yang dapat mereka kumpulkan dalam periode waktu terbatas dengan sumber daya keuangan yang terbatas.

Corpora biasanya disimpan di komputer, sehingga program perangkat lunak komputer dapat dibuat untuk memfasilitasi penelitian.Salah satu cara umum untuk menggunakan corpus teks adalah dengan menghitung jumlah total kata dalam teks, kemudian menghitung dan memberi peringkat berapa kali kata -kata tertentu muncul.Rasio yang dibuat antara jumlah total kata dan kata -kata spesifik dikenal sebagai hukum ZIPF.Rasio ini membantu menjelaskan frekuensi kata dalam suatu bahasa.Memahami hukum ZIPF membantu pemrogram komputer merancang perangkat lunak komputer yang memenuhi tuntutan bahasa yang diberikan.Mereka dapat menghitung dan memprediksi seberapa sering kata dan frasa tertentu akan digunakan sebagai input.

Cara lain untuk menggunakan corpus teks adalah dengan menandai elemen spesifik di dalamnya yang ingin dipelajari peneliti.Contoh bagaimana ini akan digunakan adalah menghitung berapa kali suara pasif muncul dalam genre teks yang berbeda.Tags juga berguna dalam membuat program komputer yang membantu orang dalam kehidupan sehari -hari mereka.Tagging bagian-dari- sangat penting untuk pengembangan perangkat lunak pengenalan suara.Dalam bahasa Inggris, misalnya, kata yang sama mungkin memiliki lebih dari satu bagian dari pidato.Kata -kata multisilab sering ditekankan secara berbeda untuk menandakan bagian mana yang digunakan.Kata benda "objek" membawa tekanannya pada suku kata pertama, tetapi kata kerja "objek" ditekankan pada suku kata kedua.Menandai bentuk kata benda "objek" membantu program komputer membacanya dengan keras dan mengenalinya ketika "objek" sedang dikatakan oleh manusia.

Korpora teks berguna untuk linguistik manusia dan linguistik komputasi.Mereka memungkinkan penelitian dilakukan yang membantu orang lebih memahami bahasa yang digunakan manusia yang pada gilirannya membantu mengembangkan bahasa yang digunakan komputer.Lompatan besar telah dibuat dalam teknologi pengenalan suara, memungkinkan konsumen untuk mengontrol komputer secara verbal di kantor, rumah, dan kendaraan mereka.Kemajuan yang berkelanjutan akan memungkinkan manusia untuk berkomunikasi dengan komputer secara alami seperti yang mereka lakukan satu sama lain.