Skip to main content

Ano ang isang text corpus?

Ang isang text corpus ay isang koleksyon ng mga teksto, sinasalita o nakasulat, iyon ang batayan para sa pananaliksik ng corpus linguistic.Ang pag -iimbak ng mga malalaking bangko ng mga teksto ay nagbibigay -daan sa mga mananaliksik na pag -aralan ang iba't ibang mga aspeto ng anumang wika.Ang isang text corpus ay isang mahusay na paraan upang magsagawa ng pananaliksik dahil sa sandaling natipon ang materyal, maaari itong magamit upang siyasatin ang iba't ibang mga isyu na may kaugnayan sa wika kabilang ang morphology, syntax, bokabularyo at pragmatics.Hindi tulad ng mas matatandang pamamaraan ng pagsasagawa ng pananaliksik sa lingguwistika, pinapayagan ng isang text corpus ang mga mananaliksik na tumingin sa wika ayon sa kung paano ito aktwal na ginagamit sa konteksto, sa halip na kung paano ito maaaring magamit.Ang mga linggwistiko ay karaniwang may access sa mas malaking mga sample ng data kaysa sa kung kailan kailangan nilang limitahan ang kanilang mga sarili sa data na maaari nilang kolektahin ang kanilang mga sarili sa isang limitadong tagal ng oras na may limitadong mga mapagkukunan sa pananalapi.Ang corpora ay karaniwang naka -imbak sa isang computer, kaya ang mga programa ng software ng computer ay maaaring malikha upang mapadali ang pananaliksik.Ang isang karaniwang paraan upang magamit ang isang text corpus ay upang mabilang ang kabuuang bilang ng mga salita sa mga teksto, pagkatapos ay bilangin at ranggo ang bilang ng mga beses na lumitaw ang ilang mga salita.Ang ratio na nilikha sa pagitan ng bilang ng kabuuang mga salita at mga tiyak na salita ay kilala bilang batas ng ZIPF.Ang ratio na ito ay nakakatulong na ipaliwanag ang dalas ng salita sa isang wika.Ang pag -unawa sa batas ng ZIPF ay tumutulong sa computer programmers na disenyo ng computer software na nakakatugon sa mga hinihingi ng isang naibigay na wika.Maaari silang mabilang at mahulaan kung gaano kadalas ang ilang mga salita at parirala ay gagamitin bilang input.

Ang isa pang paraan upang magamit ang isang text corpus ay upang mai -tag ang mga tukoy na elemento sa loob nito na nais mag -aral ng mananaliksik.Ang isang halimbawa kung paano ito gagamitin ay upang mabilang kung gaano karaming beses ang lilitaw na boses ng pasibo sa iba't ibang mga genre ng teksto.Ang pag -tag ay naging kapaki -pakinabang din sa paglikha ng mga programa sa computer na tumutulong sa mga tao sa kanilang pang -araw -araw na buhay.Ang part-of-speech tag ay naging kritikal sa pag-unlad ng software ng pagkilala sa boses.Sa Ingles, halimbawa, ang parehong salita ay maaaring magkaroon ng higit sa isang bahagi ng pagsasalita.Ang mga salitang multisyllabic ay madalas na nai -stress na naiiba upang mag -signal kung aling bahagi ng pagsasalita ang ginagamit.Ang pangngalang "object" ay nagdadala ng stress nito sa unang pantig, ngunit ang pandiwa na "object" ay nabibigyang diin sa pangalawang pantig.Ang pag -tag sa form na pangngalan ng "object" ay tumutulong sa programa ng computer na parehong basahin ito nang tama at kilalanin ito kapag ang "object" ay sinasabi ng isang tao.

Ang text corpora ay kapaki -pakinabang sa parehong linggwistika ng tao at computational linguistic.Pinapayagan nila ang pananaliksik na isasagawa na tumutulong sa mga tao na mas mahusay na maunawaan ang wika na ginagamit ng mga tao na kung saan ay tumutulong sa pagbuo ng mga computer ng wika.Ang mga mahusay na leaps ay ginawa sa teknolohiya ng pagkilala sa boses, na nagpapahintulot sa mga mamimili na pasalita na kontrolin ang mga computer sa kanilang mga tanggapan, tahanan, at sasakyan.Ang patuloy na pagsulong ay magpapahintulot sa mga tao na makipag -usap sa mga computer nang natural tulad ng ginagawa nila sa bawat isa.