Skip to main content

Co je to textový korpus?

Textový korpus je sbírka textů, mluvených nebo psaných, to je základ pro výzkum corpus lingvistics.Ukládání těchto velkých bank textů umožňuje vědcům analyzovat různé aspekty jakéhokoli jazyka.Textový korpus je efektivní způsob, jak provádět výzkum, protože jakmile se materiál shromáždí, lze jej použít k prozkoumání různých jazykových problémů, včetně morfologie, syntaxe, slovní zásoby a pragmatiky.Na rozdíl od starších metod provádění lingvistického výzkumu umožňuje textový korpus vědcům dívat se na jazyk podle toho, jak se skutečně používá v kontextu, spíše než jak by mohlo být hypoteticky použity.Lingvisté obvykle mají přístup k mnohem větším vzorkům dat, než když se museli omezit na data, která by se mohli v omezeném časovém období s omezeným finančním zdrojům shromažďovat.

Corpura se obvykle ukládá do počítače, takže pro usnadnění výzkumu lze vytvořit počítačové softwarové programy.Jedním z běžných způsobů, jak použít textový korpus, je spočítat celkový počet slov do textů, poté počítat a hodnotit, kolikrát se objevila určitá slova.Poměr, který je vytvořen mezi počtem celkových slov a specifických slov, je známý jako Zipfův zákon.Tento poměr pomáhá vysvětlit frekvenci slov v jazyce.Pochopení zákona ZIPF pomáhá počítačovým programátorům navrhovat počítačový software, který splňuje požadavky daného jazyka.Mohou počítat a předpovídat, jak často budou určitá slova a fráze použity jako vstup.

Dalším způsobem, jak použít textový korpus, je označit konkrétní prvky v něm, které chce výzkumný pracovník studovat.Příkladem toho, jak by se to použilo, je spočítat, kolikrát se pasivní hlas objeví v různých textových žánrech.Označování bylo také užitečné při vytváření počítačových programů, které pomáhají lidem v jejich každodenním životě.Část označování řeči bylo rozhodující pro vývoj softwaru pro rozpoznávání hlasu.Například v angličtině může mít stejné slovo více než jednu část řeči.Multisyllabická slova jsou často zdůrazněna odlišně, aby signalizovaly, která část řeči se používá.Podstatné jméno „objekt“ nese svůj stres na první slabiku, ale na druhé slabice je zdůrazněn sloveso „objekt“.Označování substantického formuláře „Object“ pomáhá počítačovému programu správně číst nahlas a rozpoznat jej, když člověk říká člověk.

Textové korpusy jsou užitečné jak pro lidskou lingvistiku, tak pro výpočetní lingvistiku.Umožňují provádění výzkumu, který pomáhá lidem lépe porozumět jazykovému, který lidé používají, což zase pomáhá rozvíjet jazykové počítače.Velké skoky byly provedeny v technologii rozpoznávání hlasu, což spotřebitelům umožňuje slovně ovládat počítače v jejich kancelářích, domech a vozidlech.Pokračující pokroky umožní lidem komunikovat s počítači tak přirozeně jako spolu navzájem.