Co je textový korpus?

Textový korpus je sbírka textů, mluvených nebo psaných, která je základem výzkumu lingvistiky korpusu. Uložení těchto velkých bank textů umožňuje vědcům analyzovat různé aspekty jakéhokoli jazyka. Textový korpus je efektivní způsob provádění výzkumu, protože jakmile je materiál shromážděn, může být použit k prozkoumání různých jazykových problémů, včetně morfologie, syntaxe, slovní zásoby a pragmatiky. Na rozdíl od starších metod provádění lingvistického výzkumu umožňuje textový korpus vědcům podívat se na jazyk podle toho, jak je ve skutečnosti používán v kontextu, než na to, jak by mohl být hypoteticky použit. Lingvisté mají obvykle přístup k mnohem větším vzorkům dat, než když se museli omezit na data, která se mohli shromažďovat v omezeném časovém období s omezenými finančními zdroji.

Korpusy jsou obvykle uloženy v počítači, takže je možné vytvářet počítačové softwarové programy pro usnadnění výzkumu. Jedním z běžných způsobů použití textového korpusu je spočítat celkový počet slov v textech a poté spočítat a ohodnotit počet zobrazení určitých slov. Poměr, který je vytvořen mezi počtem celkových slov a konkrétními slovy, je znám jako Zipfův zákon. Tento poměr pomáhá vysvětlit frekvenci slov v jazyce. Pochopení Zipfova zákona pomáhá počítačovým programátorům navrhovat počítačový software, který splňuje požadavky daného jazyka. Umí spočítat a předpovídat, jak často budou určitá slova a fráze použity jako vstup.

Dalším způsobem použití textového korpusu je označit v něm specifické prvky, které chce výzkumný pracovník studovat. Příkladem toho by bylo spočítání, kolikrát se pasivní hlas objeví v různých textových žánrech. Značkování bylo také užitečné při vytváření počítačových programů, které pomáhají lidem v jejich každodenním životě. Značení části řeči bylo pro vývoj softwaru pro rozpoznávání hlasu rozhodující. Například v angličtině může mít stejné slovo více než jednu část řeči. Multisyllabická slova jsou často zdůrazňována odlišně, aby signalizovala, která část řeči se používá. Podstatné jméno „předmět“ nese své napětí na první slabice, ale sloveso „objekt“ je zdůrazněno na druhé slabice. Označení substantivní formy „objektu“ pomáhá počítačovému programu jak jej nahlas přečíst správně, a také jej rozpoznat, když „objekt“ říká člověk.

Textové korpusy jsou užitečné jak pro lidskou lingvistiku, tak pro výpočetní lingvistiku. Umožňují provádět výzkum, který lidem pomáhá lépe porozumět jazyku, který lidé používají, což zase pomáhá rozvíjet jazyk, který počítače používají. V technologii rozpoznávání hlasu došlo k velkým skokům, které spotřebitelům umožňují verbálně ovládat počítače v jejich kancelářích, domácnostech a vozidlech. Pokračující pokrok umožní lidem komunikovat s počítači tak přirozeně, jako spolu navzájem.

Co je textový korpus?

Pomohl vám tento článek?