Skip to main content

Mi az a szöveges korpusz?

A szöveges corpus olyan szövegek gyűjteménye, amelyet beszélt vagy írott, ez a corpus nyelvészeti kutatás alapja.E nagy szövegek tárolása lehetővé teszi a kutatók számára, hogy bármely nyelv különféle aspektusait elemezzék.A szöveges corpus hatékony módszer a kutatás elvégzésére, mivel az anyag összegyűjtése után felhasználható számos nyelvi kérdés vizsgálatára, beleértve a morfológiát, a szintaxist, a szókincset és a pragmatikát.A nyelvi kutatás elvégzésének régebbi módszereivel ellentétben a szöveges corpus lehetővé teszi a kutatók számára, hogy a nyelvet megvizsgálják annak alapján, hogy miként használják az összefüggésben, nem pedig azt, hogy miként lehetne használni.A nyelvészek általában sokkal nagyobb adatmintákhoz férnek hozzá, mint amikor korlátozott idő alatt korlátozott pénzügyi forrásokkal korlátozott idő alatt összegyűjthetik magukat.

A corpora -t általában számítógépen tárolják, így számítógépes szoftvereket lehet létrehozni a kutatás megkönnyítése érdekében.A szöveges korpusz használatának egyik általános módja a szövegek teljes számának megszámlálása, majd megszámolni és rangsorolni bizonyos szavak megjelenését.A teljes szavak száma és a konkrét szavak között létrehozott arányt Zipf törvénynek nevezzük.Ez az arány segít megmagyarázni a szó gyakoriságát egy nyelven.A ZIPF törvényének megértése segít a számítógépes programozóknak a számítógépes szoftverek megtervezésében, amelyek megfelelnek az adott nyelv igényeinek.Számíthatják és megjósolhatják, milyen gyakran használják bizonyos szavakat és kifejezéseket bemenetként.

A szöveges korpusz használatának egy másik módja az, hogy megcímkézzük a kutató, amelyet a kutató tanulni akar.Példa arra, hogy ezt hogyan használják, az, hogy megszámoljuk, hogy a passzív hang hányszor jelenik meg a különböző szöveges műfajokban.A címkézés hasznos volt olyan számítógépes programok létrehozásában is, amelyek elősegítik az embereket a mindennapi életükben.A beszédcímkézés kritikus jelentőségű volt a hangfelismerő szoftverfejlesztés szempontjából.Például angolul ugyanezen a szónak a beszéd egynél több része lehet.A multisillabikus szavakat gyakran másképp hangsúlyozzák, hogy jelezzék, hogy a beszéd melyik részét használják.A főnév „objektum” az első szótagon hordozza a stresszt, de a „objektum” ige a második szótagon hangsúlyozza.Az „objektum” főnév formájának címkézése segít a számítógépes programnak egyaránt hangosan olvasni, és felismerni azt, amikor az ember mondja az „objektumot”.

A corpora szöveg hasznos mind az emberi nyelvészet, mind a számítási nyelvészet szempontjából.Ezek lehetővé teszik a kutatás elvégzését, amely segít az embereknek jobban megérteni az emberek használatát, ami viszont elősegíti a nyelvi számítógépek használatát.Nagyszerű ugrások történtek a hangfelismerési technológiában, lehetővé téve a fogyasztók számára, hogy verbálisan ellenőrizzék a számítógépeket irodáikban, otthonukban és járműveikben.A folyamatos előrelépések lehetővé teszik az emberek számára, hogy olyan természetesen kommunikáljanak a számítógépekkel, mint egymással.