Skip to main content

Hva er et tekstkorpus?

Et tekstkorpus er en samling tekster, talt eller skrevet, det er grunnlaget for corpus linguistics -forskning.Å lagre disse store tekstbanker lar forskere analysere ulike aspekter av ethvert språk.Et tekstkorpus er en effektiv måte å forske på fordi når materialet er samlet inn, kan det brukes til å undersøke en rekke språkrelaterte problemer, inkludert morfologi, syntaks, ordforråd og pragmatikk.I motsetning til eldre metoder for å drive språklig forskning, lar et tekstkorpus forskere se på språk i henhold til hvordan det faktisk brukes i sammenheng, i stedet for hvordan det hypotetisk kan brukes.Lingvister har vanligvis tilgang til mye større dataprøver enn når de måtte begrense seg til dataene de kunne samle seg selv i en begrenset periode med begrensede økonomiske ressurser.

Corpora lagres vanligvis i en datamaskin, slik at dataprogrammer kan opprettes for å lette forskning.En vanlig måte å bruke et tekstkorpus er å telle det totale antallet ord i tekstene, og deretter telle og rangere antall ganger visse ord dukket opp.Forholdet som skapes mellom antall totale ord og spesifikke ord er kjent som ZIPFs lov.Dette forholdet hjelper til med å forklare ordfrekvens på et språk.Å forstå ZIPFs lov hjelper dataprogrammerere med å designe dataprogramvare som oppfyller kravene til et gitt språk.De kan telle og forutsi hvor ofte visse ord og uttrykk vil bli brukt som input.

En annen måte å bruke et tekstkorpus er å merke spesifikke elementer i det som forskeren ønsker å studere.Et eksempel på hvordan dette vil bli brukt er å telle hvor mange ganger den passive stemmen vises i forskjellige tekstsjangre.Merking har også vært nyttig for å lage dataprogrammer som hjelper mennesker i hverdagen.Del-of-tale-tagging har vært kritisk for programvareutvikling av stemmegjenkjenning.På engelsk kan for eksempel det samme ordet ha mer enn en del av talen.Multisyllabiske ord blir ofte stresset annerledes for å signalisere hvilken del av talen som brukes.Substantivet "objekt" bærer stresset på den første stavelsen, men verbet "objekt" er stresset på den andre stavelsen.Å merke substantivformen for "objekt" hjelper dataprogrammet begge å lese det høyt og gjenkjenne det når "objekt" blir sagt av et menneske.

Tekst Corpora er nyttige for både menneskelig språkvitenskap og beregningsspråklig lingvistikk.De tillater at det kan utføres forskning som hjelper mennesker med å bedre forstå språket mennesker bruker som igjen hjelper til med å utvikle språket datamaskiner bruker.Det er gjort store sprang innen stemmegjenkjenningsteknologi, slik at forbrukerne muntlig kan kontrollere datamaskiner på sine kontorer, hjem og kjøretøy.Fortsatte fremskritt vil tillate mennesker å kommunisere med datamaskiner så naturlig som de gjør med hverandre.