Skip to main content

Vad är ett textkorpus?

A Text Corpus är en samling texter, talade eller skrivna, det är grunden för Corpus Linguistics Research.Att lagra dessa stora banker av texter gör det möjligt för forskare att analysera olika aspekter av alla språk.Ett textkorpus är ett effektivt sätt att bedriva forskning eftersom när materialet har samlats in kan det användas för att undersöka olika språkrelaterade frågor inklusive morfologi, syntax, ordförråd och pragmatik.Till skillnad från äldre metoder för att bedriva språklig forskning tillåter ett textkorpus forskare att titta på språk beroende på hur det faktiskt används i sammanhang, snarare än hur det hypotetiskt kan användas.Linguists har vanligtvis tillgång till mycket större dataprover än när de var tvungna att begränsa sig till de uppgifter de kunde samla in sig under en begränsad tid med begränsade ekonomiska resurser.

Corpora lagras vanligtvis i en dator, så datorprogram kan skapas för att underlätta forskning.Ett vanligt sätt att använda ett textkorpus är att räkna det totala antalet ord i texterna, sedan räkna och rangordna antalet gånger vissa ord dök upp.Förhållandet som skapas mellan antalet totala ord och specifika ord kallas ZIPF: s lag.Detta förhållande hjälper till att förklara ordfrekvens på ett språk.Att förstå ZIPF: s lag hjälper datorprogrammerare att utforma datorprogramvara som uppfyller kraven på ett givet språk.De kan räkna och förutsäga hur ofta vissa ord och fraser kommer att användas som input.

Ett annat sätt att använda ett textkorpus är att tagga specifika element i det som forskaren vill studera.Ett exempel på hur detta skulle användas är att räkna hur många gånger den passiva rösten visas i olika textgenrer.Märkning har också varit användbar för att skapa datorprogram som hjälper människor i deras dagliga liv.En del av talmärken har varit avgörande för utveckling av röstigenkänning.På engelska kan till exempel samma ord ha mer än en del av talet.Multisyllabiska ord betonas ofta annorlunda för att signalera vilken del av talet som används.Substantivet "objekt" bär sin stress på den första stavelsen, men verbet "objekt" är stressat på den andra stavelsen.Att märka substantivformen av "objekt" hjälper datorprogrammet både att läsa det högt och känna igen det när "objekt" sägs av en människa.

Text Corpora är användbara för både mänsklig lingvistik och beräkningslingvistik.De tillåter forskning att bedrivas som hjälper människor att bättre förstå det språk som människor använder som i sin tur hjälper till att utveckla språkdatorerna.Stora språng har gjorts inom röstigenkänningsteknik, vilket gör att konsumenterna kan kontrollera datorer muntligt på sina kontor, hem och fordon.Fortsatta framsteg gör det möjligt för människor att kommunicera med datorer lika naturligt som de gör med varandra.