Vad är ett textkorpus?

Ett textkorpus är en samling texter, talade eller skriftliga, som är grunden för korpuslingvistisk forskning. Att lagra dessa stora textbanker gör det möjligt för forskare att analysera olika aspekter av alla språk. Ett textkorpus är ett effektivt sätt att bedriva forskning eftersom det när materialet samlats in kan användas för att undersöka olika språkrelaterade frågor inklusive morfologi, syntax, ordförråd och pragmatik. Till skillnad från äldre metoder för att bedriva språklig forskning tillåter ett textkorpus forskare att titta på språk beroende på hur det faktiskt används i sammanhang, snarare än hur det hypotetiskt skulle kunna användas. Lingvistiker har vanligtvis tillgång till mycket större dataprover än när de var tvungna att begränsa sig till de uppgifter de kunde samla in sig under en begränsad tid med begränsade ekonomiska resurser.

Corpora lagras vanligtvis i en dator, så datorprogram kan skapas för att underlätta forskning. Ett vanligt sätt att använda ett textkorpus är att räkna det totala antalet ord i texterna, sedan räkna och rangordna antalet gånger som vissa ord dök upp. Förhållandet som skapas mellan antalet totala ord och specifika ord kallas Zipfs lag. Detta förhållande hjälper till att förklara ordfrekvensen på ett språk. Att förstå Zipfs lag hjälper dataprogrammerare att utforma datorprogramvara som uppfyller kraven på ett visst språk. De kan räkna och förutsäga hur ofta vissa ord och fraser kommer att användas som input.

Ett annat sätt att använda ett textkorpus är att märka specifika element i det som forskaren vill studera. Ett exempel på hur detta skulle användas är att räkna hur många gånger den passiva rösten visas i olika textgenrer. Etikettering har också varit användbar för att skapa datorprogram som hjälper människor i deras dagliga liv. Del-av-tal-taggning har varit avgörande för utveckling av programvara för röstigenkänning. På engelska, till exempel, kan samma ord ha mer än en del av talet. Multisyllabiska ord stressas ofta annorlunda för att signalera vilken del av talet som används. Substantivet "objekt" bär sin stress på den första stavelsen, men verbet "objektet" är betonat på den andra stavelsen. Att märka substantivformen "objekt" hjälper datorprogrammet att både läsa det korrekt och identifiera det när "objekt" sägs av en människa.

Textkorpora är användbara för både mänsklig språkvetenskap och beräkningslingvistik. De möjliggör forskning som hjälper människor att bättre förstå språket som människor använder, vilket i sin tur hjälper till att utveckla språkdatorerna använder. Stora språng har gjorts inom röstigenkänningstekniken, vilket gör det möjligt för konsumenter att verbalt kontrollera datorer på sina kontor, hem och fordon. Fortsatta framsteg gör att människor kan kommunicera med datorer lika naturligt som de gör med varandra.

Vad är ett textkorpus?

Hjälpte den här artikeln dig?