Wat is een tekstcorpus?

Een tekstcorpus is een verzameling teksten, gesproken of geschreven, die de basis vormen voor onderzoek van de corpuslinguïstiek. Door deze grote hoeveelheden teksten op te slaan, kunnen onderzoekers verschillende aspecten van elke taal analyseren. Een tekstcorpus is een efficiënte manier om onderzoek te doen, omdat het materiaal, eenmaal verzameld, kan worden gebruikt om een verscheidenheid aan taalgerelateerde problemen te onderzoeken, waaronder morfologie, syntaxis, vocabulaire en pragmatiek. In tegenstelling tot oudere methoden voor het uitvoeren van taalkundig onderzoek, stelt een tekstcorpus onderzoekers in staat om taal te bekijken op basis van hoe het feitelijk in context wordt gebruikt, in plaats van hoe het hypothetisch zou kunnen worden gebruikt. Taalkundigen hebben doorgaans toegang tot veel grotere gegevensmonsters dan wanneer ze zich moesten beperken tot de gegevens die ze zichzelf binnen een beperkte periode met beperkte financiële middelen konden verzamelen.

Corpora worden meestal op een computer opgeslagen, zodat er softwareprogramma's kunnen worden gemaakt om onderzoek te vergemakkelijken. Een veelgebruikte manier om een tekstcorpus te gebruiken, is door het totale aantal woorden in de teksten te tellen en vervolgens het aantal keren dat bepaalde woorden zijn verschenen te tellen en te rangschikken. De verhouding die wordt gecreëerd tussen het aantal totale woorden en specifieke woorden staat bekend als de wet van Zipf. Deze verhouding helpt bij het verklaren van de woordfrequentie in een taal. Inzicht in de wet van Zipf helpt computerprogrammeurs om computersoftware te ontwerpen die voldoet aan de eisen van een bepaalde taal. Ze kunnen tellen en voorspellen hoe vaak bepaalde woorden en zinnen als invoer worden gebruikt.

Een andere manier om een tekstcorpus te gebruiken, is door er specifieke elementen in te taggen die de onderzoeker wil bestuderen. Een voorbeeld van hoe dit zou worden gebruikt, is om te tellen hoe vaak de passieve stem in verschillende tekstgenres verschijnt. Tagging is ook nuttig geweest bij het maken van computerprogramma's die mensen helpen in hun dagelijks leven. Tagging met een deel van de spraak is cruciaal geweest voor de ontwikkeling van spraakherkenningssoftware. In het Engels, bijvoorbeeld, kan hetzelfde woord meer dan één woordsoort hebben. Multisyllabische woorden worden vaak anders benadrukt om aan te geven welk deel van de spraak wordt gebruikt. Het zelfstandig naamwoord "object" heeft de nadruk op de eerste lettergreep, maar het werkwoord "object" wordt benadrukt op de tweede lettergreep. Het taggen van de zelfstandige naamvorm van "object" helpt het computerprogramma zowel het hardop voorlezen als het herkennen wanneer "object" door een mens wordt gezegd.

Tekstcorpora zijn nuttig voor zowel menselijke taalkunde als computerlinguïstiek. Ze laten onderzoek toe dat mensen helpt de taal die mensen gebruiken beter te begrijpen, wat op zijn beurt helpt bij het ontwikkelen van de taal die computers gebruiken. Er zijn grote stappen gemaakt in spraakherkenningstechnologie, waardoor consumenten verbaal computers in hun kantoren, huizen en voertuigen kunnen besturen. Door voortdurende vooruitgang kunnen mensen net zo natuurlijk met computers communiceren als met elkaar.

Wat is een tekstcorpus?

heeft dit artikel jou geholpen?