Skip to main content

Hvad er et tekstkorpus?

Et tekstkorpus er en samling af tekster, talt eller skrevet, det vil sige grundlaget for Corpus Linguistics Research.Opbevaring af disse store banker af tekster giver forskere mulighed for at analysere forskellige aspekter af ethvert sprog.Et tekstkorpus er en effektiv måde at udføre forskning på, fordi når materialet er samlet, kan det bruges til at undersøge en række sprogrelaterede spørgsmål, herunder morfologi, syntaks, ordforråd og pragmatik.I modsætning til ældre metoder til udførelse af sproglig forskning, giver et tekstkorpus forskere mulighed for at se på sprog i henhold til, hvordan det faktisk bruges i sammenhæng, snarere end hvordan det hypotetisk kunne bruges.Sprogfolk har typisk adgang til meget større dataprøver end når de måtte begrænse sig til dataene, de kunne indsamle sig selv i en begrænset periode med begrænsede økonomiske ressourcer.

Corpora gemmes typisk på en computer, så computersoftwareprogrammer kan oprettes for at lette forskning.En almindelig måde at bruge et tekstkorpus på er at tælle det samlede antal ord i teksterne, derefter tælle og rangere antallet af gange visse ord dukkede op.Forholdet, der er skabt mellem antallet af samlede ord og specifikke ord, er kendt som ZIPFs lov.Dette forhold hjælper med at forklare ordfrekvens på et sprog.At forstå ZIPFs lov hjælper computerprogrammerere med at designe computersoftware, der imødekommer kravene fra et givet sprog.De kan tælle og forudsige, hvor ofte visse ord og sætninger vil blive brugt som input.

En anden måde at bruge et tekstkorpus på er at mærke specifikke elementer i det, som forskeren ønsker at studere.Et eksempel på, hvordan dette ville blive brugt, er at tælle, hvor mange gange den passive stemme vises i forskellige tekstgenrer.Tagging har også været nyttigt til at oprette computerprogrammer, der hjælper mennesker i deres daglige liv.Del-af-tale-tagging har været kritisk for udvikling af stemmegenkendelsessoftware.På engelsk kan det samme ord for eksempel have mere end en del af talen.Multisyllabiske ord understreges ofte forskelligt for at signalere, hvilken del af talen der bruges.Det substantiv "objekt" bærer sin stress på den første stavelse, men verbet "objekt" er understreget på den anden stavelse.Mærkning af substantivformen af "Objekt" hjælper computerprogrammet både med at læse det højt korrekt og genkende det, når "objekt" siges af et menneske.

Tekstkorpora er nyttige for både menneskelig sprogvidenskab og beregningsmæssig sprogvidenskab.De tillader, at forskning udføres, der hjælper folk med at forstå det sprog, som mennesker bruger, som igen hjælper med at udvikle de sprogcomputere.Der er foretaget store spring i stemmegenkendelsesteknologi, hvilket giver forbrugerne mulighed for verbalt at kontrollere computere på deres kontorer, hjem og køretøjer.Fortsatte fremskridt giver mennesker mulighed for at kommunikere med computere så naturligt som de gør med hinanden.