Skip to main content

Was ist ein Textkorpus?

Ein Textkorpus ist eine Sammlung von gesprochenen oder geschriebenen Texten, die die Grundlage für die Corpus -Linguistikforschung ist.Durch die Speicherung dieser großen Banken von Texten können Forscher verschiedene Aspekte jeder Sprache analysieren.Ein Textkorpus ist eine effiziente Methode zur Durchführung von Forschungen, da nach dem Sammeln des Materials eine Vielzahl von sprachbezogenen Themen untersucht werden kann, darunter Morphologie, Syntax, Wortschatz und Pragmatik.Im Gegensatz zu älteren Methoden zur Durchführung sprachlicher Forschung ermöglicht ein Textkorpus den Forschern, die Sprache entsprechend der Art und Weise zu betrachten, wie sie tatsächlich im Kontext verwendet wird, und nicht, wie sie hypothetisch verwendet werden kann.Linguisten haben in der Regel Zugriff auf viel größere Datenproben, als sie sich auf die Daten beschränken mussten, die sie sich in begrenzter Zeit mit begrenzten finanziellen Ressourcen sammeln konnten.

Korpora werden in der Regel in einem Computer gespeichert, sodass Computersoftwareprogramme erstellt werden können, um die Forschung zu erleichtern.Eine häufige Möglichkeit, einen Textkorpus zu verwenden, besteht darin, die Gesamtzahl der Wörter in den Texten zu zählen, dann zu zählen und die Anzahl der angegebenen Wörter zu bewerten.Das Verhältnis, das zwischen der Anzahl der Gesamtwörter und spezifischen Wörter erzeugt wird, wird als Zipf -Gesetz bezeichnet.Dieses Verhältnis erklärt die Worthäufigkeit in einer Sprache.Das Verständnis des ZIPF -Gesetzes hilft Computer -Programmierern, Computersoftware zu entwerfen, die den Anforderungen einer bestimmten Sprache entspricht.Sie können zählen und vorhersagen, wie oft bestimmte Wörter und Phrasen als Eingabe verwendet werden.

Eine andere Möglichkeit, einen Textkorpus zu verwenden, besteht darin, bestimmte Elemente zu markieren, die der Forscher studieren möchte.Ein Beispiel dafür, wie dies verwendet werden würde, besteht darin, zu zählen, wie oft die passive Stimme in verschiedenen Textgenres erscheint.Das Tagging war auch nützlich bei der Erstellung von Computerprogrammen, die Menschen in ihrem täglichen Leben helfen.Das Sprech-Tagging war für die Entwicklung von Spracherkennungssoftware von entscheidender Bedeutung.Auf Englisch beispielsweise könnte das gleiche Wort mehr als einen Teil der Sprache haben.Multisyllabische Wörter werden oft unterschiedlich gestresst, um zu signalisieren, welcher Teil der Sprache verwendet wird.Das Substantiv „Objekt“ trägt die erste Silbe, aber das Verb „Objekt“ wird auf der zweiten Silbe betont.Das Markieren der Substantivform des „Objekts“ hilft dem Computerprogramm, es beide richtig vorzulesen und zu erkennen, wenn „Objekt“ von einem Menschen gesagt wird.

Textkorpora sind sowohl für die menschliche Linguistik als auch für die Berechnung der Linguistik nützlich.Sie ermöglichen die Durchführung von Forschung, die den Menschen hilft, die Sprache, die Menschen verwenden, besser zu verstehen, was wiederum dazu beiträgt, die Verwendung der Sprachcomputer zu entwickeln.Es wurden große Sprünge in der Spracherkennungstechnologie gemacht, die es den Verbrauchern ermöglicht, Computer in ihren Büros, Häusern und Fahrzeugen verbal zu steuern.Durch kontinuierliche Fortschritte können Menschen so natürlich mit Computern kommunizieren wie miteinander.