Qu'est-ce qu'un corpus de texte?

Un corpus de texte est une collection de textes, parlés ou écrits, qui constituent la base de la recherche en linguistique de corpus. Le stockage de ces grandes banques de textes permet aux chercheurs d’analyser divers aspects d’une langue. Un corpus de texte est un moyen efficace de mener une recherche, car une fois le matériel rassemblé, il peut être utilisé pour étudier diverses questions liées au langage, notamment la morphologie, la syntaxe, le vocabulaire et la pragmatique. Contrairement aux méthodes plus anciennes de recherche linguistique, un corpus de texte permet aux chercheurs d’examiner le langage en fonction de la façon dont il est utilisé dans son contexte, plutôt que de la manière dont il pourrait être utilisé de manière hypothétique. Les linguistes ont généralement accès à des échantillons de données beaucoup plus volumineux que lorsqu'ils étaient obligés de se limiter aux données qu'ils pouvaient collecter eux-mêmes dans un délai limité avec des ressources financières limitées.

Les corpus étant généralement stockés dans un ordinateur, des logiciels peuvent être créés pour faciliter la recherche. Une manière courante d'utiliser un corpus de texte consiste à compter le nombre total de mots dans les textes, puis à compter et à classer le nombre d'occurrences de certains mots. Le rapport créé entre le nombre total de mots et de mots spécifiques est appelé loi de Zipf. Ce rapport aide à expliquer la fréquence des mots dans une langue. Comprendre la loi de Zipf aide les programmeurs informatiques à concevoir un logiciel informatique qui réponde aux exigences d'un langage donné. Ils peuvent compter et prédire la fréquence à laquelle certains mots et phrases seront utilisés comme entrée.

Une autre façon d'utiliser un corpus de texte consiste à marquer des éléments spécifiques dans celui-ci que le chercheur souhaite étudier. Un exemple d'utilisation de cette méthode consiste à compter le nombre de fois que la voix passive apparaît dans différents genres de texte. Le marquage a également été utile pour créer des programmes informatiques qui aident les gens dans leur vie quotidienne. Le marquage d'une partie de la parole a été essentiel au développement d'un logiciel de reconnaissance vocale. En anglais, par exemple, le même mot peut avoir plusieurs parties du discours. Les mots multisyllabiques sont souvent soulignés différemment pour indiquer quelle partie du discours est utilisée. Le nom “objet” porte son accent sur la première syllabe, mais le verbe “objet” est accentué sur la deuxième syllabe. Le balisage de la forme nominale «objet» aide le programme informatique à la lire correctement à voix haute et à le reconnaître lorsqu'un objet est dit par un humain.

Les corpus de texte sont utiles à la fois pour la linguistique humaine et la linguistique informatique. Ils permettent de mener des recherches qui aident les gens à mieux comprendre le langage utilisé par les humains, ce qui aide à développer le langage utilisé par les ordinateurs. La technologie de reconnaissance vocale a fait de grands progrès, permettant aux consommateurs de contrôler verbalement les ordinateurs dans leurs bureaux, leurs maisons et leurs véhicules. Les progrès continus permettront aux humains de communiquer avec les ordinateurs aussi naturellement qu’ils le font entre eux.

Qu'est-ce qu'un corpus de texte?

Cet article vous a‑t‑il été utile ?