Skip to main content

Qu'est-ce qu'un corpus de texte?

Un corpus de texte est une collection de textes, parlés ou écrits, qui est la base de la recherche en linguistique corpus.Le stockage de ces grandes banques de textes permet aux chercheurs d'analyser divers aspects de toute langue.Un corpus de texte est un moyen efficace de mener des recherches car une fois le matériel rassemblé, il peut être utilisé pour étudier une variété de problèmes liés au langage, notamment la morphologie, la syntaxe, le vocabulaire et la pragmatique.Contrairement aux anciennes méthodes de recherche de la recherche linguistique, un corpus de texte permet aux chercheurs de regarder le langage en fonction de la façon dont il est réellement utilisé dans le contexte, plutôt que de la façon dont il pourrait être utilisé hypothétiquement.Les linguistes ont généralement accès à des échantillons de données beaucoup plus importants que lorsqu'ils ont dû se limiter aux données qu'ils pouvaient se collecter dans une période limitée avec des ressources financières limitées.

Les corpus sont généralement stockés sur un ordinateur, de sorte que les logiciels informatiques peuvent être créés pour faciliter la recherche.Une façon courante d'utiliser un corpus de texte est de compter le nombre total de mots dans les textes, puis de compter et de classer le nombre de fois que certains mots sont apparus.Le rapport créé entre le nombre de mots totaux et les mots spécifiques est connu sous le nom de loi de Zipf.Ce rapport aide à expliquer la fréquence des mots dans une langue.La compréhension de la loi de ZIPF aide les programmeurs informatiques à concevoir un logiciel informatique qui répond aux exigences d'une langue donnée.Ils peuvent compter et prédire à quelle fréquence certains mots et phrases seront utilisés comme entrée.

Une autre façon d'utiliser un corpus de texte consiste à étiqueter des éléments spécifiques que le chercheur veut étudier.Un exemple de la façon dont cela serait utilisé est de compter le nombre de fois que la voix passive apparaît dans différents genres de texte.Le marquage a également été utile pour créer des programmes informatiques qui aident les gens dans leur vie quotidienne.Une partie du marquage de la parole a été essentielle au développement de logiciels de reconnaissance vocale.En anglais, par exemple, le même mot pourrait avoir plus d'une partie du discours.Les mots multisyllabiques sont souvent soulignés différemment pour signaler quelle partie de la parole est utilisée.Le nom «objet» comporte sa contrainte sur la première syllabe, mais le verbe «objet» est souligné sur la deuxième syllabe.Le marquage du nom de «objet» aide le programme informatique à le lire correctement à haute voix et le reconnaît lorsque «l'objet» est dit par un humain.

Les corpus de texte sont utiles à la linguistique humaine et à la linguistique informatique.Ils permettent de mener des recherches qui aident les gens à mieux comprendre la langue que les humains utilisent, ce qui aide à son tour à développer la langue que les ordinateurs utilisent.De grands sauts ont été faits dans la technologie de reconnaissance vocale, permettant aux consommateurs de contrôler verbalement les ordinateurs dans leurs bureaux, maisons et véhicules.Les progrès continus permettront aux humains de communiquer avec les ordinateurs aussi naturellement que les uns avec les autres.