Quel est le lien entre la synthèse vocale et la reconnaissance?

La synthèse et la reconnaissance de la parole sont les deux faces de l’analyse informatisée de la parole. La synthèse vocale est la création de la parole humaine par un ordinateur; par exemple, un ordinateur lisant un texte écrit. La reconnaissance vocale est la création d'informations informatiques à partir de mots parlés, telles que la dictée d'un document à un ordinateur. Bien que les deux processus ne soient pas directement liés, la synthèse et la reconnaissance de la parole reposent toutes deux sur la capacité de l'ordinateur à comprendre la parole et les inflexions humaines. Une méthode est sortie et l'autre est entrée.

Les processus utilisés par la synthèse et la reconnaissance de la parole sont très similaires, même si le produit final est différent. Le processus comprend deux parties, une avec interaction humaine et une sans. La partie humaine correspond au moment où des mots humains entrent dans le programme; la partie non humaine se produit lorsque le programme interopère l'entrée.

Un programme de synthèse vocale prendra en compte la participation humaine sous forme de langage humain dactylographié ou écrit. Le programme lira la langue et déterminera ce que chaque mot est, en utilisant le placement de phrase et la ponctuation pour déterminer la flexion. Lorsqu'un mot peut être prononcé de plusieurs manières, comme dans le cas de «direct», le programme recherche les mots proches et les indices de contexte pour déterminer le mot réellement utilisé. Les mots iront ensuite à la deuxième partie du programme, où ils sont prononcés à voix haute.

Dans un programme de reconnaissance vocale, le processus est opposé. L'entrée provient d'un locuteur humain qui dit des mots dans un ordinateur. L'ordinateur écoute chaque mot et compare le motif généré par la voix du locuteur à une bibliothèque de sons et de mots possibles. Il détermine ensuite le mot le plus probable et l'envoie à la deuxième partie du système. Cette partie affiche les mots à l’écran, de la même manière que le programme de synthèse les dit.

Étant donné que chaque locuteur sonne légèrement différemment, les programmes de synthèse et de reconnaissance de la parole ont souvent une grande marge d'erreur. Les profils de parole individualisés sont l’un des moyens utilisés par les gens pour lutter contre ces erreurs. Un seul orateur verra son discours analysé par le programme pour trouver ses modèles vocaux spécifiques. Lorsqu'il trouve des erreurs dans la traduction informatique, il peut les corriger spécifiquement. Les corrections sont analysées et stockées par le programme pour que le programme le traduise correctement lorsque le mot gênant réapparaîtra.

Il existe une vaste application pour les programmes de synthèse et de reconnaissance de la parole. Dans le domaine médical, ces programmes permettent aux personnes de communiquer avec des personnes qui pourraient autrement ne pas être en mesure de le faire. Ces programmes ont une large application dans les entreprises en tant que moyen plus rapide de traduction de rapports et de documents. La reconnaissance vocale est également une méthode courante pour configurer des dispositifs mains libres dans les automobiles, permettant aux personnes de parler au téléphone de manière plus sûre en conduisant.

Quel est le lien entre la synthèse vocale et la reconnaissance?

Cet article vous a‑t‑il été utile ?