Hvad er de forskellige teknikker til talegenkendelse?

Flere talegenkendelsesteknikker bruges til at fange talte ord og konvertere dem til data, der kan bruges af et softwareprogram. Der er tre brede måder at analysere tale i et forsøg på at bestemme, hvad der bliver sagt. Den første kaldes diskret tale, hvilket betyder, at der kun tales et enkelt ord ad gangen. Den anden er kendt som sammenhængende tale, og ord skal tales på en bestemt måde for at blive forstået. Endelig er der kontinuerlig tale, hvilket er, hvordan de fleste normalt taler.

Den mest almindelige algoritme, der bruges til alle typer talegenkendelsesteknikker, er Hidden Markov Model (HMM). Dette system involverer store datatræer af fonemer eller grundlæggende lyde og stavelser, der er divideret med den statistiske sandsynlighed for, at en lyd følger en anden. Ved at sammenligne hvert fonem med en knude i datatreet for lyde, kan det faktiske afsluttede ord bestemmes med en høj nøjagtighed i en relativt kort periode.

Et problem, som det er vanskeligt at overvinde med nogle talegenkendelsesteknikker, er at isolere, hvor et ord starter og slutter. Denne opgave er kompliceret af baggrundsstøj i rummet og det faktum, at nogle stavelser har en lydsignatur, der ligner en pause mellem ord. Af denne grund er diskrete og tilsluttede talegenkendelsesteknikker de mest nøjagtige.

En anden faktor, der adskiller forskellige talegenkendelsesteknikker, er spørgsmålet om softwarevokabular. Software, der fortolker tale, kan enten have et meget begrænset ordforråd med en høj nøjagtighed eller et stort ordforråd, der skal tilpasses en bestemt brugers individuelle talemønstre. Når et program bruger HMM-metoden til at samle ord, jo færre antallet af ord, der forstås, desto mere nøjagtigt kan programmet være. Dette er den metode, som de fleste automatiserede telefonsystemer bruger til at dechifrere numre eller svar på spørgsmål.

Talegenkendelsesteknikker, der forstår et stort ordforråd, er normalt designet til at interagere med meget få eller kun en bruger. Dette skyldes, at programmet skal trænes til at forstå talemønsteret for den person, der taler. Træningen involverer læsning af foruddannede afsnit af tekst til softwaren. De ord, der læses, er kendte, så programmet er i stand til at opbygge en statistisk model af fonemer, der er specifikke for brugeren. Dette giver programmet en meget bedre chance for at forstå brugeren, men det kan også hindre programmets forståelse af mennesker, som det ikke har trænet med.

Den vanskeligste af talegenkendelsesteknikker er at fortolke kontinuerlig eller naturlig tale. Mange mennesker har en tendens til at køre ord sammen og tale i forskellige hastigheder, så nøjagtigheden af programmer, der oversætter kontinuerlig tale, er lavere end for de andre metoder. Der findes stadig programmer, der kan oversætte denne type tale, nogle af dem bruger fuzzy logik og neurale netværk for at hjælpe med at genkende mønstre og isolere ord.

Hvad er de forskellige teknikker til talegenkendelse?

Hjalp denne artikel dig?