Vilka är de olika teknikerna för taligenkänning?

Flera taligenkänningstekniker används för att fånga talade ord och konvertera dem till data som kan användas av ett program. Det finns tre breda sätt att analysera tal i ett försök att avgöra vad som sägs. Det första kallas diskret tal, vilket betyder att bara ett enda ord talas i taget. Den andra är känd som anslutna tal, och ord måste talas på ett visst sätt för att förstås. Slutligen finns det kontinuerligt tal, vilket är hur de flesta normalt talar.

Den vanligaste algoritmen som används för alla typer av taligenkänningstekniker är Hidden Markov Model (HMM). Detta system involverar stora dataträd av fonem, eller grundläggande ljud och stavelser, som delas med den statistiska sannolikheten för att ett ljud följer ett annat. Genom att jämföra varje fonem med en nod i dataträdet för ljud, kan det faktiska slutförda ordet bestämmas med en hög grad av noggrannhet under en relativt kort tidsperiod.

Ett problem som är svårt att lösa med vissa taligenkänningstekniker är att isolera var ett ord börjar och slutar. Denna uppgift kompliceras av bakgrundsljud i rummet och det faktum att vissa stavelser har en ljudsignatur som liknar ett avbrott mellan ord. Av denna anledning är diskreta och anslutna taligenkänningstekniker de mest exakta.

En annan faktor som skiljer olika taligenkänningstekniker är frågan om mjukvaror. Programvara som tolkar tal kan antingen ha ett mycket begränsat ordförråd med hög noggrannhet, eller ett stort ordförråd som måste anpassas till en specifik användares individuella talmönster. När ett program använder HMM-metoden för att samla ord, ju färre antalet ord som förstås, desto mer exakt kan programmet vara. Detta är den metod som de flesta automatiserade telefonsystem använder för att dechiffrera nummer eller svar på frågor.

Taligenkänningstekniker som förstår ett stort ordförråd är vanligtvis utformade för att interagera med mycket få eller bara en användare. Detta beror på att programmet måste utbildas för att förstå talmönstret för den person som talar. Utbildningen innebär att du läser förberedda stycken av text till programvaran. Orden som läses är kända, så programmet kan bygga en statistisk modell av fonemer specifika för användaren. Detta ger programmet en mycket bättre chans att förstå användaren, men det kan också hindra programmets förståelse för personer som det inte har tränat med.

Det svåraste med taligenkänningsteknikerna är att tolka kontinuerligt eller naturligt tal. Många människor tenderar att driva ord tillsammans och tala i olika hastigheter, så noggrannheten för program som översätter kontinuerligt tal är lägre än för de andra metoderna. Fortfarande finns det program som kan översätta denna typ av tal, några av dem använder dimmiga logik och neurala nätverk för att hjälpa till att känna igen mönster och isolera ord.

Vilka är de olika teknikerna för taligenkänning?

Hjälpte den här artikeln dig?