Skip to main content

Vilka är de olika tekniker för taligenkänning?

Flera taligenkänningstekniker används för att fånga talade ord och omvandla dem till data som kan användas av ett program.Det finns tre breda sätt att analysera tal i ett försök att avgöra vad som sägs.Det första kallas diskret tal, vilket betyder att bara ett enda ord talas åt gången.Den andra kallas anslutet tal, och ord måste talas på ett visst sätt att förstås.Slutligen finns det kontinuerligt tal, vilket är hur de flesta normalt talar.

Den vanligaste algoritmen som används för alla typer av taligenkänningstekniker är Hidden Markov -modellen (HMM).Detta system involverar stora dataträd av fonem, eller grundläggande ljud och stavelser, som är uppdelade av den statistiska sannolikheten för ett ljud efter ett annat.Genom att jämföra varje fonem med en nod i dataträdet för ljud kan det faktiska slutförda ordet bestämmas med en hög noggrannhet på relativt kort tid.

Ett problem som är svårt att övervinna med vissa taligenkänningstekniker ärisolerar där ett ord börjar och slutar.Denna uppgift kompliceras av bakgrundsbrus i rummet och det faktum att vissa stavelser har en ljudsignatur som liknar en paus mellan ord.Av denna anledning är diskreta och anslutna taligenkänningstekniker de mest exakta.

En annan faktor som skiljer olika taligenkänningstekniker är frågan om programvaruförråd.Programvara som tolkar tal kan antingen ha ett mycket begränsat ordförråd med en hög noggrannhet, eller ett stort ordförråd som måste matchas med en specifik användares individuella talmönster.När ett program använder HMM -metoden för att montera ord, desto färre antal ord som förstås, desto mer exakt kan programmet vara.Detta är den metod som de flesta automatiserade telefonsystem använder för att dechiffrera nummer eller svar på frågor.

Taligenkänningstekniker som förstår ett stort ordförråd är vanligtvis utformade för att interagera med mycket få eller bara en användare.Detta beror på att programmet måste utbildas för att förstå talmönstren för den person som talar.Utbildningen innebär att läsa förberedda stycken för text till programvaran.Orden som läses är kända, så programmet kan bygga en statistisk modell av fonem som är specifika för användaren.Detta ger programmet en mycket bättre chans att förstå användaren, men det kan också hindra programmen förståelse för människor som det inte har utbildat med.

Det svåraste med taligenkänningsteknikerna är att tolka kontinuerligt eller naturligt tal.Många människor tenderar att köra ord och talar i olika hastigheter, så noggrannheten hos program som översätter kontinuerligt tal är lägre än för de andra metoderna.Fortfarande finns program som kan översätta denna typ av tal, några av dem använder fuzzy logik och neurala nätverk för att hjälpa till att känna igen mönster och isolera ord.