Skip to main content

Hvad er de forskellige talegenkendelsesteknikker?

Flere talegenkendelsesteknikker bruges til at fange talte ord og konvertere dem til data, der kan bruges af et softwareprogram.Der er tre brede måder at analysere tale i et forsøg på at bestemme, hvad der bliver sagt.Den første kaldes diskret tale, hvilket betyder, at der kun tales et enkelt ord ad gangen.Den anden er kendt som tilsluttet tale, og ord skal tales på en bestemt måde for at blive forstået.Endelig er der kontinuerlig tale, hvilket er, hvordan de fleste mennesker normalt taler.

Den mest almindelige algoritme, der bruges til alle typer talegenkendelsesteknikker, er den skjulte Markov -model (HMM).Dette system involverer store datatræer af fonemer eller basale lyde og stavelser, som er divideret med den statistiske sandsynlighed for en lyd efter en anden.Ved at sammenligne hvert fonem med en knude i lydeens datatræ, kan det faktiske afsluttede ord bestemmes med en høj nøjagtighedshastighed i en relativt kort periode.

Et problem, der er vanskeligt at overvinde med nogle talegenkendelsesteknikker, erIsolering af, hvor et ord starter og slutter.Denne opgave er kompliceret af baggrundsstøj i rummet og det faktum, at nogle stavelser har en lydsignatur, der ligner en pause mellem ord.Af denne grund er diskrete og tilsluttede talegenkendelsesteknikker de mest nøjagtige.

En anden faktor, der adskiller forskellige talegenkendelsesteknikker, er spørgsmålet om softwareforråd.Software, der fortolker tale, kan enten have et meget begrænset ordforråd med en høj nøjagtighed eller et stort ordforråd, der skal matches til en bestemt brugers individuelle talemønstre.Når et program bruger HMM -metoden til at samle ord, jo færre antallet af ord, der forstås, desto mere nøjagtigt kan programmet være.Dette er den metode, som de fleste automatiserede telefonsystemer bruger til at dechiffrere tal eller svar på spørgsmål.

Talegenkendelsesteknikker, der forstår et stort ordforråd, er normalt designet til at interagere med meget få eller kun en bruger.Dette skyldes, at programmet skal trænes til at forstå talemønstrene for den person, der taler.Uddannelsen involverer at læse foruddannede afsnit af tekst til softwaren.De ord, der læses, er kendt, så programmet er i stand til at opbygge en statistisk model af fonemer, der er specifikke for brugeren.Dette giver programmet en meget bedre chance for at forstå brugeren, men det kan også hindre de programmer, der er forståelse for mennesker, som det ikke har trænet med.

Den vanskeligste af talegenkendelsesteknikkerne er at fortolke kontinuerlig eller naturlig tale.Mange mennesker har en tendens til at køre ord sammen og tale i forskellige hastigheder, så nøjagtigheden af programmer, der oversætter kontinuerlig tale, er lavere end for de andre metoder.Der findes stadig programmer, der kan oversætte denne type tale, nogle af dem bruger uklar logik og neurale netværk for at hjælpe med at genkende mønstre og isolere ord.