Skip to main content

Wat zijn de verschillende technieken voor spraakherkenning?

Verschillende technieken voor spraakherkenning worden gebruikt om gesproken woorden vast te leggen en om te zetten in gegevens die door een softwareprogramma kunnen worden gebruikt.Er zijn drie brede manieren om spraak te analyseren in een poging te bepalen wat er wordt gezegd.De eerste wordt discrete spraak genoemd, wat betekent dat slechts één woord tegelijk wordt gesproken.De tweede staat bekend als verbonden spraak en woorden moeten op een bepaalde manier worden gesproken om te worden begrepen.Ten slotte is er continue spraak, dat is hoe de meeste mensen normaal gesproken spreken.

Het meest voorkomende algoritme dat wordt gebruikt voor alle soorten spraakherkenningstechnieken is het Hidden Markov -model (HMM).Dit systeem omvat grote gegevensbomen van fonemen, of basisgeluiden en lettergrepen, die worden gedeeld door de statistische waarschijnlijkheid van het ene geluid na een ander.Door elk foneem te vergelijken met een knooppunt in de gegevensboom van geluiden, kan het werkelijke voltooide woord in een relatief korte periode met een hoge nauwkeurigheid worden bepaald.

Eén probleem dat moeilijk te overwinnen is met sommige spraakherkenningstechnieken isIsolerend waar een woord begint en eindigt.Deze taak wordt gecompliceerd door achtergrondruis in de kamer en het feit dat sommige lettergrepen een audiosignatuur hebben die lijkt op een pauze tussen woorden.Om deze reden zijn discrete en verbonden spraakherkenningstechnieken de meest nauwkeurige.

Een andere factor die verschillende technieken voor spraakherkenning scheidt, is de kwestie van software -woordenschat.Software die spraak interpreteert, kan een zeer beperkte vocabulaire hebben met een hoge nauwkeurigheid, of een grote vocabulaire die moet worden gekoppeld aan de individuele spraakpatronen van een specifieke gebruiker.Wanneer een programma de HMM -methode gebruikt om woorden samen te stellen, hoe minder het aantal woorden dat wordt begrepen, hoe nauwkeuriger het programma kan zijn.Dit is de methode die de meeste geautomatiseerde telefoonsystemen gebruiken om nummers of antwoorden op vragen te ontcijferen.

Spraakherkenningstechnieken die een grote vocabulaire begrijpen, zijn meestal ontworpen om te communiceren met zeer weinig of slechts één gebruiker.Dit komt omdat het programma moet worden getraind om de spraakpatronen van de persoon te begrijpen.De training omvat het lezen van vooraf gemaakte paragrafen van tekst aan de software.De woorden die worden gelezen, zijn bekend, dus het programma kan een statistisch model van fonemen bouwen die specifiek zijn voor de gebruiker.Dit geeft het programma een veel betere kans om de gebruiker te begrijpen, maar het kan ook het begrip van de programma's belemmeren van mensen met wie het niet heeft getraind.

De moeilijkste van de spraakherkenningstechnieken is het interpreteren van continue of natuurlijke spraak.Veel mensen hebben de neiging om woorden samen te runnen en met verschillende snelheden te spreken, dus de nauwkeurigheid van programma's die continue spraak vertalen is lager dan die van de andere methoden.Toch bestaan er programma's die dit soort spraak kunnen vertalen, sommigen die fuzzy logica en neurale netwerken gebruiken om patronen te herkennen en woorden te isoleren.