Skip to main content

Jaké jsou různé techniky rozpoznávání řeči?

Několik technik rozpoznávání řeči se používá k zachycení mluvených slov a jejich převodu na data, která lze použít softwarovým programem.Existují tři široké způsoby, jak analyzovat řeč ve snaze určit, co se říká.První se nazývá diskrétní řeč, což znamená, že se najednou mluví pouze jediné slovo.Druhá je známá jako propojená řeč a slova musí být mluvena určitým způsobem, aby bylo možné pochopit.Konečně existuje kontinuální řeč, což je to, jak většina lidí normálně mluví.

Nejběžnějším algoritmem používaným pro všechny typy technik rozpoznávání řeči je skrytý Markovův model (HMM).Tento systém zahrnuje velké datové stromy fonémů nebo základní zvuky a slabiky, které jsou děleny statistickou pravděpodobností jednoho zvuku po druhém.Porovnáním každého fonému s uzlem v datovém stromu zvuků lze skutečné dokončené slovo určit s vysokou mírou přesnosti v relativně krátkém časovém období.Izolace tam, kde slovo začíná a končí.Tento úkol je komplikován šumem na pozadí v místnosti a skutečností, že některé slabiky mají zvukový podpis, který se podobá zlomu mezi slovy.Z tohoto důvodu jsou nejpřesnější diskrétní a propojené techniky rozpoznávání řeči.Software, který interpretuje řeč, může mít buď velmi omezenou slovní zásobu s vysokou přesností, nebo velkou slovní zásobu, která musí být přizpůsobena jednotlivým vzorcům řeči konkrétního uživatele.Když program používá metodu sestavení slov HMM, tím méně počtu slov, která jsou pochopena, může být program přesnější.Toto je metoda, kterou většina automatizovaných telefonních systémů používá k dešifrování čísel nebo odpovědí na otázky.Je to proto, že program musí být vyškolen, aby porozuměl řečovým vzorcům mluvící osobě.Školení zahrnuje čtení předem vytvořených odstavců textu k softwaru.Čtená slova jsou známa, takže program je schopen vytvořit statistický model fonémů specifických pro uživatele.To dává programu mnohem větší šanci na porozumění uživateli, ale také by to mohlo bránit programům porozumění lidem, s nimiž se nevycvičil.

Nejobtížnější z technik rozpoznávání řeči je interpretace nepřetržité nebo přirozené řeči.Mnoho lidí má tendenci řídit slova společně a mluvit různými rychlostmi, takže přesnost programů, které překládají nepřetržitou řeč, je nižší než u jiných metod.Stále však existují programy, které mohou tento typ řeči překládat, některé z nich využívají fuzzy logické a neuronové sítě, aby pomohly rozpoznat vzory a izolovat slova.