Skip to main content

Quali sono le diverse tecniche di riconoscimento vocale?

Diverse tecniche di riconoscimento vocale vengono utilizzate per catturare le parole parlate e convertirle in dati che possono essere utilizzati da un programma software.Esistono tre modi ampi per analizzare il discorso nel tentativo di determinare ciò che viene detto.Il primo si chiama discorso discreto, il che significa che viene pronunciata una sola parola alla volta.Il secondo è noto come discorso connesso e le parole devono essere pronunciate in un certo modo da comprendere.Infine, c'è un discorso continuo, che è il modo in cui la maggior parte delle persone parla normalmente.

L'algoritmo più comune abituato per tutti i tipi di tecniche di riconoscimento vocale è il modello Hidden Markov (HMM).Questo sistema coinvolge grandi alberi di dati di fonemi, o suoni e sillabe di base, che sono divisi per la probabilità statistica di un suono seguendo un altro.Confrontando ogni fonema con un nodo nell'albero dei dati dei suoni, la parola effettiva completata può essere determinata con un alto tasso di accuratezza in un periodo di tempo relativamente breve.

Un problema che è difficile da superare con alcune tecniche di riconoscimento vocale èisolando dove inizia e finisce una parola.Questo compito è complicato dal rumore di fondo nella stanza e dal fatto che alcune sillabe abbiano una firma audio che ricorda una rottura tra le parole.Per questo motivo, le tecniche di riconoscimento vocale discrete e connesse sono le più accurate.

Un altro fattore che separa le diverse tecniche di riconoscimento vocale è la questione del vocabolario software.Il software che sta interpretando il discorso può avere un vocabolario molto limitato con un'alta precisione o un grande vocabolario che deve essere abbinato ai modelli di linguaggio individuale di un utente specifici.Quando un programma utilizza il metodo HMM per assemblare le parole, minore è il numero di parole che sono comprese, più accurata può essere il programma.Questo è il metodo che la maggior parte dei sistemi telefonici automatizzati utilizza per decifrare numeri o risposte a domande.

Le tecniche di riconoscimento vocale che comprendono un vocabolario di grandi dimensioni sono generalmente progettate per interagire con pochissimi o un solo utente.Questo perché il programma deve essere addestrato per comprendere gli schemi vocali della persona che parla.La formazione prevede la lettura di paragrafi prefabbricati di testo al software.Sono note le parole da leggere, quindi il programma è in grado di creare un modello statistico di fonemi specifici per l'utente.Ciò offre al programma una possibilità molto migliore di comprendere l'utente, ma potrebbe anche ostacolare i programmi di comprensione delle persone con cui non si è allenato.

La più difficile delle tecniche di riconoscimento vocale è l'interpretazione del linguaggio continuo o naturale.Molte persone tendono a mettere insieme le parole e parlano a velocità diverse, quindi l'accuratezza dei programmi che traduce il linguaggio continuo è inferiore a quella degli altri metodi.Tuttavia, esistono programmi che possono tradurre questo tipo di discorso, alcuni di loro che impiegano logica fuzzy e reti neurali per aiutare a riconoscere i modelli e isolare le parole.