Skip to main content

Was sind die unterschiedlichen Spracherkennungstechniken?

Mehrere Spracherkennungstechniken werden verwendet, um gesprochene Wörter zu erfassen und sie in Daten umzuwandeln, die von einem Softwareprogramm verwendet werden können.Es gibt drei umfassende Möglichkeiten, die Sprache zu analysieren, um festzustellen, was gesagt wird.Die erste wird als diskrete Sprache bezeichnet, was bedeutet, dass jeweils nur ein einziges Wort gesprochen wird.Die zweite wird als vernetzte Sprache bezeichnet, und Wörter müssen auf eine bestimmte Weise gesprochen werden, um verstanden zu werden.Schließlich gibt es eine kontinuierliche Sprache, wie die meisten Menschen normalerweise sprechen.

Der häufigste Algorithmus für alle Arten von Spracherkennungstechniken ist das Hidden Markov -Modell (HMM).Dieses System umfasst große Datenbäume von Phonemen oder grundlegende Klänge und Silben, die durch die statistische Wahrscheinlichkeit eines Klangs nach einem anderen geteilt werden.Durch Vergleich jedes Phonems mit einem Knoten im Datenbaum von Sounds kann das tatsächliche fertige Wort mit einer hohen Genauigkeitsrate in relativ kurzer Zeit bestimmt werden.

Ein Problem, das mit einigen Spracherkennungstechniken schwer zu überwinden ist, istIsolieren, wo ein Wort beginnt und endet.Diese Aufgabe wird durch Hintergrundgeräusche im Raum und die Tatsache, dass einige Silben eine Audiosignatur haben, die einer Pause zwischen den Wörtern ähnelt.Aus diesem Grund sind diskrete und vernetzte Spracherkennungstechniken die genauesten.Software, die die Sprache interpretiert, kann entweder ein sehr begrenztes Vokabular mit hoher Genauigkeit oder ein großes Vokabular haben, das mit den individuellen Sprachmustern eines bestimmten Benutzers übereinstimmt.Wenn ein Programm die HMM -Methode zum Zusammenstellen von Wörtern verwendet, kann das Programm umso genauer sein.Dies ist die Methode, mit der die meisten automatisierten Telefonsysteme Zahlen oder Antworten auf Fragen entschlüsseln.Dies liegt daran, dass das Programm geschult werden muss, um die Sprachmuster der Person zu verstehen.Das Training beinhaltet das Lesen von vorgefertigten Textabsätzen an die Software.Die Wörter, die gelesen werden, sind bekannt, sodass das Programm ein statistisches Modell von Phonemen erstellen kann, die für den Benutzer spezifisch sind.Dies gibt dem Programm eine viel bessere Chance, den Benutzer zu verstehen, aber es könnte auch das Programm des Verständnisses der Menschen, mit denen es nicht geschult hat, behindern.Viele Menschen tendieren dazu, Wörter zusammenzuführen und mit unterschiedlichen Geschwindigkeiten zu sprechen, daher ist die Genauigkeit von Programmen, die eine kontinuierliche Sprache übersetzen, niedriger als die der anderen Methoden.Es gibt jedoch Programme, die diese Art von Sprache übersetzen können, einige von ihnen, die Fuzzy Logic und neuronale Netzwerke verwenden, um Muster zu erkennen und Wörter zu isolieren.