Skip to main content

最も一般的な音声認識の問題は何ですか?

Sperice Speect Outleditionソフトウェアは、最初に発明されてから大幅に進歩していますが、転写方法としてのみ使用することを妨げるいくつかの大きな問題があります。解決が困難な音声認識の問題のいくつかには、単語の発音、個々のアクセント、同音異義語、不要な周囲の騒音の変動が含まれます。別の音声認識の問題は、実際にサウンドを入力するために使用されるハードウェアのタイプを伴います。これは、結果がソフトウェアがスピーチを解釈する方法に大きな影響を与える可能性があるためです。また、話されている単語のコンテキストを知らないという問題もあります。これは、句読点や不正確なスペルを持たないテキストにつながる可能性があります。マイクが十分に敏感ではない場合、mdash;または過度に敏感です—その後、ソフトウェアが解読するのが難しいオーディオ情報を作成できます。これは、マイクが非常に敏感であるため、音声が歪んでいる場合に特に当てはまり、認識ソフトウェアがほとんど役に立たないようにします。同様の問題は、メインの音声から分離するために問題があるバックグラウンドノイズに起因し、音声処理に含まれる場合に不正確な翻訳を引き起こす可能性があります。問題。一語がいくつかの方法で発音される場合、ソフトウェアは混乱し、言われていることを誤解する可能性があります。人がプログラムが予想するよりも遅くなったり速く話したりする場合、同じことが発生する可能性があります。単一のユーザーの音声パターンでソフトウェアをトレーニングしたり、動的時間帯のアルゴリズムを使用してスピーチをサンプルのデータベースに一致させるなど、いくつかの部分的なソリューションがありますが、それらはすべての問題を解決しません。音声認識の問題の問題は、話されている単語の文脈を識別することです。コンピューターソフトウェアは、単語のコレクションの意図された意味を特定することができず、転写されたテキストに関する多くの問題につながります。同様の音を持っている単語は、そのようなものとそのように、使用状況のコンテキストがわかっている場合にのみ正確に綴ることができます。この同じ理由で、正確な句読点は、ソフトウェアが単語のシーケンスを知ることにのみに基づいて配置することはほとんど不可能です。医学などの分野で使用される機能的な転写ソフトウェアがありますが、結果は多くの場合、分離のない単語のブロックです。つまり、ドキュメントを編集して読みやすい最終コピーを作成するには、人間の転写士がまだ必要です。