Skip to main content

Apa masalah pengenalan suara yang paling umum?

Perangkat lunak pengenalan suara telah sangat maju sejak pertama kali ditemukan, tetapi masih memiliki beberapa masalah besar yang mencegahnya digunakan secara eksklusif sebagai metode transkripsi.Beberapa masalah pengenalan suara yang sulit dipecahkan termasuk variasi dalam pengucapan kata -kata, aksen individu, homonim dan suara ambien yang tidak diinginkan.Serangkaian masalah pengenalan ucapan lain melibatkan jenis perangkat keras yang digunakan untuk benar -benar memasukkan suara, karena hasilnya dapat memiliki dampak besar dalam bagaimana perangkat lunak akan menafsirkan pidato.Ada juga masalah tidak mengetahui konteks kata -kata yang diucapkan, yang dapat menyebabkan teks yang tidak memiliki tanda baca atau ejaan yang tidak akurat.

Salah satu masalah pengenalan suara paling mendasar adalah kualitas perangkat input yang digunakan.Jika mikrofon tidak cukup sensitif mdash;atau terlalu sensitif mdash;Maka dapat membuat informasi audio yang sulit bagi perangkat lunak untuk diuraikan.Ini terutama benar ketika mikrofon sangat sensitif sehingga pidato terdistorsi, membuat perangkat lunak pengenalan hampir tidak berguna.Masalah serupa berasal dari kebisingan latar belakang yang dapat bermasalah untuk terpisah dari pidato utama dan dapat menyebabkan terjemahan yang tidak akurat ketika dimasukkan dalam pemrosesan pidato.masalah.Ketika satu kata dapat diucapkan dalam beberapa cara, perangkat lunak dapat menjadi bingung dan salah menafsirkan apa yang dikatakan.Hal yang sama dapat terjadi ketika seseorang berbicara lebih lambat atau lebih cepat dari yang diharapkan oleh program.Ada beberapa solusi parsial, seperti melatih perangkat lunak dalam pola bicara seorang pengguna tunggal dan menggunakan algoritma warping waktu yang dinamis untuk mencocokkan pidato dengan database sampel, tetapi mereka tidak menyelesaikan semua masalah.

Yang paling kompleksdari masalah pengenalan ucapan adalah mengidentifikasi konteks kata -kata yang diucapkan.Perangkat lunak komputer tidak dapat mengidentifikasi makna yang dimaksudkan dari kumpulan kata, yang mengarah ke sejumlah masalah dengan teks yang ditranskripsikan.Kata -kata yang memiliki suara yang sama, seperti mereka dan di sana, hanya dapat dieja secara akurat ketika konteks penggunaan diketahui.Untuk alasan yang sama ini, tanda baca yang akurat hampir tidak mungkin bagi perangkat lunak untuk ditempatkan hanya berdasarkan mengetahui urutan kata -kata.Ada perangkat lunak transkripsi fungsional yang digunakan dalam bidang seperti obat, tetapi hasilnya sering kali merupakan blok kata tanpa jenis pemisahan, artinya masih membutuhkan transkripsi manusia untuk mengedit dokumen dan membuat salinan akhir yang dapat dibaca.