Teknologi

Apa saja teknik pengenalan ucapan yang berbeda?

Beberapa teknik pengenalan suara digunakan untuk menangkap kata -kata lisan dan mengubahnya menjadi data yang dapat digunakan oleh program perangkat lunak.Ada tiga cara luas untuk menganalisis pidato dalam upaya untuk menentukan apa yang dikatakan.Yang pertama disebut pidato diskrit, yang berarti hanya satu kata yang diucapkan pada suatu waktu.Yang kedua dikenal sebagai pidato yang terhubung, dan kata -kata harus diucapkan dengan cara tertentu untuk dipahami.Akhirnya, ada ucapan terus menerus, yang merupakan cara kebanyakan orang biasanya berbicara.

Algoritma yang paling umum digunakan untuk semua jenis teknik pengenalan ucapan adalah model Markov tersembunyi (HMM).Sistem ini melibatkan pohon data besar fonem, atau suara dasar dan suku kata, yang dibagi dengan probabilitas statistik satu suara mengikuti yang lain.Dengan membandingkan setiap fonem dengan node dalam pohon data suara, kata yang sebenarnya selesai dapat ditentukan dengan tingkat akurasi yang tinggi dalam periode waktu yang relatif singkat.

Salah satu masalah yang sulit diatasi dengan beberapa teknik pengenalan suara adalahmengisolasi di mana satu kata dimulai dan berakhir.Tugas ini rumit oleh kebisingan latar belakang di dalam ruangan dan fakta bahwa beberapa suku kata memiliki tanda tangan audio yang menyerupai istirahat di antara kata -kata.Untuk alasan ini, teknik pengenalan ucapan yang terpisah dan terhubung adalah yang paling akurat.

Faktor lain yang memisahkan teknik pengenalan suara yang berbeda adalah masalah kosa kata perangkat lunak.Perangkat lunak yang menafsirkan ucapan dapat memiliki kosakata yang sangat terbatas dengan akurasi tinggi, atau kosakata besar yang harus dicocokkan dengan pola ucapan masing -masing pengguna tertentu.Ketika suatu program menggunakan metode HMM untuk merakit kata -kata, semakin sedikit jumlah kata yang dipahami, semakin akurat programnya.Ini adalah metode yang digunakan sebagian besar sistem telepon otomatis untuk menguraikan angka atau tanggapan terhadap pertanyaan.

Teknik pengenalan suara yang memahami kosakata besar biasanya dirancang untuk berinteraksi dengan sangat sedikit atau hanya satu pengguna.Ini karena program harus dilatih untuk memahami pola bicara orang yang berbicara.Pelatihan ini melibatkan membaca paragraf teks yang sudah dibuat sebelumnya untuk perangkat lunak.Kata -kata yang sedang dibaca diketahui, sehingga program ini dapat membangun model statistik fonem khusus untuk pengguna.Ini memberi program ini peluang yang jauh lebih baik untuk memahami pengguna, tetapi juga dapat menghalangi pemahaman program tentang orang -orang yang belum dilatih.Banyak orang cenderung menjalankan kata -kata bersama dan berbicara dengan kecepatan yang berbeda, sehingga keakuratan program yang menerjemahkan ucapan terus menerus lebih rendah daripada metode lainnya.Namun, program memang ada yang dapat menerjemahkan jenis pidato ini, beberapa di antaranya menggunakan logika fuzzy dan jaringan saraf untuk membantu mengenali pola dan mengisolasi kata -kata.