Teknologi

Apa itu pengenalan suara?

Pengenalan suara dapat merujuk pada salah satu dari dua jenis ilmu komputer: identifikasi suara forensik atau kemampuan bicara-ke-teks.Artikel ini membahas definisi terakhir.

Pengenalan suara, atau pengenalan ucapan dalam kasus ini, adalah teknologi komputer yang memanfaatkan input audio untuk memasukkan data daripada keyboard.Berbicara ke dalam mikrofon, misalnya, menghasilkan hasil yang sama dengan mengetik kata secara manual dengan keyboard.Sederhananya, perangkat lunak pengenalan suara dirancang dengan database internal kata atau frasa yang dapat dikenali.Program ini cocok dengan tanda tangan audio pidato dengan entri yang sesuai dalam database.

Meskipun mengubah pidato menjadi teks mungkin terdengar mudah, itu adalah tugas yang sangat sulit.Masalahnya terletak pada serangkaian pola dan aksen individu yang hampir tak terbatas, diperparah oleh kecenderungan manusia alami untuk menjalankan kata-kata bersama-sama.

Sebuah ilustrasi tentang tantangan yang melekat dari perangkat lunak pengenalan suara muncul pada t-shirt yang dibuat oleh para peneliti Apple.Kemeja itu berbunyi, saya membantu Apple menghancurkan pantai yang bagus.Saat diucapkan dengan keras, sepertinya, Saya membantu Apple mengenali pidato.

Berbagai model perangkat lunak pengenalan suara digunakan untuk berbagai aplikasi, dari dikte pribadi hingga rute panggilan otomatis komersial, dari membantu orang cacat hingga acara olahraga dan berita dan beritasubtitling.Setiap model berperilaku berbeda dan memiliki kemampuan dan batasannya sendiri.

Program pengenalan suara yang mengharuskan pengguna untuk melatih perangkat lunak untuk mengenali pola ucapan bergaya khusus mereka disebut sistem speaker tergantung .Individu biasanya menggunakan jenis program ini di rumah atau di kantor.Email, memo, surat, data, dan teks dapat dimasukkan dengan berbicara ke dalam mikrofon.

Beberapa sistem pengenalan suara, yang disebut sistem diskrit sistem, mengharuskan pengguna untuk berbicara dengan jelas dan perlahan dan memisahkan kata -kata.

Sistem pidato berkelanjutan

Sistem dirancang untuk memahami mode berbicara yang lebih alami. Sistem pengenalan suara ucapan diskrit banyak digunakan untuk perutean layanan pelanggan.Sistem ini speaker independen , tetapi hanya memahami sekelompok kecil kata atau frasa.Penelepon diberi pilihan untuk menjawab pertanyaan, biasanya dengan ya atau tidak.Setelah menerima jawaban, sistem meningkatkan penelepon ke tingkat berikutnya.Jika penelepon membalas dengan jawaban yang unik, respons otomatis biasanya, maaf, saya tidak mengerti Anda;Silakan coba lagi, dengan pengulangan pertanyaan dan jawaban yang tersedia.Program ini dirancang untuk memilih kata-kata kunci atau frasa dan membuat statistik terbaik untuk apa yang diinginkan pelanggan.Berbicara dengan jelas membantu pengenalan suara dalam mengidentifikasi kebutuhan.Jenis sistem ini memiliki basis data yang jauh lebih intensif daripada sistem bicara yang bijaksana dan juga disebut sebagai

Pengenalan Bahasa Alami.

Otomatis Pengenalan Pidato (ASR) adalah model pengenalan suara yang dirancang untuk dikte.Perangkat lunak ini berbeda dari model sebelumnya karena tidak berusaha untuk memahami apa yang dikatakan, hanya untuk mengidentifikasi kata -kata yang diucapkan.Karena banyak kata dalam bahasa Inggris terdengar sama, kesalahan mudah dibuat.Namun, perusahaan -perusahaan besar seperti Microsoft berinvestasi dalam pengenalan suara, dan prediksi Bill Gates sendiri memiliki ASR memahami pidato berkelanjutan pada tahun 2011. Perangkat lunak ASR sering ditemukan pada perekam suara digital., dengan mantan perusahaan yang mengakuisisi yang terakhir.Pemain yang lebih kecil termasuk Fonix Speech, Aculab dan Verbio, antara lain, dengan perusahaan besarSeperti IBM dan Microsoft yang disebutkan di atas juga berinvestasi dalam teknologi.Meskipun banyak yang masih merasa lebih sulit untuk melatih perangkat lunak dan memperbaiki kesalahan daripada hanya menggunakan keyboard, suatu waktu akan tiba ketika perangkat lunak pengenalan suara kemungkinan akan menutup celah itu.Menambah keyboard dengan kemampuan diskriminatif untuk menggunakan ucapan mungkin akan menjadi hal biasa.

Perangkat lunak pengenalan suara semakin populer karena menjadi lebih canggih.Ini sangat berguna dalam bisnis di mana ia dapat menggantikan operator langsung untuk menyalurkan panggilan, menyebarkan informasi, menerima pesanan dan melakukan fungsi -fungsi lain yang sangat berguna.Namun, itu juga mendapatkan bantuan sebagai aplikasi desktop, dibantu oleh perangkat lunak terkenal seperti ScanSofts, Dragonnaturalspeaking dan IBMS VIAVOICE .