Skip to main content

Các kỹ thuật nhận dạng giọng nói khác nhau là gì?

Một số kỹ thuật nhận dạng giọng nói được sử dụng để nắm bắt các từ được nói và chuyển đổi chúng thành dữ liệu có thể được sử dụng bởi một chương trình phần mềm.Có ba cách rộng để phân tích lời nói trong một nỗ lực để xác định những gì đang được nói.Đầu tiên được gọi là lời nói rời rạc, có nghĩa là chỉ một từ duy nhất được nói tại một thời điểm.Thứ hai được gọi là lời nói được kết nối, và các từ phải được nói theo một cách nhất định cần được hiểu.Cuối cùng, có lời nói liên tục, đó là cách mà hầu hết mọi người thường nói. Thuật toán phổ biến nhất được sử dụng cho tất cả các loại kỹ thuật nhận dạng giọng nói là mô hình Markov ẩn (HMM).Hệ thống này liên quan đến các cây dữ liệu lớn của âm vị, hoặc âm thanh và âm tiết cơ bản, được chia cho xác suất thống kê của một âm thanh sau một âm thanh khác.Bằng cách so sánh từng âm vị với một nút trong cây dữ liệu của âm thanh, từ hoàn thành thực tế có thể được xác định với tỷ lệ chính xác cao trong một khoảng thời gian tương đối ngắn. Một vấn đề khó khắc phục với một số kỹ thuật nhận dạng giọng nói làcách ly nơi một từ bắt đầu và kết thúc.Nhiệm vụ này rất phức tạp bởi tiếng ồn nền trong phòng và thực tế là một số âm tiết có chữ ký âm thanh giống như sự phá vỡ giữa các từ.Vì lý do này, các kỹ thuật nhận dạng giọng nói rời rạc và kết nối là chính xác nhất.Phần mềm đang diễn giải lời nói có thể có từ vựng rất hạn chế với độ chính xác cao hoặc từ vựng lớn phải phù hợp với các mẫu lời nói riêng lẻ của người dùng cụ thể.Khi một chương trình sử dụng phương pháp HMM để lắp ráp các từ, số lượng từ càng ít được hiểu, chương trình càng chính xác.Đây là phương pháp mà hầu hết các hệ thống điện thoại tự động sử dụng để giải mã các số hoặc câu trả lời cho các câu hỏi. Các kỹ thuật nhận dạng giọng nói hiểu một từ vựng lớn thường được thiết kế để tương tác với rất ít hoặc chỉ một người dùng.Điều này là do chương trình phải được đào tạo để hiểu các mẫu lời nói của người nói.Việc đào tạo liên quan đến việc đọc các đoạn văn bản được tạo sẵn cho phần mềm.Các từ đang được đọc được biết, vì vậy chương trình có thể xây dựng một mô hình thống kê về âm vị cụ thể cho người dùng.Điều này mang lại cho chương trình một cơ hội tốt hơn nhiều để hiểu người dùng, nhưng nó cũng có thể cản trở sự hiểu biết của các chương trình về những người mà nó không được đào tạo. Khó khăn nhất trong các kỹ thuật nhận dạng giọng nói là diễn giải lời nói liên tục hoặc tự nhiên.Nhiều người có xu hướng chạy các từ với nhau và nói ở các tốc độ khác nhau, vì vậy độ chính xác của các chương trình dịch nói liên tục thấp hơn so với các phương pháp khác.Tuy nhiên, các chương trình tồn tại có thể dịch loại bài phát biểu này, một số trong số chúng sử dụng logic mờ và mạng thần kinh để giúp nhận ra các mẫu và cách ly.