Công nghệ

Mối liên hệ giữa tổng hợp và nhận dạng lời nói là gì?

Tổng hợp và nhận dạng lời nói là hai mặt của phân tích lời nói trên máy vi tính.Tổng hợp lời nói là việc tạo ra lời nói của con người bằng máy tính;Chẳng hạn, một máy tính đọc văn bản bằng văn bản.Nhận dạng giọng nói là việc tạo ra thông tin máy tính từ các từ được nói, chẳng hạn như chỉ ra một bài báo cho máy tính.Mặc dù hai quá trình không liên quan trực tiếp, nhưng tổng hợp lời nói và công nhận cả hai đều dựa vào khả năng của máy tính để hiểu lời nói và sự thay đổi của con người.Một phương pháp là đầu ra và phương pháp khác là đầu vào. Các quy trình được sử dụng bởi tổng hợp giọng nói và nhận dạng rất giống nhau, ngay cả khi sản phẩm cuối cùng khác nhau.Quá trình này bao gồm hai phần, một phần với sự tương tác của con người và một không có.Phần của con người là khi lời nói của con người bước vào chương trình;Phần không phải con người là khi chương trình tương tác với đầu vào. Một chương trình tổng hợp lời nói sẽ có đầu vào của con người dưới dạng hoặc gõ hoặc viết ngôn ngữ của con người.Chương trình sẽ đọc ngôn ngữ và xác định mỗi từ là gì, sử dụng vị trí câu và dấu câu để xác định sự thay đổi.Khi một từ có thể được phát âm nhiều cách, chẳng hạn như trong trường hợp ‘Live, chương trình sẽ tìm kiếm các từ gần đó và manh mối ngữ cảnh để xác định từ nào thực sự được sử dụng.Các từ sau đó sẽ chuyển đến phần thứ hai của chương trình, nơi chúng được nói to. Trong một chương trình nhận dạng giọng nói, quá trình này ngược lại.Đầu vào đến từ một người nói người nói các từ vào máy tính.Máy tính sẽ lắng nghe từng từ và so sánh mẫu được tạo bởi giọng nói của người nói với một thư viện các âm thanh và từ có thể.Sau đó, nó đưa ra quyết định của từ có khả năng nhất và gửi nó đến phần thứ hai của hệ thống.Phần này thực sự in các từ ra trên màn hình, tương tự như cách chương trình tổng hợp nói các từ. Vì mỗi người nói nghe có vẻ hơi khác nhau, các chương trình tổng hợp và nhận dạng lời nói thường có sai số rộng.Một trong những cách mọi người chống lại những lỗi này thông qua hồ sơ lời nói cá nhân.Một diễn giả sẽ có bài phát biểu được phân tích bởi chương trình để tìm các mẫu giọng hát cụ thể của anh ấy.Khi anh ta tìm thấy lỗi trong bản dịch máy tính, anh ta có thể sửa chúng cụ thể.Các sửa chữa được phân tích và lưu trữ bởi chương trình, vì vậy khi từ rắc rối xuất hiện trở lại, chương trình sẽ dịch nó một cách chính xác. Có một ứng dụng rộng rãi cho các chương trình tổng hợp và nhận dạng lời nói.Trong lĩnh vực y tế, các chương trình này cho phép mọi người giao tiếp những người có thể không thể không.Các chương trình này có một ứng dụng rộng rãi trong kinh doanh như một phương tiện nhanh hơn để dịch các báo cáo và tài liệu.Nhận dạng giọng nói cũng là một phương pháp phổ biến để thiết lập các thiết bị rảnh tay trong ô tô, cho phép mọi người nói chuyện qua điện thoại một cách an toàn hơn trong khi lái xe.