Công nghệ

Bộ tổng hợp lời nói là gì?

Bộ tổng hợp giọng nói là thiết bị được sử dụng để dịch các ký tự văn bản thành âm thanh gần đúng với âm thanh của lời nói của con người.Tùy thuộc vào mức độ tinh tế của thiết bị riêng lẻ, âm thanh được tạo ra có thể hơi được đặt ra và âm thanh nhân tạo, hoặc âm thanh rất giống giọng nói của một người thật.Khái niệm tổng hợp lời nói đã xuất hiện trong nhiều thế kỷ, nhưng chỉ trong những thập kỷ gần đây, quá trình này đã có sẵn cho công chúng.Có những ví dụ về những nỗ lực tạo ra các mô hình lời nói nhân tạo của con người quay trở lại thế kỷ 11.Những nỗ lực sớm nhất thường được sử dụng các vật liệu để tái tạo dây thanh âm của con người và áp dụng nhiều loại kích thích khác nhau để tạo ra âm thanh.Theo thời gian, các thiết kế có thể tạo ra âm thanh bắt chước cách phát âm của các nguyên âm.Đến phần sau của thế kỷ 18, một vài thiết kế cũng có thể tạo ra những âm thanh gần giống với phụ âm.Sự tiến bộ thực sự với bộ tổng hợp lời nói hiện đại bắt đầu vào năm 1930.Bell Laboratory đã sản xuất một bộ tổng hợp được mệnh danh là Vocoder.Dữ liệu được nhập với việc sử dụng bàn phím, được phân tích bởi hệ thống và các âm thanh thích hợp phát ra để tạo thành các từ.Trong khi ngữ điệu và sự biến đổi của các từ có phần nguyên thủy, thiết bị đã tạo ra những từ dễ hiểu rõ ràng.Một phiên bản tinh tế của thiết bị này, Voder, đã được giới thiệu cho công chúng tại Hội chợ Thế giới 1939.

Vào năm 1950, làm việc trên một bộ tổng hợp lời nói sẽ sử dụng hình ảnh trực quan cũng như văn bản đã nhập tạo ra kết quả thành công một phần.Đồng thời, những tiến bộ trong công nghệ bắt đầu tinh chỉnh chất lượng âm thanh.Vào thời điểm truyền thông giọng nói tự động trở nên phổ biến hơn trong năm 1970, có một số bộ tổng hợp lời nói có khả năng tạo ra âm thanh rất gần với các mẫu lời nói của con người.Trong một thời gian ngắn, các thiết bị đã được sử dụng để sản xuất các sản phẩm như tin nhắn được ghi trước trên máy trả lời và đọc sản phẩm cho những người bị khiếm thị.Sự ra đời của máy tính cá nhân cũng mở ra cánh cửa để các tinh chỉnh thêm cho bộ tổng hợp lời nói.Bằng cách bao gồm thiết bị trên hệ thống máy tính gia đình, những người bị khuyết tật đọc hoặc tầm nhìn hạn chế có thể thích sử dụng nhiều chương trình máy tính.Ngày nay, chất lượng giọng nói trên hầu hết các mô hình của bộ tổng hợp lời nói khác xa với các âm thanh robot được sản xuất bởi các thiết bị được tạo ra vào đầu thế kỷ 20.Nhiều phiên bản ngày nay có khả năng tạo ra các mẫu giọng nói gần như không thể phân biệt được với lời nói của con người.