Skip to main content

Một kho văn bản là gì?

Một văn bản là một tập hợp các văn bản, được nói hoặc viết, đó là cơ sở cho nghiên cứu ngôn ngữ học.Lưu trữ các ngân hàng văn bản lớn này cho phép các nhà nghiên cứu phân tích các khía cạnh khác nhau của bất kỳ ngôn ngữ nào.Một văn bản là một cách hiệu quả để tiến hành nghiên cứu vì một khi tài liệu được thu thập, nó có thể được sử dụng để điều tra một loạt các vấn đề liên quan đến ngôn ngữ bao gồm hình thái, cú pháp, từ vựng và thực dụng.Không giống như các phương pháp tiến hành nghiên cứu ngôn ngữ cũ hơn, một kho văn bản cho phép các nhà nghiên cứu xem xét ngôn ngữ theo cách nó thực sự được sử dụng trong bối cảnh, thay vì cách sử dụng giả thuyết.Các nhà ngôn ngữ học thường có quyền truy cập vào các mẫu dữ liệu lớn hơn nhiều so với khi họ phải giới hạn dữ liệu mà họ có thể tự thu mình trong một khoảng thời gian giới hạn với nguồn tài chính hạn chế.

Corpora thường được lưu trữ trong máy tính, vì vậy các chương trình phần mềm máy tính có thể được tạo ra để tạo điều kiện cho nghiên cứu.Một cách phổ biến để sử dụng một kho văn bản là đếm tổng số từ trong các văn bản, sau đó đếm và xếp hạng số lần một số từ xuất hiện.Tỷ lệ được tạo ra giữa số lượng từ và từ cụ thể được gọi là luật ZIPF.Tỷ lệ này giúp giải thích tần số từ trong ngôn ngữ.Hiểu luật ZIPF, giúp các lập trình viên máy tính thiết kế phần mềm máy tính đáp ứng nhu cầu của một ngôn ngữ nhất định.Họ có thể đếm và dự đoán tần suất một số từ và cụm từ sẽ được sử dụng làm đầu vào.Một cách khác để sử dụng một kho văn bản là gắn thẻ các yếu tố cụ thể trong đó mà nhà nghiên cứu muốn nghiên cứu.Một ví dụ về cách sử dụng điều này là đếm số lần giọng nói thụ động xuất hiện trong các thể loại văn bản khác nhau.Việc gắn thẻ cũng hữu ích trong việc tạo ra các chương trình máy tính hỗ trợ mọi người trong cuộc sống hàng ngày của họ.Việc gắn thẻ một phần là rất quan trọng để phát triển phần mềm nhận dạng giọng nói.Trong tiếng Anh, ví dụ, cùng một từ có thể có nhiều hơn một phần của lời nói.Các từ đa âm thường được nhấn mạnh khác nhau để báo hiệu phần nào của lời nói đang được sử dụng.Đối tượng danh từ trên mạng mang theo sự căng thẳng của nó đối với âm tiết đầu tiên, nhưng động từ đối tượng Hồi được nhấn mạnh trên âm tiết thứ hai.Việc gắn thẻ hình thức danh từ của đối tượng trên mạng giúp chương trình máy tính vừa đọc to nó một cách chính xác và nhận ra nó khi đối tượng của người Hồi giáo được người nói.Text Corpora rất hữu ích cho cả ngôn ngữ học và ngôn ngữ học tính toán của con người.Chúng cho phép nghiên cứu được tiến hành giúp mọi người hiểu rõ hơn về ngôn ngữ con người sử dụng, từ đó giúp phát triển các máy tính ngôn ngữ sử dụng.Những bước nhảy vọt đã được thực hiện trong công nghệ nhận dạng giọng nói, cho phép người tiêu dùng kiểm soát máy tính bằng lời nói trong văn phòng, nhà cửa và phương tiện của họ.Những tiến bộ tiếp tục sẽ cho phép con người giao tiếp với máy tính một cách tự nhiên như chúng làm với nhau.