Skip to main content

Phân tích từ vựng là gì?

Phân tích từ vựng là quá trình lấy một chuỗi các ký tự mdash;Hoặc, đơn giản hơn, văn bản mdash;và chuyển đổi nó thành các nhóm có ý nghĩa được gọi là mã thông báo.Phương pháp này đã sử dụng trong một loạt các ứng dụng, từ diễn giải ngôn ngữ máy tính đến phân tích sách.Phân tích từ vựng không đồng nghĩa với phân tích cú pháp;Thay vào đó, đây là bước đầu tiên của tổng quy trình phân tích cú pháp và nó tạo ra nguyên liệu thô để sử dụng sau.Một ví dụ phổ biến về điều này là phân tách các câu theo các từ;Điều này thường được thực hiện bằng cách phân tách các câu xung quanh không gian.Mỗi chuỗi các ký tự liên tục được tạo không có khoảng trắng là một từ vựng.Chuỗi văn bản có thể được phân chia trên một hoặc nhiều loại ký tự, tạo ra nhiều phiên bản của từ vựng với độ phức tạp khác nhau.Mã thông báo được tạo ra sau mỗi từ vựng đã được đánh giá và ghép nối với giá trị tương ứng của nó;Theo định nghĩa, các mã thông báo đề cập đến việc ghép nối này, không chỉ là phân tích từ vựng. Phân tích từ vựng, hơi phản đối, dải một chuỗi văn bản của bối cảnh của nó.Mục đích của nó chỉ là tạo ra các khối xây dựng để nghiên cứu thêm, không xác định xem những mảnh đó có hợp lệ hay không hợp lệ.Trong trường hợp giải thích ngôn ngữ máy tính, xác thực được thực hiện bằng phân tích cú pháp và xác thực văn bản có thể được thực hiện theo ngữ cảnh hoặc nội dung.Nếu một chuỗi đầu vào được chia hoàn toàn thành các từ vựng thích hợp và mỗi từ bỏ các từ đó có giá trị thích hợp, thì phân tích được coi là thành công..Một ngữ pháp từ vựng có thể có các giá trị lỗi được gán cho các từ vựng cụ thể và phân tích đó cũng có thể phát hiện các mã thông báo bất hợp pháp hoặc dị dạng.Mặc dù việc tìm kiếm một mã thông báo bất hợp pháp hoặc dị tật có tín hiệu đầu vào không hợp lệ, nhưng nó không liên quan đến việc liệu các mã thông báo khác có hợp lệ hay không, và vì vậy nó không hoàn toàn là một loại xác thực. Mặc dù phân tích từ vựng là một phần không thể thiếu của nhiều thuật toán, nó phảiThường được sử dụng cùng với các phương pháp khác để tạo ra kết quả có ý nghĩa.Ví dụ, việc chia một chuỗi văn bản thành các từ để xác định tần số sử dụng tạo ra từ vựng, nhưng một mình tạo Lexeme không thể theo dõi số lần một từ vựng cụ thể xuất hiện trong đầu vào.Phân tích từ vựng có thể tự hữu ích nếu bản thân các từ ngữ được lưu ý, nhưng một lượng lớn đầu vào có thể khiến việc phân tích các từ vựng thô khó khăn vì khối lượng dữ liệu.