Skip to main content

Trích xuất kiến thức là gì?

Trích xuất kiến thức là quá trình sử dụng các nguồn thông tin khác nhau để tạo ra một ngân hàng kiến thức gắn kết.Là một phần của phương pháp này, việc trích xuất thường sẽ dựa trên một loạt các nguồn có cấu trúc và không có cấu trúc.Khi thành công, việc trích xuất kiến thức dẫn đến dữ liệu vững chắc có thể dễ dàng được đọc và giải thích bởi một chương trình nhất định, cho phép người dùng cuối sử dụng kiến thức chính thức đó cho bất kỳ mục đích nào anh ta hoặc cô ta mong muốn. Một số nguồn khác nhau có thể được sử dụng trong quá trìnhtrích xuất kiến thức.Trong phạm vi của các nguồn có cấu trúc, dữ liệu có thể được trích xuất từ nhiều loại cơ sở dữ liệu quan hệ hoặc một số loại ngôn ngữ đánh dấu mở rộng hoặc nguồn XML.Các nguồn không cấu trúc, chẳng hạn như hình ảnh, các hình thức khác nhau của các tài liệu xử lý văn bản, bảng tính và thậm chí văn bản được ghi trên các chương trình kiểu Notepad có thể được sử dụng như một phần của quá trình trích xuất.Miễn là các nguồn có thể đọc được cho chương trình được sử dụng để quản lý quy trình trích xuất kiến thức, chúng có thể được sử dụng làm nguồn mở rộng tiềm năng cho dự án đang được nâng cao bằng cách trích xuất và cho phép kiến thức cuối cùng được tạo ra.Có một số ứng dụng phổ biến xảy ra khi trích xuất kiến thức.Một ví dụ thường xuyên là khả năng thu thập dữ liệu từ một nguồn không có cấu trúc và kết hợp vào một số loại nguồn kiến thức có cấu trúc.Trích xuất dữ liệu được tìm thấy trong cơ sở dữ liệu quan hệ và sử dụng nó để tạo các tài liệu mới hoặc sử dụng các tài liệu điện tử để nhập dữ liệu vào cơ sở dữ liệu quan hệ, là một ví dụ khác về cách loại trích xuất này có thể thúc đẩy việc chia sẻ kiến thức chính thức mà không cần phải nhập dữ liệu theo cách thủ công theo cách thủ côngĐiều đó đã có sẵn từ một số nguồn khác.Việc tái sử dụng kiến thức hiện có ở một số định dạng mới thường rất hữu ích trong một số kịch bản, cho phép sử dụng kiến thức đó theo những cách có thể không thể thực hiện được với nguồn hiện có.Theo cách này, người dùng có thể tạo ra các nguồn lý tưởng cho một số ứng dụng khác nhau thay vì chỉ có liên quan đến ngôi nhà ban đầu của kiến thức chính thức.Với việc sử dụng trích xuất dữ liệu, có thể sử dụng kho dữ liệu rộng lớn, dễ dàng nhập và xuất dữ liệu như một cách tạo ra một số nguồn mới có thể sử dụng cho một mục đích cụ thể.Các nguồn mới được tạo này lần lượt cũng tìm thấy một vị trí trong kho dữ liệu và cuối cùng có thể được sử dụng trong việc tạo ra các trích xuất mới được sử dụng để đáp ứng nhu cầu sử dụng mới hơn.Với suy nghĩ này, trích xuất kiến thức có thể được xem là một công cụ rất hữu ích, hỗ trợ tận dụng tối đa tất cả các tài nguyên hiện có, đơn giản hóa nhiều nhiệm vụ liên quan đến việc chia sẻ kiến thức chính thức đó.