Skip to main content

Trích xuất thông tin là gì?

Đôi khi được gọi là truy xuất thông tin, trích xuất thông tin (IE) là một quá trình được sử dụng với các hệ thống máy tính để cho phép dữ liệu liên quan được trích xuất từ các thân dữ liệu lớn hơn, sử dụng một số bộ tiêu chí được xác định trước.Ý tưởng đằng sau việc trích xuất thông tin là có thể dễ dàng xác định và đồng hóa dữ liệu có liên quan đến một hoạt động cụ thể, mà không cần phải thực hiện thủ công một lượng lớn thông tin để tìm dữ liệu chính xác cần thiết.Quá trình này tương tự như các ý tưởng về khai thác khái niệm hoặc quét web, trong đó tất cả các phương pháp này tìm cách thu thập thông tin hữu ích từ một nhóm dữ liệu có sẵn rộng hơn.

Cách tiếp cận chung đối với các cuộc gọi trích xuất thông tin để sử dụng lập trình có khả năng quét các nguồn thông tin được coi là có thể đọc được bằng máy.Điều này có thể bao gồm các tài liệu bản sao cứng đã được quét vào một số loại tệp điện tử, các tài liệu được chuẩn bị dưới dạng bảng tính hoặc tài liệu xử lý văn bản hoặc thậm chí dữ liệu có trong các trường có thể đọc được trong cơ sở dữ liệu.Thông thường, các tham số được đặt giúp một chương trình phần mềm có thể được cấp quyền truy cập vào các nguồn dữ liệu này và nhanh chóng quét chúng bằng cách sử dụng các tiêu chí cụ thể để ưu tiên và rút ra một số loại thông tin từ nhóm có sẵn.Quá trình này thường khác với một quá trình tìm kiếm đơn giản, trong đó phương thức yêu cầu không khớp với các từ hoặc cụm từ cụ thể, mà thay vào đó sử dụng một quy trình gọi là xử lý ngôn ngữ tự nhiên, điều này không chỉ đánh giá các từ thực tế mà còn cả bối cảnh và bối cảnhÝ nghĩa ngụ ý bởi bối cảnh đó.Sự phức tạp liên quan đến việc trích xuất thông tin làm cho việc sử dụng phương pháp này hơi khó quản lý trên quy mô toàn cầu, mặc dù có các công cụ IE hoạt động rất tốt với số lượng dữ liệu hạn chế, chẳng hạn như các nguồn dữ liệu liên quan đến các tệp điện tửNằm trên máy chủ của một công ty, hoặc thậm chí một nhóm các nguồn liên quan đến một số lượng hạn chế các nguồn cấp tin tức.Với cách tiếp cận này, có thể xác định một số loại sự kiện, thậm chí có thể giới hạn lợi nhuận cho việc đưa một số người tham gia nhất định vào sự kiện và dữ liệu được sắp xếp theo ngày.Như với nhiều hình thức công nghệ, các công cụ được sử dụng để tham gia khai thác thông tin liên tục được tinh chỉnh.Kể từ đầu thế kỷ 21, khả năng thiết lập các tham số và sử dụng các cơ quan ngày càng tăng của dữ liệu điện tử như một phần của việc tìm kiếm thông tin liên quan đã tăng lên đáng kể.Điều này bao gồm khả năng đối phó với khối lượng lớn dữ liệu phi cấu trúc và sử dụng các tham số đó để mang lại một số thứ tự hoặc cấu trúc cho dữ liệu đó, làm cho tất cả hữu ích hơn cho các tìm kiếm trong tương lai.