Skip to main content

정보 추출이란 무엇입니까?

정보 검색으로 알려진 정보 추출 (IE)은 사전 정의 된 기준 세트를 사용하여 더 큰 데이터에서 관련 데이터를 추출 할 수 있도록 컴퓨터 시스템과 함께 사용되는 프로세스입니다.정보 추출의 배후에있는 아이디어는 특정 활동과 관련된 데이터를 쉽게 식별하고 동화 할 수 있도록하는 것이며, 필요한 정확한 데이터를 수동으로 수행 할 필요없이 필요한 정확한 데이터를 찾을 필요가 없습니다.이 프로세스는 개념 마이닝 또는 웹 스크래핑의 아이디어와 유사합니다. 이러한 모든 접근 방식은 더 넓은 사용 가능한 데이터 풀에서 유용한 정보를 수집하려고합니다.

정보 추출에 대한 일반적인 접근 방식은 기계 읽을 수있는 것으로 간주되는 정보 소스를 스캔 할 수있는 프로그래밍을 사용하는 것을 요구합니다.여기에는 일종의 전자 파일로 스캔 된 하드 카피 문서, 스프레드 시트 또는 워드 프로세싱 문서로 준비된 문서 또는 데이터베이스의 읽기 가능한 필드에 포함 된 데이터가 포함될 수 있습니다.일반적으로 소프트웨어 프로그램에 이러한 데이터 소스에 액세스 할 수있게 해주는 매개 변수가 설정되어 있으며 특정 기준을 사용하여 이용 가능한 풀에서 특정 유형의 정보를 우선 순위를 정하고 가져 오기 위해 신속하게 스캔 할 수 있습니다.이 프로세스는 일반적으로 간단한 검색 프로세스와 다릅니다.이 방법은 특정 단어 나 문구 자체와 일치하지 말고 자연어 처리라는 프로세스를 사용하여 실제 단어를 평가할뿐만 아니라 컨텍스트 및 컨텍스트 및 도와줍니다.그 맥락에 의해 암시 된 의미.정보 추출과 관련된 복잡성은이 접근 방식의 사용을 전 세계적으로 관리하기가 다소 어렵지만 전자 파일과 관련된 데이터 소스와 같은 제한된 양의 데이터에서만 잘 작동하는 IE 도구가 있습니다.회사의 서버 또는 제한된 수의 뉴스 피드와 관련된 소스 풀에 수용되어 있습니다.이 접근법을 사용하면 일부 유형의 이벤트를 식별하고, 이벤트에 특정 참가자를 포함시키기 위해 수익을 제한하고, 날짜에 따라 데이터를 정리할 수 있습니다.

많은 형태의 기술과 마찬가지로 정보 추출에 사용되는 도구가 지속적으로 개선되고 있습니다.21 세기 초부터 관련 정보 검색의 일환으로 매개 변수를 설정하고 전자 데이터의 본문을 사용하는 능력이 크게 증가했습니다.여기에는 대량의 구조화되지 않은 데이터를 처리하고 해당 매개 변수를 사용하여 해당 데이터에 대한 주문 또는 구조를 가져 오는 기능이 포함되어있어 향후 검색에 더 유용합니다.