Skip to main content

문서 분류 란 무엇입니까?

Web 웹 브라우저가 데이터를 구성 해야하는 것처럼 사용자가 검색에 결과를 얻을 수 있으므로 문서 분류를 통해 조직은 중요한 정보를 간단하게 찾을 수 있도록합니다.문서 분류는 특정 키워드가 다른 의미를 가질 수 있기 때문에 검색 엔진 알고리즘을 사용하는 것과 다르게 수행됩니다.이러한 방법은 특정 비즈니스 문서의 맥락을 측정 할 수 있어야합니다.감독 된 문서 분류를 통해 사용자는 자동화 된 시스템이 모델로 사용할 수있는 일련의 문서를 표시합니다.감독되지 않은 방법에서는 비슷한 단어와 문구를 기반으로 수학적으로 구성됩니다.컨텍스트, 범주 및 규칙은 수동으로 입력 된 것에 따라 생성됩니다.문서 검색 과정에서 모든 것이 사용자가 지정한 정확한 규칙에 따라 분류됩니다.감독 된 방법 중에도 카테고리를 할당해야합니다.그러나 실제로 검색 시스템이 따라야하는 규칙을 작성하는 단계는 자동으로 완료됩니다.규칙의 수동 입력은 없으며, 이는 유익하고 불리한 일이 될 수 있습니다.이 프로세스는 규칙을 작성할 필요가 없으므로 시간을 절약하며 처음에는 비슷한 것으로 간주되지 않은 유사한 문서가 발견됩니다.단점은 원래 같은 범주에 있지 않은 문서가 함께 나타날 수 있다는 것입니다.더 자동화 된 접근 방식은 컴퓨터 시스템에 대해 더 많은 세금을 부과하는 것입니다.

두 가지 다른 방법 사이의 균형을 찾기 위해 컴퓨터 전문가들은 반 감독 문서 분류 방법을 고안했습니다.수동으로 분류 된 문서는 레이블이 지정되지 않은 문서 세트와 결합됩니다.둘 다의 정보를 연결할 수있는 프로그램은 데이터를 사용하여 각 문서가 분류되는 방식을 배우게됩니다.정보 검색은 분류 프로세스에 대한 약간의 제어에 의해 도움이됩니다.문서 클러스터링은 특히 온라인으로 저장된 문서의 경우 접미사 트리 클러스터링과 같은 문구를 사용하여 클러스터링 할 수있을 때 더욱 효율적으로 만들어집니다.대부분의 비즈니스는 인터넷에 연결되어 있으므로 관련 문서를 찾으려면 웹 마이닝이 가능한 한 시간이 거의 필요하지 않습니다.컴퓨터 과학자들은 또한 계층 적 방식으로 문서를 구성하기 위해 여러 가지 알고리즘을 만들었습니다.각각은 자체 방식으로 효과적이며 문서 분류는 서로 다른 소프트웨어 프로그램과 맞춤형 회사 방법에 의해 계속 연구되고 정의됩니다.