Skip to main content

Vad är dokumentklassificering?

Precis som en webbläsare måste organisera data så att användare kan resultera i en sökning, gör det möjligt för klassificering att göra det enkelt att hitta viktig information.Dokumentkategorisering utförs annorlunda än att använda sökmotoralgoritmer eftersom specifika nyckelord kan ha olika betydelser.En sådan metod måste kunna mäta sammanhanget för specifika affärsdokument.Med övervakad dokumentklassificering märker användaren en uppsättning dokument som det automatiserade systemet kan använda som modell.I den oövervakade metoden är de matematiskt organiserade baserat på liknande ord och fraser.

Användaren har mest kontroll över dokumentklassificering när regelbaserad klassificering används.Kontext, kategorier och regler skapas enligt vad som manuellt matas in.Under processen för dokumenthämtning kategoriseras allt enligt de exakta reglerna som en användare angav.Kategorier måste också tilldelas under den övervakade metoden.Steget att faktiskt skriva ut reglerna som söksystemet bör följa är dock slutförd automatiskt.

Med dokumentkluster, även kallad oövervakad klassificering, grupperingarna och kategorierna görs alla automatiskt.Det finns ingen manuell inmatning av regler, som kan vara både fördelaktiga och nackdelar.Denna process sparar tid eftersom inga regler behöver skrivas, och liknande dokument hittas ofta som inte ansågs liknande initialt.Nackdelen är att dokument kan visas tillsammans som inte ursprungligen var avsedda att vara i samma kategori.Det mer automatiserade tillvägagångssättet är också mer beskattning på datorsystem.

För att hitta en balans mellan de två olika metoderna har datorspecialister utformat metoden för semi-övervakad dokumentklassificering.Dokumenten som kategoriseras manuellt kombineras med dokumentuppsättningar som inte är märkta.Program som kan koppla information från båda använder data för att lära sig hur varje dokument klassificeras.Informationshämtning stöds av viss kontroll över klassificeringsprocessen.Dokumentkluster görs effektivare när fraser kan användas för att klustera dem, till exempel med suffixträdkluster, särskilt för dokument som lagras online.

Information Vetenskap har undersökt olika sätt att göra data mining mer effektiv.De flesta företag är anslutna till internet, så webbbrytning måste vara så lite tidskrävande som möjligt för att relevanta dokument ska hittas.Datorforskare har också skapat flera olika algoritmer för att organisera dokument på ett hierarkiskt sätt.Var och en är effektiv på sitt eget sätt och dokumentklassificering fortsätter att studeras och definieras av olika program och anpassade företagsmetoder.