Skip to main content

Hvad er dokumentklassificering?

Ligesom en webbrowser har brug for at organisere data, så brugere kan resulterer i en søgning, giver dokumentklassificering organisationer mulighed for at gøre det enkelt at finde vigtige oplysninger.Dokumentkategorisering udføres forskelligt end at bruge søgemaskinalgoritmer, fordi specifikke nøgleord kan have forskellige betydninger.En sådan metode skal være i stand til at måle konteksten af specifikke forretningsdokumenter.Med overvåget dokumentklassificering mærker brugeren et sæt dokumenter, som det automatiserede system kan bruge som model.I den uovervågede metode er de matematisk organiseret baseret på lignende ord og sætninger.

Brugeren har mest kontrol over dokumentklassificering, når regelbaseret klassificering bruges.Kontekst, kategorier og regler oprettes i henhold til det, der manuelt er indført.Under processen med hentning af dokument er alt kategoriseret i henhold til de nøjagtige regler, en bruger specificeret.Kategorier skal også tildeles under den overvågede metode.Trinnet med faktisk at udskrive reglerne, som søgesystemet skal følge, afsluttes dog automatisk.

Med dokumentklynger, også kaldet Uovervåget klassificering, udføres grupperinger og kategorier automatisk.Der er ingen manuelt input af regler, som kan være både gavnlige og ufordelagtige.Denne proces sparer tid, da der ikke skal skrives nogen regler, og der findes ofte lignende dokumenter, der ikke blev betragtet som lignende oprindeligt.Ulempen er, at dokumenter muligvis vises sammen, som ikke oprindeligt var beregnet til at være i samme kategori.Den mere automatiserede tilgang er også mere beskatning af computersystemer.

For at finde en balance mellem de to forskellige metoder har computerspecialister udtænkt metoden til semi-overvåget dokumentklassificering.De dokumenter, der kategoriseres manuelt, kombineres med dokumentsæt, der ikke er mærket.Programmer, der kan knytte oplysninger fra begge bruger dataene til at lære, hvordan hvert dokument klassificeres.Informationsindhentning hjælpes af en vis kontrol over klassificeringsprocessen.Dokumentklynge gøres mere effektiv, når sætninger kan bruges til at klynge dem, f.eks. Med suffix -træklynge, især til dokumenter, der er gemt online.

Informationsvidenskab har udforsket forskellige måder at gøre data mining mere effektive.De fleste virksomheder er forbundet til Internettet, så webminedrift skal være så lidt tidskrævende som muligt for at der findes relevante dokumenter.Computerforskere har også oprettet flere forskellige algoritmer til at organisere dokumenter på en hierarkisk måde.Hver er effektiv på sin egen måde, og dokumentklassificering undersøges fortsat og defineret af forskellige softwareprogrammer og brugerdefinerede virksomhedsmetoder.