Skip to main content

Hva er dokumentklassifisering?

Akkurat som en nettleser trenger å organisere data slik at brukere kan resultere for et søk, lar dokumentklassifisering organisasjoner gjøre det enkelt å finne viktig informasjon.Dokumentkategorisering utføres annerledes enn å bruke søkemotoralgoritmer fordi spesifikke nøkkelord kan ha forskjellige betydninger.En slik metode må kunne måle konteksten til spesifikke forretningsdokumenter.Med overvåket dokumentklassifisering merker brukeren et sett med dokumenter som det automatiserte systemet kan bruke som modell.I uovervåket metode er de matematisk organisert basert på lignende ord og uttrykk.

Brukeren har mest kontroll over dokumentklassifisering når regelbasert klassifisering brukes.Konteksten, kategoriene og reglene opprettes i henhold til det som manuelt inngis.Under prosessen med gjenfinning av dokumenter er alt kategorisert i henhold til de nøyaktige reglene en spesifisert bruker.Kategorier må også tilordnes under den overvåkede metoden.Trinnet med å faktisk skrive ut reglene søkesystemet skal følge, men fullføres automatisk.

Med dokumentklynging, også kalt uovervåket klassifisering, blir grupperingene og kategoriene alle gjort automatisk.Det er ingen manuell innspill av regler, som kan være både gunstig og ugunstig.Denne prosessen sparer tid da det ikke må skrives noen regler, og lignende dokumenter blir ofte funnet som ikke ble ansett som like til å begynne med.Ulempen er at dokumenter kan vises sammen som ikke opprinnelig var ment å være i samme kategori.Den mer automatiserte tilnærmingen er også mer skattlegging på datasystemer.

For å finne en balanse mellom de to forskjellige metodene, har dataspesialister utviklet metoden for semi-overvåket dokumentklassifisering.Dokumentene som er kategorisert manuelt kombineres med dokumentsett som ikke er merket.Programmer som kan knytte informasjon fra begge bruker dataene for å lære hvordan hvert dokument klassifiseres.Informasjonsinnhenting hjelper av en viss kontroll over klassifiseringsprosessen.Dokumentklynging gjøres mer effektiv når setninger kan brukes til å gruppere dem, for eksempel med suffikset tre -klynging, spesielt for dokumenter som er lagret på nettet.

Informasjonsvitenskap har undersøkt forskjellige måter å gjøre data mining mer effektiv.De fleste virksomheter er koblet til Internett, så webgruvedrift må være så lite tidkrevende som mulig for at relevante dokumenter skal bli funnet.Dataforskere har også laget flere forskjellige algoritmer for å organisere dokumenter på en hierarkisk måte.Hver er effektiv på sin egen måte og dokumentklassifisering fortsetter å bli studert og definert av forskjellige programmer og tilpassede bedriftsmetoder.