Skip to main content

Hvad er informationsekstraktion?

Undertiden kendt som informationsindhentning er informationsekstraktion (dvs.) en proces, der bruges med computersystemer til at lade relevante data udvindes fra større data af data ved hjælp af et sæt foruddefinerede kriterier.Ideen bag informationsekstraktion er at gøre det muligt let at identificere og assimilere data, der er relevante for en bestemt aktivitet, uden behov for manuelt at gennemgå store mængder information for at finde de nøjagtige data, der kræves.Processen ligner ideerne om konceptminedrift eller webskrabning, idet alle disse tilgange søger at indsamle nyttige oplysninger fra en bredere pulje af tilgængelige data.

Den generelle tilgang til informationsekstraktion kræver brug af programmering, der er i stand til at scanne informationskilder, der betragtes som maskinlæsbare.Dette kan omfatte papirkopi -dokumenter, der er blevet scannet til en slags elektroniske filer, dokumenter, der er udarbejdet som regneark eller tekstbehandlingsdokumenter, eller endda de data, der er indeholdt i læsbare felter i en database.Typisk indstilles parametre, der gør det muligt for et softwareprogram at få adgang til disse datakilder og hurtigt scanne gennem dem ved hjælp af specifikke kriterier for at prioritere og trække visse typer oplysninger fra den tilgængelige pool.Denne proces adskillerden betydning, der er impliceret af den sammenhæng.

De kompleksiteter, der er involveret i informationsekstraktion, gør brugen af denne tilgang noget vanskelig at administrere på verdensplan, selvom der kun er IE -værktøjer, der fungerer meget godt med en begrænset mængde data, såsom datakilder, der er knyttet til de elektroniske filerHuset på serveren til et selskab eller endda en pool af kilder, der involverer et begrænset antal nyhedsfeeds.Med denne tilgang er det muligt at identificere en form for begivenhed, muligvis endda begrænse afkastet til inkluderingen af et vist antal deltagere i begivenheden og få dataene arrangeret efter dato.

Som med mange former for teknologi raffineres de værktøjer, der bruges til at deltage i informationsekstraktion, konstant.Siden begyndelsen af det 21. århundrede er evnen til at indstille parametre og gøre brug af stadigt stigende kroppe af elektroniske data som en del af søgningen efter relevant information steget markant.Dette inkluderer muligheden for at håndtere store mængder af ustrukturerede data og bruge disse parametre til at bringe en vis rækkefølge eller struktur til disse data, hvilket gør det desto mere nyttigt til fremtidige søgninger.