Skip to main content

Hva er informasjonsutvinning?

Noen ganger kjent som informasjonsinnhenting, er informasjonsutvinning (IE) en prosess som brukes med datasystemer for å tillate relevante data å bli trukket ut fra større data for data ved å bruke et sett med forhåndsdefinerte kriterier.Ideen bak informasjonsutvinning er å gjøre det mulig å enkelt identifisere og assimilere data som er relevant for en bestemt aktivitet, uten behov for å manuelt gå gjennom store mengder informasjon for å finne de nøyaktige dataene som kreves.Prosessen ligner ideene om konsept gruvedrift eller skraping av nettet, ved at alle disse tilnærmingene søker å samle nyttig informasjon fra et bredere basseng med tilgjengelige data.

Den generelle tilnærmingen til informasjonsutvinning krever bruk av programmering som er i stand til å skanne informasjonskilder som anses som maskinlesbare.Dette kan omfatte papirkopi som er skannet til en slags elektroniske filer, dokumenter utarbeidet som regneark eller tekstbehandlingsdokumenter, eller til og med dataene som finnes i lesbare felt i en database.Vanligvis settes parametere som gjør det mulig for et program å få tilgang til disse datakildene og raskt skanne gjennom dem ved å bruke spesifikke kriterier for å prioritere og trekke ut visse typer informasjon fra det tilgjengelige bassenget.Denne prosessen er vanligvis forskjellig fra en enkel søkeprosess, ved at metoden krever ikke samsvarer med spesifikke ord eller setninger i seg selv, men i stedet bruker en prosess som kalles naturlig språkbehandling, som hjelper til med å ikke bare evaluere de faktiske ordene, men også konteksten ogBetydningen antydet av den konteksten.

Kompleksitetene som er involvert i informasjonsutvinning gjør bruken av denne tilnærmingen noe vanskelig å administrere i global skala, selv om det bare er verktøy som fungerer veldig bra med en begrenset mengde data, for eksempel datakildene tilknyttet de elektroniske fileneHuset på serveren til et selskap, eller til og med et basseng med kilder som involverer et begrenset antall nyhetsfeeds.Med denne tilnærmingen er det mulig å identifisere en slags hendelse, muligens til og med begrense avkastningen til inkludering av et visst antall deltakere i arrangementet, og få dataene ordnet i henhold til dato.

Som med mange former for teknologi, blir verktøyene som brukes til å delta i informasjonsutvinning kontinuerlig foredlet.Siden begynnelsen av det 21. århundre har evnen til å sette parametere og benytte seg av stadig økende organer med elektroniske data som en del av søket etter relevant informasjon økt betydelig.Dette inkluderer muligheten til å håndtere store volumer med ustrukturerte data og bruke disse parametrene for å bringe noen rekkefølge eller struktur til disse dataene, noe som gjør det desto mer nyttig for fremtidige søk.