Skip to main content

Vad är informationsuttag?

Ibland känd som informationsåtervinning, informationsutvinning (IE) är en process som används med datorsystem för att tillåta relevant data att extraheras från större datakroppar, med hjälp av en uppsättning av fördefinierade kriterier.Idén bakom informationsuttag är att göra det möjligt att enkelt identifiera och assimilera data som är relevanta för en viss aktivitet, utan att behöva manuellt gå igenom stora mängder information för att hitta exakta data som krävs.Processen liknar idéerna om konceptbrytning eller skrapning på webben, genom att alla dessa tillvägagångssätt försöker samla in användbar information från en bredare pool av tillgängliga data.

Det allmänna tillvägagångssättet för informationsuttag kräver användning av programmering som kan skanna informationskällor som anses vara maskinläsbara.Detta kan inkludera pappersdokument som har skannats till någon form av elektroniska filer, dokument som är utarbetade som kalkylblad eller ordbehandlingsdokument, eller till och med de data som finns i läsbara fält i en databas.Vanligtvis ställs parametrar som gör det möjligt för ett program att få tillgång till dessa datakällor och snabbt skanna igenom dem med hjälp av specifika kriterier för att prioritera och dra ut vissa typer av information från den tillgängliga poolen.Denna process skiljer sig vanligtvis från en enkel sökprocess, genom att metoden kräver att de inte matchar specifika ord eller fraser i sig, utan använder istället en process som kallas naturligt språkbehandling, som hjälper till att inte bara utvärdera de faktiska orden utan också sammanhanget ochden betydelse som impliceras av det sammanhanget.

Komplexiteten som är involverad i informationsutvinning gör användningen av denna metod något svårt att hantera på global skala, även om det finns IE -verktyg som bara fungerar mycket bra med en begränsad mängd data, till exempel datakällorna som är associerade med de elektroniska filernaInrymt på servern för ett företag, eller till och med en pool av källor som involverar ett begränsat antal nyhetsflöden.Med detta tillvägagångssätt är det möjligt att identifiera någon typ av händelse, eventuellt till och med begränsa avkastningen till införandet av ett visst antal deltagare i evenemanget och har uppgifterna ordnade efter datum.

Liksom med många former av teknik förfinas de verktyg som används för att engagera sig i information kontinuerligt.Sedan början av 2000-talet har förmågan att ställa in parametrar och använda ständigt ökande kroppar av elektroniska data som en del av sökningen efter relevant information ökat avsevärt.Detta inkluderar förmågan att hantera stora volymer av ostrukturerad data och använda dessa parametrar för att få viss ordning eller struktur till den informationen, vilket gör det desto mer användbart för framtida sökningar.