Skip to main content

Cos'è l'estrazione delle informazioni?

A volte noto come recupero delle informazioni, l'estrazione delle informazioni (IE) è un processo utilizzato con i sistemi informatici per consentire l'estrazione di dati pertinenti da corpi di dati più grandi, utilizzando una serie di criteri predefiniti.L'idea alla base dell'estrazione delle informazioni è quella di consentire di identificare e assimilare facilmente i dati rilevanti per una particolare attività, senza la necessità di passare manualmente a grandi quantità di informazioni per trovare i dati esatti richiesti.Il processo è simile alle idee di minerario del concetto o raschiatura web, in quanto tutti questi approcci cercano di raccogliere informazioni utili da un pool più ampio di dati disponibili.

L'approccio generale all'estrazione delle informazioni richiede l'utilizzo della programmazione in grado di scansionare le fonti di informazione considerate leggibili da macchina.Ciò può includere documenti cartacei che sono stati scansionati in una sorta di file elettronici, documenti preparati come fogli di calcolo o documenti di elaborazione testi o persino i dati contenuti in campi leggibili in un database.In genere, sono impostati i parametri che consentono di consentire a un programma software di accedere a queste fonti di dati e scansionare rapidamente attraverso di essi utilizzando criteri specifici per dare la priorità e estrarre determinati tipi di informazioni dal pool disponibile.Questo processo è in genere diverso da un semplice processo di ricerca, in quanto il metodo richiede non corrispondere a parole o frasi specifiche in sé, ma utilizza invece un processo chiamato elaborazione del linguaggio naturale, che aiuta non solo a valutare le parole reali ma anche del contesto eil significato implicito da quel contesto.

Le complessità coinvolte nell'estrazione delle informazioni rendono l'uso di questo approccio in qualche modo difficile da gestire su scala globale, sebbene ci siano strumenti IE che funzionano molto bene solo con una quantità limitata di dati, come le fonti di dati associate ai file elettroniciOspitato sul server di una società o persino un pool di fonti che coinvolgono un numero limitato di feed di notizie.Con questo approccio è possibile identificare un qualche tipo di evento, eventualmente limitare i rendimenti all'inclusione di un certo numero di partecipanti nell'evento e far organizzare i dati in base alla data.

Come per molte forme di tecnologia, gli strumenti utilizzati per impegnarsi nell'estrazione delle informazioni vengono continuamente perfezionati.Dall'inizio del 21 ° secolo, la capacità di impostare i parametri e utilizzare corpi sempre crescenti di dati elettronici come parte della ricerca di informazioni pertinenti è aumentata in modo significativo.Ciò include la capacità di gestire grandi volumi di dati non strutturati e utilizzare tali parametri per portare un certo ordine o struttura a tali dati, rendendolo ancora più utile per le ricerche future.