Skip to main content

Cos'è l'estrazione della struttura?

Il mining della struttura è un tipo di data mining in cui viene scansionata un'origine di dati semi-strutturata e gli elementi della sua struttura vengono scoperti ed evidenziati.Una fonte di dati semi-strutturata è quella che non utilizza la tradizionale struttura del database delle tabelle, ma ha un elemento semantico che separa le informazioni tramite tag e marcatori.Il mining della struttura può essere utilizzato per estrarre database, siti Web e molte altre forme di informazione del computer per scoprire elementi della struttura.Aiuta gli utenti a capire come i pezzi interagiscono tra loro o come trovare informazioni in determinati tag.Questo mining può anche essere utilizzato per prevedere cosa sia un elemento, in base alle regole scritte dall'utente.

Esistono molti tipi diversi di data mining e la maggior parte riguarda il mining di una fonte tradizionalmente strutturata.Ciò include qualsiasi fonte che utilizza le tabelle e i nodi tipici della maggior parte dei database.Nell'estrazione della struttura, vengono utilizzati solo dati semi-strutturati.In questo caso, i dati provengono da siti Web o database semplici che hanno una struttura ma non uno conforme alle regole di database tradizionali.I dati necessitano di tag o marcatori che distinguono ogni articolo per essere estratto correttamente.

Leggendo il set di dati semi-strutturati, il mining della struttura è in grado di scoprire come interagisce la struttura.Ad esempio, ogni sito Web ha un modello di navigazione ed è questo modello che determina come interagiscono le pagine.Mining della struttura, l'utente può scoprire come funziona questa navigazione, che può aiutare a creare uno schema di navigazione simile. Il mining della struttura

può anche essere utilizzato per trovare elementi scrivendo regole nel programma di mining.Ad esempio, se esiste un set di dati del libro, l'utente può scrivere una regola che qualsiasi libro senza un indice dovrebbe restituire come finzione e quelli con un indice dovrebbero restituire come saggistica.La maggior parte dei libri di narrativa non ha un indice, quindi questa regola prevederà con alta precisione quali sono i dati.Ciò assiste gli utenti quando si guarda a un set semi-strutturato che ha un metodo organizzativo ma non uno che si adatta a ciò che l'utente sta cercando.

Dopo aver capito la struttura dell'unità semi-strutturata, l'utente lo confronterà in genere con un altroUnità semi-strutturata.Se l'utente ha un sito Web aziendale, può estrarre un altro sito Web aziendale per la navigazione e i collegamenti e vedere come il suo sito Web è simile.Confrontando le informazioni estratte, l'utente può trovare modi per aumentare l'efficienza della struttura.