Skip to main content

Qual è il processo di data mining?

Il processo di data mining è uno strumento per scoprire modelli statisticamente significativi in una grande quantità di dati.In genere coinvolge cinque passaggi principali, che includono preparazione, esplorazione dei dati, costruzione di modelli, distribuzione e revisione.Ogni fase del processo prevede una diversa serie di tecniche, ma la maggior parte utilizza una qualche forma di analisi statistica.

Prima che possa iniziare il processo di data mining, i ricercatori in genere fissano obiettivi di ricerca.Questa fase di preparazione di solito determina quali tipi di dati devono essere studiati, quali tecniche di data mining dovrebbero essere utilizzati e quali forme prendono i risultati.Questo passaggio iniziale nel processo può essere cruciale per raccogliere informazioni utili.

Il prossimo passo nel processo di mining è l'esplorazione.Questo passaggio di solito prevede la raccolta dei dati richiesti da un magazzino di informazioni o un'entità di raccolta.Quindi, gli esperti di mining in genere preparano i set di dati grezzi per l'analisi.Questo passaggio di solito consiste nella raccolta, pulizia, organizzazione e controllo di tutti i dati per errori.

Questi dati preparati di solito entrano nel terzo passaggio nel processo di data mining, nella costruzione del modello.Per raggiungere questo obiettivo, i ricercatori in genere prendono piccoli campioni di test di dati e applicano loro una varietà di tecniche di mining.La fase di modellazione viene spesso utilizzata per determinare il miglior metodo di analisi statistica richiesta per ottenere i risultati desiderati.

Esistono quattro tecniche principali che possono essere applicate nel processo di data mining.La prima è la classificazione, che organizza dati in gruppi o categorie predefinite.Nella seconda tecnica, chiamata clustering, i ricercatori consentono al computer di organizzare i dati in gruppi, come sceglie.Una terza tecnica di data mining cerca associazioni tra variabili.Il quarto in genere cerca modelli sequenziali nei dati che possono essere utilizzati per prevedere le tendenze future.

Il passaggio finale nel processo di data mining è la distribuzione.Per fare ciò, le tecniche scelte nel modello vengono applicate al set di dati più ampio e i risultati vengono analizzati.Il rapporto che proviene da questo passaggio di solito mostra i modelli trovati nell'intero processo, tra cui eventuali classificazioni, cluster, associazioni o modelli sequenziali esistenti all'interno del set di dati. La revisione è spesso un importante passaggio finale.Questa fase del processo di solito prevede la ripetizione di modelli di estrazione con un nuovo set di dati per assicurarsi che il set principale fosse rappresentativo dell'intera popolazione di dati.I risultati non possono prevedere le tendenze nella popolazione più ampia se il campione di dati non lo rappresenta accuratamente.