Skip to main content

Cos'è il data mining statistico?

Il data mining statistico, noto anche come conoscenza della conoscenza o dei dati, è un metodo computerizzato per raccogliere e analizzare le informazioni.Lo strumento di data mining prende i dati e classifica le informazioni per scoprire modelli o correlazioni che possono essere utilizzate in applicazioni importanti, come medicina, programmazione informatica, promozione aziendale e progettazione robotica.Le tecniche di data mining statistiche utilizzano matematici complessi e complicati processi statistici per creare un'analisi. Il data mining di

prevede cinque passaggi principali.La prima applicazione di data mining raccoglie dati statistici e inserisce le informazioni in un programma di tipo magazzino.Successivamente, i dati nel magazzino sono organizzati e crea un sistema di gestione.Il passo successivo crea un modo per accedere ai dati gestiti.Quindi, la quarta fase sviluppa software per analizzare i dati, noti anche come regressione del data mining, mentre il passaggio finale facilita l'uso o l'interpretazione dei dati statistici in modo pratico.

In generale, le tecniche di data mining integrano sistemi di dati analitici e di transazione.Il software analitico ordina attraverso entrambi i tipi di sistemi di dati utilizzando domande utente aperte.Le domande aperte consentono innumerevoli risposte, quindi i programmatori non stanno influenzando i risultati dell'ordinamento.I programmatori creano elenchi di domande per aiutare a classificare le informazioni utilizzando un focus generale. L'ordinamento

si basa quindi sullo sviluppo di classi e cluster di dati, associazioni trovate nei dati e tentativi di definire modelli e tendenze basati sulle associazioni.Ad esempio, Google raccoglie informazioni sulle abitudini di acquisto degli utenti per aiutare a posizionare la pubblicità online.Domande aperte utilizzate per ordinare questi dati dell'acquirente si concentrano sull'acquisto delle preferenze o sulla visualizzazione delle abitudini degli utenti di Internet.

Gli informatici e i programmatori si concentrano sull'analisi dei dati statistici raccolti.La creazione di alberi decisionali, reti neurali artificiali, metodo vicino più vicino, induzione delle regole, visualizzazione dei dati e algoritmi genetici utilizzano tutti i dati minimizzati statisticamente.Questi sistemi di classificazione aiutano a interpretare le associazioni scoperte dai programmi di dati analitici.Il data mining statistico coinvolge piccoli progetti che possono essere realizzati su piccola scala su un computer domestico, ma la maggior parte dei set di associazioni di data mining sono così grandi e la regressione del data mining è così complicata da richiedere un supercomputer o una rete di computer ad alta velocità.

Il data mining statistico raccoglie tre tipi generali di dati, inclusi dati operativi, dati non operativi e meta dati.In un negozio di abbigliamento, i dati operativi sono dati di base utilizzati per gestire l'attività, come contabilità, vendite e controllo dell'inventario.I dati non operazionali, che sono indirettamente correlati al business, includono stime delle vendite future e informazioni generali sul mercato nazionale di abbigliamento.I meta dati riguardano i dati stessi.Un programma che utilizza Meta Data potrebbe ordinare i clienti in classificazioni in base al genere o alla posizione geografica degli acquirenti di abbigliamento o del colore preferito dei clienti, se tali dati sono stati raccolti.

Un'applicazione di data mining può essere estremamente sofisticata e lo strumento di data mining statistico potrebbeavere applicazioni pratiche diffuse.Lo studio degli scoppi di malattia è un esempio.Un progetto di data mining del 2000 ha analizzato lo scoppio della malattia di Cryptosporidium in Ontario, in Canada, per determinare le cause dell'aumento dei casi di malattia.I risultati del data mining hanno aiutato a collegare l'epidemia di batteri alle condizioni dell'acqua locale e alla mancanza di un adeguato trattamento delle acque municipali.Un campo chiamato biosurvellanza utilizza il data mining epidemiologico per identificare focolai di una singola malattia. I programmatori e i progettisti di computer utilizzano anche lo studio della probabilità e dell'analisi dei dati statistici per sviluppare macchine e programmi per computer.Il motore di ricerca di Google Internet è stato progettato utilizzando i dati statistici MIning.Google continua a raccogliere e utilizzare il data mining per creare aggiornamenti e applicazioni del programma.