Skip to main content

Hva er data mining -prosessen?

Data mining -prosessen er et verktøy for å avdekke statistisk signifikante mønstre i en stor mengde data.Det involverer vanligvis fem hovedtrinn, som inkluderer forberedelse, datautforskning, modellbygging, distribusjon og gjennomgang.Hvert trinn i prosessen innebærer et annet sett med teknikker, men de fleste bruker en form for statistisk analyse.

Før datautvinningsprosessen kan begynne, setter forskerne typisk forskningsmål.Dette preparatstrinnet bestemmer vanligvis hvilke typer data som må studeres, hvilke data mining -teknikker som skal brukes, og hvilken form resultatene vil ta.Dette første trinnet i prosessen kan være avgjørende for å samle nyttig informasjon.

Det neste trinnet i data mining -prosessen er utforskning.Dette trinnet innebærer vanligvis å samle de nødvendige dataene fra et informasjonslager eller innsamlingsenhet.Deretter utarbeider gruveeksperter typisk rå datasettene for analyse.Dette trinnet består vanligvis av å samle, rengjøre, organisere og sjekke alle dataene for feil.

Disse forberedte dataene går vanligvis inn i det tredje trinnet i data mining -prosessen, modellbygging.For å oppnå dette tar forskere typisk små testprøver av data og bruker en rekke data mining -teknikker på dem.Modelleringstrinnet brukes ofte for å bestemme den beste metoden for statistisk analyse som kreves for å oppnå de ønskede resultatene.

Det er fire hovedteknikker som kan brukes i data mining -prosessen.Den første er klassifisering, som ordner data i forhåndsdefinerte grupper eller kategorier.I den andre teknikken, kalt klynging, lar forskere datamaskinen organisere dataene i grupper, slik den velger.En tredje data mining -teknikk søker assosiasjoner mellom variabler.Det fjerde ser vanligvis etter sekvensielle mønstre i dataene som kan brukes til å forutsi fremtidige trender.

Det siste trinnet i data mining -prosessen er distribusjon.For å gjøre dette blir teknikkene som er valgt i modellen brukt på det større datasettet, og resultatene blir analysert.Rapporten som kommer fra dette trinnet viser vanligvis mønstrene som finnes i hele prosessen, inkludert klassifiseringer, klynger, assosiasjoner eller sekvensielle mønstre som eksisterer i datasettet.

gjennomgang er ofte et viktig slutttrinn.Denne fasen i prosessen innebærer vanligvis å gjenta gruvemodeller med et nytt datasett for å sikre at hovedsettet var representativt for hele datapopulasjonen.Resultatene kan ikke forutsi trender i den større populasjonen hvis dataprøven ikke representerer den nøyaktig.