Skip to main content

Vad är data mining -processen?

Data miningprocessen är ett verktyg för att avslöja statistiskt signifikanta mönster i en stor mängd data.Det involverar vanligtvis fem huvudsteg, som inkluderar förberedelser, datautforskning, modellbyggnad, distribution och granskning.Varje steg i processen involverar en annan uppsättning tekniker, men de flesta använder någon form av statistisk analys.

Innan data miningprocessen kan påbörjas sätter forskarna vanligtvis forskningsmål.Detta beredningssteg bestämmer vanligtvis vilka typer av data som måste studeras, vilka data mining -tekniker som ska användas och vilken form resultat kommer att ta.Detta första steg i processen kan vara avgörande för att samla in användbar information.

Nästa steg i data miningprocessen är utforskning.Detta steg innebär vanligtvis att samla in de nödvändiga uppgifterna från ett informationslager eller insamlingsenhet.Sedan förbereder gruvexperter vanligtvis rådatauppsättningarna för analys.Detta steg består vanligtvis av att samla in, städa, organisera och kontrollera alla data för fel.

Denna förberedda data går vanligtvis in i det tredje steget i databrytningsprocessen, modellbyggnad.För att åstadkomma detta tar forskare vanligtvis små testprover av data och tillämpar en mängd olika data mining -tekniker på dem.Modelleringssteget används ofta för att bestämma den bästa metoden för statistisk analys som krävs för att uppnå önskade resultat.

Det finns fyra huvudtekniker som kan tillämpas i data miningprocessen.Den första är klassificering, som arrangerar data i fördefinierade grupper eller kategorier.I den andra tekniken, kallad kluster, tillåter forskare datorn att organisera uppgifterna i grupper, som den väljer.En tredje datateknik söker samband mellan variabler.Den fjärde letar vanligtvis efter sekventiella mönster i de data som kan användas för att förutsäga framtida trender.

Det sista steget i data miningprocessen är utplacering.För att göra detta tillämpas de tekniker som valts i modellen på den större datauppsättningen och resultaten analyseras.Rapporten som kommer från detta steg visar vanligtvis mönstren som finns i hela processen, inklusive eventuella klassificeringar, kluster, föreningar eller sekventiella mönster som finns i datauppsättningen.

granskning är ofta ett viktigt sista steg.Denna fas i processen innebär vanligtvis att upprepa gruvmodeller med en ny datauppsättning för att se till att huvuduppsättningen var representativ för hela datapopulationen.Resultaten kan inte förutsäga trender i den större populationen om dataprovet inte exakt representerar det.