Skip to main content

Hvad er dataindvindingsprocessen?

Data Mining Process er et værktøj til at afdække statistisk signifikante mønstre i en stor mængde data.Det involverer typisk fem hovedtrin, der inkluderer forberedelse, dataudforskning, modelopbygning, implementering og gennemgang.Hvert trin i processen involverer et andet sæt teknikker, men de fleste bruger en form for statistisk analyse.

Før dataindvindingsprocessen kan begynde, sætter forskerne typisk forskningsmål.Dette forberedelsestrin bestemmer normalt, hvilke typer data der skal undersøges, hvilke dataminingsteknikker der skal bruges, og hvilken form resultaterne vil tage.Dette indledende trin i processen kan være afgørende for at indsamle nyttige oplysninger.

Det næste trin i dataminingprocessen er efterforskning.Dette trin involverer normalt indsamling af de krævede data fra et informationslager eller indsamlingsenhed.Derefter forbereder minedrifteksperter typisk de rå datasæt til analyse.Dette trin består normalt af indsamling, rengøring, organisering og kontrol af alle dataene for fejl.

Dette forberedte data går normalt derefter ind i det tredje trin i dataminingprocessen, modelbygning.For at opnå dette tager forskere typisk små testprøver af data og anvender en række dataminingsteknikker på dem.Modelleringstrinnet bruges ofte til at bestemme den bedste metode til statistisk analyse, der kræves for at opnå de ønskede resultater.

Der er fire hovedteknikker, der kan anvendes i dataminingprocessen.Den første er klassificering, der arrangerer data i foruddefinerede grupper eller kategorier.I den anden teknik, kaldet Clustering, tillader forskere computeren at organisere dataene i grupper, som de vælger.En tredje dataminingsteknik søger sammenhænge mellem variabler.Den fjerde ser typisk efter sekventielle mønstre i de data, der kan bruges til at forudsige fremtidige tendenser.

Det sidste trin i dataminingprocessen er implementering.For at gøre dette anvendes de teknikker, der er valgt i modellen, til det større datasæt, og resultaterne analyseres.Rapporten, der kommer fra dette trin, viser normalt de mønstre, der findes i hele processen, herunder eventuelle klassifikationer, klynger, foreninger eller sekventielle mønstre, der findes inden for datasættet.

aktion er ofte et vigtigt sidste trin.Denne fase i processen involverer normalt gentagelse af minemodeller med et nyt datasæt for at sikre, at hovedsættet var repræsentativt for hele datapopulationen.Resultaterne kan ikke forudsige tendenser i den større population, hvis dataprøven ikke repræsenterer den nøjagtigt.