Skip to main content

Hvad er de vigtigste dataminingskoncepter?

De vigtigste dataminingskoncepter bruges til analyse af indsamlet information, især i bestræbelserne på at observere en opførsel.Ukendte interaktioner mellem data undersøges på forskellige måder at konstatere kritiske forhold mellem personer og samlet information.En udfordring inden for datamining er, at de faktiske oplysninger, der indsamles, muligvis ikke minder om hele domænet.I et forsøg på at tackle denne kendsgerning kan sammenhænge mellem dataene metodisk kontrolleres af de forskellige dataminingskoncepter.

Standarder for dataminingskoncepter håndhæves af Association for Computing Machinerys Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD).Denne organisation offentliggør "International Journal of Information Technology and Decision Making" såvel som tidsskriftet Sigkdd Explorations. Håndhævelse af etik og grundlæggende principper for datamining holder industrien arbejde effektivt og med begrænsede juridiske problemer.

Forbehandling afOplysninger er et af de vigtigste aspekter af datamining.De rå data skal udvindes og fortolkes.For at udføre denne handling skal en proces bestemmes, at måldataene skal samles, og mønstre findes.Processen er kendt som Videnopdagelse i databaser og blev udviklet af Gregory Piatetsky-Shapiro i 1989.

Fire forskellige klasser af dataminingskoncepter gør det muligt at finde sted. Clustering bruger algoritmen, der er oprettet fra dataminingprocessen til at samle genstande i lignende grupper.I modsætning til klyngering er klassificering af informationen, når dataene samles i foruddefinerede grupper og analyseres. Association Forsøg på at finde forhold mellem variabler, der bestemmer, hvilke grupper af data der ofte er forbundet.Den endelige type datamining er regression , baseret på metoden til at identificere en funktion i dataindsamlingen.

Validering af informationen er det sidste trin i at opdage, hvad dataindvindingsapplikationen repræsenterer.Når ikke alle algoritmer præsenterer et gyldigt datasæt, kan de mønstre, der forekommer, resultere i en situation kaldet overfitting.For at overvinde dette problem sammenlignes dataene med et testsæt.Dette er et koncept, hvor målingerne er på linje med en række algoritmer, der ville give et plausibelt sæt datasæt.Hvis de erhvervede oplysninger ikke stemmer overens med testsættet, skal de antagede mønstre i dataene være unøjagtige.

Nogle af de vigtigste dataminingskoncepter forekommer i forskellige brancher.Gaming, forretning, marketing, videnskab, teknik og overvågning bruger alle dataminingsteknikker.Ved at udføre disse teknikker kan hvert felt bestemme bedste praksis eller bedre måder at finde resultater på.