Skip to main content

Hva er de viktigste datautvinningskonseptene?

De viktigste data mining -konseptene brukes til analyse av samlet informasjon, spesielt i arbeidet med å observere en oppførsel.Ukjente interaksjoner mellom data blir undersøkt på en rekke måter å konstatere kritiske forhold mellom fag og aggregert informasjon.En utfordring i data mining er at den faktiske informasjonen som samles inn, kanskje ikke minner om hele domenet.I et forsøk på å adressere dette faktum, kan korrelasjoner mellom dataene metodisk kontrolleres av de forskjellige data mining -konseptene.

Standarder for data mining -konsepter håndheves av Association for Computing Machinerys Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD).Denne organisasjonen publiserer "International Journal of Information Technology and Decision Making", så vel som tidsskriftet SigkDD-undersøkelser. Håndheving av etikk og grunnleggende prinsipper for data mining holder bransjen å jobbe effektivt og med begrensede juridiske problemer.

Forbehandling av denInformasjon er et av de viktigste aspektene ved data mining.Rå dataene må utvinnes og tolkes.For å utføre denne handlingen, må en prosess bestemmes, måldataene skal settes sammen og mønstre blir funnet.Prosessen er kjent som Kunnskapsoppdagelse i databaser og ble utviklet av Gregory Piatsky-Shapiro i 1989.

Fire forskjellige klasser av data mining-konsepter lar prosessen finne sted. Clustering bruker algoritmen som er opprettet fra data mining -prosessen for å sette sammen elementer i lignende grupper.I motsetning til klynging, er Klassifisering av informasjonen når dataene er samlet i forhåndsdefinerte grupper og analysert. Association Forsøk på å finne sammenhenger mellom variabler, bestemme hvilke grupper av data som ofte er assosiert.Den endelige typen data mining er regresjon , basert på metoden for å identifisere en funksjon innen datainnsamlingen.

Validering av informasjonen er det siste trinnet i å oppdage hva data mining -applikasjonen representerer.Når ikke alle algoritmer presenterer et gyldig datasett, kan mønstrene som oppstår føre til en situasjon som kalles overmontering.For å overvinne dette problemet sammenlignes dataene med et testsett.Dette er et konsept der målingene er i samsvar med en serie algoritmer som vil gi et plausibelt sett med datasett.Hvis den anskaffede informasjonen ikke stemmer overens til testsettet, må de antatte mønstrene i dataene være unøyaktige.

Noen av de viktigste datautvinningskonseptene oppstår i en rekke bransjer.Spill, forretning, markedsføring, vitenskap, ingeniørvitenskap og overvåking bruker alle data mining -teknikker.Ved å gjennomføre disse teknikkene, kan hvert felt bestemme beste praksis eller bedre måter å finne resultater på.