Skip to main content

Hva er statistiske data mining?

Statistiske data mining, også kjent som kunnskap eller dataoppdagelse, er en datastyrt metode for å samle og analysere informasjon.Data-mining-verktøyet tar data og kategoriserer informasjonen for å oppdage mønstre eller korrelasjoner som kan brukes i viktige applikasjoner, for eksempel medisin, dataprogrammering, forretningsfremmelse og robotdesign.Statistiske data miningteknikker bruker kompleks matematikk og kompliserte statistiske prosesser for å lage en analyse.

Data mining innebærer fem hovedtrinn.Den første data mining-applikasjonen samler inn statistiske data og plasserer informasjonen i et lager-type program.Deretter er dataene på lageret organisert og oppretter et styringssystem.Neste trinn skaper en måte å få tilgang til de administrerte dataene på.Deretter utvikler det fjerde trinnet programvare for å analysere dataene, også kjent som data mining -regresjon, mens det endelige trinnet letter ved bruk av eller tolker de statistiske dataene på en praktisk måte.

Generelt integrerer data mining -teknikker analytiske og transaksjonsdatasystemer.Analytisk programvare sorterer gjennom begge typer datasystemer ved hjelp av åpne brukerspørsmål.Åpne spørsmål tillater utallige svar slik at programmerere ikke påvirker resultatene av sortering.Programmerere lager lister over spørsmål for å hjelpe til med å kategorisere informasjonen ved hjelp av et overordnet fokus.

Sortering er deretter basert på å utvikle klasser og klynger av data, assosiasjoner som finnes i dataene, og forsøk på å definere mønstre og trender basert på assosiasjonene.For eksempel samler Google informasjon om brukere som kjøper vaner for å hjelpe deg med å plassere online annonsering.Åpne spørsmål som brukes til å sortere disse kjøperdataene, fokuserer på å kjøpe preferanser eller visningsvaner hos internettbrukere.

Dataforskere og programmerere fokuserer på analysen av de statistiske dataene som blir samlet inn.Opprettelse av beslutningstrær, kunstige nevrale nettverk, nærmeste nabodetode, regelinduksjon, datavisualisering og genetiske algoritmer bruker alle de statistisk gruvede dataene.Disse klassifiseringssystemene hjelper til med å tolke assosiasjonene som er oppdaget av de analytiske dataprogrammene.Statistiske data mining involverer små prosjekter som kan gjøres i liten skala på en hjemmecomputer, men de fleste datamineringsforeningssett er så store og data mining regresjon så komplisert at de krever en superdatamaskin eller et nettverk av høyhastighetsdatamaskiner.

Statistiske data mining samler inn tre generelle typer data, inkludert driftsdata, ikke-operasjonelle data og metadata.I en klesbutikk er driftsdata grunnleggende data som brukes til å drive virksomheten, for eksempel regnskap, salg og lagerkontroll.Ikke-operasjonelle data, som indirekte er relatert til virksomheten, inkluderer estimater av fremtidig salg og generell informasjon om det nasjonale klesmarkedet.Metadata angår selve dataene.Et program som bruker metadata kan sortere lagringskunder i klassifiseringer basert på kjønn eller geografisk plassering av kleskjøperne eller kundens favorittfarge, hvis disse dataene ble samlet.har utbredte praktiske applikasjoner.Studien av sykdomsutbrudd er ett eksempel.Et 2000 Data Mining -prosjekt analyserte sykdomsutbruddet av Cryptosporidium i Ontario, Canada for å bestemme årsakene til økningen i sykdomstilfeller.Resultatene fra data mining hjalp til med å koble bakterienes utbrudd til lokale vannforhold og mangelen på riktig kommunal vannbehandling.Et felt som kalles biosurveillance bruker epidemiologiske data mining for å identifisere utbrudd av en enkelt sykdom. Dataprogrammerere og designere bruker også studiet av sannsynlighet og statistisk dataanalyse for å utvikle maskiner og dataprogrammer.Google Internett -søkemotoren ble designet med statistiske data MINing.Google fortsetter å samle inn og bruke data mining for å opprette programoppdateringer og applikasjoner.