Hva er gruvedrift av statistiske data?

Statistisk datautvinning, også kjent som kunnskap eller datafunn, er en datamaskinisert metode for innsamling og analyse av informasjon. Databehandlingsverktøyet tar data og kategoriserer informasjonen for å oppdage mønstre eller korrelasjoner som kan brukes i viktige applikasjoner, for eksempel medisin, dataprogrammering, bedriftspromotering og robotisk design. Tekniske gruvedriftsteknikker bruker komplekse matematikk og kompliserte statistiske prosesser for å lage en analyse.

Databehandling innebærer fem store trinn. Den første data mining-applikasjonen samler inn statistiske data og plasserer informasjonen i et program av lagertype. Deretter er dataene på lageret organisert og oppretter et styringssystem. Neste trinn skaper en måte å få tilgang til de administrerte dataene på. Deretter utvikler fjerde trinn programvare for å analysere dataene, også kjent som data mining regression, mens det siste trinnet letter det å bruke eller tolke de statistiske dataene på en praktisk måte.

Generelt integrerer data mining teknikker analytiske og transaksjonsdatasystemer. Analytisk programvare sorterer gjennom begge typer datasystemer ved å bruke åpne spørsmål. Spørsmål med åpne mål tillater utallige svar, slik at programmerere ikke påvirker resultatene av sorteringen. Programmerere lager lister med spørsmål for å hjelpe til med å kategorisere informasjonen ved å bruke et overordnet fokus.

Sortering er deretter basert på å utvikle klasser og klynger med data, assosiasjoner som finnes i dataene, og forsøk på å definere mønstre og trender basert på assosiasjonene. For eksempel samler Google informasjon om brukernes kjøpsvaner for å hjelpe deg med å plassere online-annonsering. Spørsmål som er åpne for å sortere denne kjøperdata, fokuserer på kjøpepreferanser eller seevaner for Internett-brukere.

Dataforskere og programmerere fokuserer på analysen av statistiske data som er samlet inn. Opprettelse av avgjørelsetrær, kunstige nevrale nettverk, nærmeste nabo-metode, regelinduksjon, datavisualisering og genetiske algoritmer bruker alle de statistisk utvinnede dataene. Disse klassifiseringssystemene hjelper til med å tolke assosiasjonene som er oppdaget av de analytiske dataprogrammene. Statistisk datagruving involverer små prosjekter som kan gjøres i liten skala på en hjemme-datamaskin, men de fleste data mining-foreningssett er så store og datagruveregresjonen så komplisert at de krever en superdatamaskin eller et nettverk av høyhastighets datamaskiner.

Statistikkdatainnsamling samler inn tre generelle typer data, inkludert driftsdata, ikke-operasjonelle data og metadata. I en klesbutikk er driftsdata grunnleggende data som brukes til å drive virksomheten, for eksempel regnskap, salg og varelagerkontroll. Ikke-operasjonelle data, som indirekte er relatert til virksomheten, inkluderer estimater for fremtidig salg og generell informasjon om det nasjonale klesmarkedet. Metadata gjelder selve dataene. Et program som bruker metadata kan sortere butikkunder i klassifiseringer basert på kjønn eller geografisk plassering av kleskjøperne eller kundens favorittfarge, hvis dataene ble samlet inn.

En data mining-applikasjon kan være ekstremt sofistikert, og det statistiske data mining-verktøyet kan ha utbredte praktiske applikasjoner. Studiet av sykdomsutbrudd er ett eksempel. Et 2000 gruvedriftprosjekt analyserte sykdomsutbruddet av cryptosporidium i Ontario, Canada for å bestemme årsakene til økningen i sykdomstilfeller. Resultatene fra datautvindingen bidro til å knytte bakterieutbruddet til lokale vannforhold og mangelen på riktig kommunal vannbehandling. Et felt kalt "biosurveillance" bruker epidemiologisk data mining for å identifisere utbrudd av en enkelt sykdom.

Dataprogrammerere og designere benytter også studiet av sannsynlighet og statistisk dataanalyse for å utvikle maskiner og dataprogrammer. Googles Internett-søkemotor ble designet ved bruk av statistisk datautvinning. Google fortsetter å samle og bruke data mining for å lage programoppdateringer og applikasjoner.

Hva er gruvedrift av statistiske data?

Hjalp denne artikkelen deg?