Skip to main content

Hvad er statistiske data mining?

Statistiske datamining, også kendt som viden eller dataopdagelse, er en edb -metode til indsamling og analyse af information.Data-mining-værktøjet tager data og kategoriserer informationen for at opdage mønstre eller sammenhænge, der kan bruges i vigtige applikationer, såsom medicin, computerprogrammering, forretningsfremme og robotdesign.Statistiske dataminingsteknikker bruger komplekse matematik og komplicerede statistiske processer til at skabe en analyse.

Data mining involverer fem store trin.Den første data mining-applikation indsamler statistiske data og placerer oplysningerne i et lager-type program.Dernæst er dataene i lageret organiseret og opretter et styringssystem.Det næste trin skaber en måde at få adgang til de administrerede data.Derefter udvikler det fjerde trin software til at analysere dataene, også kendt som data mining -regression, mens det sidste trin letter ved hjælp af eller fortolker de statistiske data på en praktisk måde.

Generelt integrerer dataminingsteknikker analytiske og transaktionsdatasystemer.Analytisk software sorteres gennem begge typer datasystemer ved hjælp af åbne brugerspørgsmål.Åbne spørgsmål tillader utallige svar, så programmerere ikke påvirker resultaterne af sorteringen.Programmerere opretter lister over spørgsmål til at hjælpe med at kategorisere oplysningerne ved hjælp af et overordnet fokus.

Sortering er derefter baseret på udvikling af klasser og klynger af data, foreninger, der findes i dataene, og forsøg på at definere mønstre og tendenser baseret på foreningerne.For eksempel indsamler Google oplysninger om brugere, der køber vaner for at hjælpe med at placere online -reklame.Åbne spørgsmål, der bruges til at sortere disse køberdata, fokuserer på købspræferencer eller visningsvaner hos internetbrugere.

Computerforskere og programmerere fokuserer på analysen af de statistiske data, der indsamles.Oprettelse af beslutningstræer, kunstige neurale netværk, nærmeste nabo-metode, regelinduktion, datavisualisering og genetiske algoritmer bruger alle de statistisk-medede data.Disse klassificeringssystemer hjælper med at fortolke de foreninger, der blev opdaget af de analytiske dataprogrammer.Statistiske dataudvindinger involverer små projekter, der kan udføres i lille skala på en hjemmecomputer, men de fleste dataminingforeningssæt er så store, og dataminingregressionen er så kompliceret, at de kræver en supercomputer eller et netværk af højhastighedscomputere.

Statistiske data Mining indsamler tre generelle typer data, herunder operationelle data, ikke-operationelle data og metadata.I en tøjbutik er operationelle data grundlæggende data, der bruges til at drive virksomheden, såsom regnskab, salg og lagerstyring.Ikke-operationelle data, der indirekte er relateret til virksomheden, inkluderer estimater af fremtidig salg og generel information om det nationale tøjmarked.Metadata vedrører selve dataene.Et program, der bruger metadatahar udbredte praktiske anvendelser.Undersøgelsen af sygdomsudbrud er et eksempel.Et 2000 -data mining -projekt analyserede sygdomsudbruddet af Cryptosporidium i Ontario, Canada for at bestemme årsagerne til stigningen i sygdomssager.Resultaterne af datamining hjalp til med at forbinde bakteriudbruddet til lokale vandforhold og manglen på ordentlig kommunal vandbehandling.Et felt kaldet Biosurveillance bruger epidemiologiske datamining til at identificere udbrud af en enkelt sygdom.

Computerprogrammerere og designere anvender også studiet af sandsynlighed og statistisk dataanalyse til at udvikle maskiner og computerprogrammer.Google Internet -søgemaskinen blev designet ved hjælp af statistiske data MIning.Google fortsætter med at indsamle og bruge datamining til at oprette programopdateringer og applikationer.