Skip to main content

Vad är statistisk data mining?

Statistisk data mining, även känd som kunskap eller upptäckt av data, är en datoriserad metod för att samla in och analysera information.Data-gruvningsverktyget tar data och kategoriserar informationen för att upptäcka mönster eller korrelationer som kan användas i viktiga applikationer, såsom medicin, datorprogrammering, affärsförfrämjande och robotdesign.Statistiska data mining -tekniker använder komplex matematik och komplicerade statistiska processer för att skapa en analys.

Databrytning innebär fem huvudsteg.Den första applikationen för data mining samlar in statistiska data och placerar informationen i ett lager av lager.Därefter är uppgifterna i lagret organiserade och skapar ett ledningssystem.Nästa steg skapar ett sätt att komma åt de hanterade uppgifterna.Sedan utvecklar det fjärde steget programvara för att analysera uppgifterna, även känd som regression av data mining, medan det sista steget underlättar att använda eller tolka statistiska data på ett praktiskt sätt.

Generellt integrerar data mining -tekniker analytiska och transaktionsdatasystem.Analytisk programvara sorterar genom båda typerna av datasystem med öppna användarfrågor.Öppna frågor tillåter otaliga svar så att programmerare inte påverkar resultaten av sorteringen.Till exempel samlar Google information om användare som köper vanor för att hjälpa till att placera onlineannonsering.Öppna frågor som används för att sortera denna köpdata fokuserar på att köpa preferenser eller visa vanor hos internetanvändare.

Datorforskare och programmerare fokuserar på analysen av de statistiska uppgifterna som samlas in.Skapande av beslutsträd, konstgjorda neurala nätverk, närmaste grannmetod, regelinduktion, datavisualisering och genetiska algoritmer använder alla de statistiskt linda data.Dessa klassificeringssystem hjälper till att tolka de föreningar som upptäckts av de analytiska dataprogrammen.Statistisk databrytning involverar små projekt som kan göras i liten skala på en hemdator, men de flesta data för att gruvdrift är så stora och data mining regression så komplicerad att de kräver en superdator eller ett nätverk av höghastighetsdatorer.

Statistisk databrytning samlar in tre allmänna typer av data, inklusive operativa data, icke-operativa data och metadata.I en klädbutik är operativa uppgifter grundläggande data som används för att driva verksamheten, till exempel redovisning, försäljning och lagerkontroll.Icke-operativa uppgifter, som indirekt är relaterade till verksamheten, inkluderar uppskattningar av framtida försäljning och allmän information om den nationella klädmarknaden.Metadata gäller själva uppgifterna.Ett program som använder metadata kan sortera butikskunder i klassificeringar baserade på kön eller geografisk plats för klädköpare eller kundernas favoritfärg, om den informationen samlades in.

En applikation för data mining kan vara extremt sofistikerad och det statistiska data mining -verktyget kan kunnahar utbredda praktiska tillämpningar.Studien av sjukdomsutbrott är ett exempel.Ett 2000 -data mining -projekt analyserade sjukdomsutbrottet av Cryptosporidium i Ontario, Kanada för att bestämma orsakerna till ökningen av sjukdomsfall.Resultaten av databrytningen hjälpte till att koppla bakterieutbrottet till lokala vattenförhållanden och bristen på korrekt kommunal vattenbehandling.Ett fält som kallas biosurveillance använder epidemiologisk databrytning för att identifiera utbrott av en enda sjukdom.

Datorprogrammerare och designers använder också studien av sannolikhet och statistisk dataanalys för att utveckla maskiner och datorprogram.Google Internet -sökmotorn designades med statistiska data MIning.Google fortsätter att samla in och använda data mining för att skapa programuppdateringar och applikationer.