Vad är statistiska data gruvdrift?

Statistisk datautvinning, även känd som kunskap eller upptäckt av data, är en datoriserad metod för att samla in och analysera information. Verktyget för gruvdrift tar data och kategoriserar informationen för att upptäcka mönster eller korrelationer som kan användas i viktiga applikationer, såsom medicin, datorprogrammering, marknadsföring av företag och robotkonstruktion. Tekniska gruvtekniker använder komplex matematik och komplicerade statistiska processer för att skapa en analys.

Data mining innebär fem stora steg. Den första applikationen för data mining samlar statistiska data och placerar informationen i ett program av lagertyp. Därefter organiseras data i lagret och skapar ett hanteringssystem. Nästa steg skapar ett sätt att få åtkomst till hanterade data. Sedan utvecklar det fjärde steget mjukvara för att analysera data, även känd som reglering av data mining, medan det sista steget underlättar användning eller tolkning av statistiska data på ett praktiskt sätt.

Generellt integrerar data mining-tekniker analytiska och transaktionsdatasystem. Analytisk programvara sorterar genom båda typerna av datasystem med öppna användarfrågor. Frågor med öppna ändamål tillåter otaliga svar så att programmerare inte påverkar resultatet av sorteringen. Programmerare skapar listor med frågor för att hjälpa till att kategorisera informationen med ett övergripande fokus.

Sortering baseras sedan på att utveckla klasser och kluster av data, föreningar som finns i data och försök att definiera mönster och trender baserade på föreningarna. Google samlar till exempel information om användarnas köpvanor för att hjälpa till att placera onlineannonsering. Frågor som används för att sortera denna köpedata fokuserar på köppreferenser eller visningsvanor för Internetanvändare.

Datorforskare och programmerare fokuserar på analysen av statistiska data som samlas in. Skapandet av beslutsträd, konstgjorda neurala nätverk, närmaste grannmetod, regelinduktion, datavisualisering och genetiska algoritmer använder alla de statistiskt utvalda data. Dessa klassificeringssystem hjälper till att tolka föreningarna som upptäckts av de analytiska dataprogrammen. Statistisk datakommunikation involverar små projekt som kan göras i liten skala på en hemdator, men de flesta dataminingföreningsuppsättningar är så stora och datagruvsregressionen så komplicerad att de kräver en superdator eller ett nätverk av höghastighetsdatorer.

Mining av statistisk data samlar in tre allmänna typer av data, inklusive operativa data, icke-operativa data och metadata. I en klädaffär är operativa data basdata som används för att driva verksamheten, till exempel redovisning, försäljning och lagerkontroll. Icke-operativa uppgifter, som är indirekt relaterade till verksamheten, inkluderar uppskattningar av framtida försäljning och allmän information om den nationella klädmarknaden. Metadata gäller själva uppgifterna. Ett program som använder metadata kan sortera butikskunder i klassificeringar baserat på kön eller geografisk plats för klädköparna eller kundens favoritfärg, om dessa data samlades in.

En data mining-applikation kan vara extremt sofistikerad och det statistiska data mining-verktyget kan ha utbredda praktiska tillämpningar. Studien av sjukdomsutbrott är ett exempel. Ett 2000-gruvprojekt analyserade sjukdomsutbrottet av cryptosporidium i Ontario, Kanada för att fastställa orsakerna till ökningen av sjukdomsfall. Resultaten av datautvecklingen hjälpte till att koppla bakterieutbrottet till lokala vattenförhållanden och bristen på korrekt kommunal vattenbehandling. Ett fält som kallas "bioövervakning" använder epidemiologisk datautvinning för att identifiera utbrott av en enda sjukdom.

Datorprogrammerare och designers använder också studien av sannolikhet och statistisk dataanalys för att utveckla maskiner och datorprogram. Googles Internet-sökmotor var utformad med hjälp av statistikuppgifter. Google fortsätter att samla in och använda data mining för att skapa programuppdateringar och applikationer.

Vad är statistiska data gruvdrift?

Hjälpte den här artikeln dig?