Skip to main content

Co je to těžba statistického dat?

„Statistická těžba dat, známá také jako Znalost nebo zjišťování dat, je počítačová metoda shromažďování a analýzy informací.Nástroj pro těžbu dat bere data a kategorizuje informace k objevování vzorců nebo korelací, které lze použít v důležitých aplikacích, jako je medicína, počítačové programování, propagace podnikání a robotický design.Statistické techniky dolování dat používají k vytvoření analýzy složité matematiky a komplikované statistické procesy.

Dolování dat zahrnuje pět hlavních kroků.První aplikace pro těžbu dat shromažďuje statistická data a uvede informace do programu typu skladu.Dále jsou data ve skladu organizována a vytvářejí systém správy.Další krok vytváří způsob přístupu k spravovaným datům.Čtvrtý krok pak vyvíjí software pro analýzu dat, také známý jako regrese dolování dat, zatímco konečný krok usnadňuje využívání nebo interpretace statistických dat praktickým způsobem.

Obecně integrují techniky těžby dat analytické a transakční datové systémy.Analytický software se třídí prostřednictvím obou typů datových systémů pomocí otevřených otázek uživatelů.Otevřené otázky umožňují nespočet odpovědí, takže programátoři neovlivňují výsledky třídění.Programátoři vytvářejí seznamy otázek, které pomáhají při kategorizaci informací pomocí celkového zaostření.Například společnost Google shromažďuje informace o uživatelích nákupu návyků, které pomáhají při umisťování online reklamy.Otevřené otázky používané k třídění těchto údajů o kupujícím se zaměřují na předvolby nákupu nebo prohlížení návyků uživatelů internetu.Vytvoření rozhodovacích stromů, umělých neuronových sítí, metody nejbližšího souseda, indukce pravidel, vizualizace dat a genetických algoritmů používají statisticky docházená data.Tyto klasifikační systémy pomáhají při interpretaci asociací objevených analytickými datovými programy.Dolování statistického dat zahrnuje malé projekty, které lze provést v malém měřítku na domácím počítači, ale většina sad asociací pro těžbu dat je tak velká a regrese dolování dat tak komplikovaná, že vyžadují superpočítač nebo síť vysokorychlostních počítačů.

„Statistická těžba dat shromažďuje tři obecné typy dat, včetně operačních dat, neoperačních dat a meta dat.V obchodě oděvů jsou provozní data základní data používaná k provozu podnikání, jako je účetnictví, prodej a kontrola zásob.Neoperační údaje, které nepřímo souvisejí s obchodem, zahrnují odhady budoucího prodeje a obecných informací o národním trhu s oblečením.Meta data se týkají samotných dat.Program využívající data meta by mohl třídit zákazníky do klasifikací založených na pohlaví nebo geografické poloze kupujících oděvů nebo oblíbené barvy zákazníků, pokud byla tato data shromážděna.mít rozšířené praktické aplikace.Jedním z příkladů je studium ohnisek onemocnění.Projekt těžby dat z roku 2000 analyzoval vypuknutí nemoci Cryptosporidium v Kanadě Ontario, aby určil příčiny nárůstu případů nemoci.Výsledky dolování dat pomáhaly propojení vypuknutí bakterií s podmínkami místní vody a nedostatkem správného úpravy městské vody.Pole zvané biosurveillance používá epidemiologická těžba dat k identifikaci ohnisek jediného onemocnění.Internetový vyhledávač Google byl navržen pomocí statistických dat MIning.Google nadále shromažďuje a používá těžbu dat k vytváření aktualizací a aplikací programu.