Co je statistická těžba dat?

Statistická těžba dat, známá také jako znalost nebo vyhledávání dat, je počítačová metoda sběru a analýzy informací. Nástroj pro dolování dat bere data a kategorizuje informace, aby objevil vzorce nebo korelace, které lze použít v důležitých aplikacích, jako je medicína, počítačové programování, podpora podnikání a robotický design. Techniky statistické těžby dat používají k vytvoření analýzy komplexní matematiku a komplikované statistické procesy.

Dolování dat zahrnuje pět hlavních kroků. První aplikace pro dolování dat shromažďuje statistická data a umisťuje informace do programu typu sklad. Dále jsou data ve skladu uspořádána a vytváří systém řízení. Další krok vytvoří způsob přístupu ke spravovaným datům. Čtvrtý krok pak vyvíjí software pro analýzu dat, známý také jako regrese dolování dat, zatímco poslední krok umožňuje praktické použití nebo interpretaci statistických dat.

Techniky dolování dat obecně integrují analytické a transakční datové systémy. Analytický software třídí oba typy datových systémů pomocí otevřených uživatelských otázek. Otázky s otevřeným koncem umožňují nespočet odpovědí, takže programátoři neovlivňují výsledky třídění. Programátoři vytvářejí seznamy otázek, které pomáhají při kategorizaci informací pomocí celkového zaměření.

Třídění je pak založeno na vývoji tříd a skupin dat, asociacích nalezených v datech a pokusech definovat vzory a trendy na základě asociací. Google například shromažďuje informace o nákupních zvyklostech uživatelů, aby pomohl při umístění online reklamy. Otázky s otevřeným koncem používané k třídění těchto údajů o kupujících se zaměřují na nákupní preference nebo prohlížení zvyků uživatelů internetu.

Počítačoví vědci a programátoři se zaměřují na analýzu statistických údajů, které jsou shromažďovány. Statisticky těžená data používají vytváření rozhodovacích stromů, umělých neuronových sítí, metody nejbližšího souseda, indukce pravidel, vizualizace dat a genetické algoritmy. Tyto klasifikační systémy pomáhají při interpretaci asociací objevených programy analytických dat. Statistická dolování dat zahrnuje malé projekty, které lze v domácím počítači provádět v malém měřítku, ale většina asociačních asociací dolování dat je tak velká a regrese dolování dat je tak složitá, že vyžadují superpočítač nebo síť vysokorychlostních počítačů.

Statistické dolování dat shromažďuje tři obecné typy dat, včetně provozních dat, neoperačních dat a metadat. V obchodě s oděvy jsou provozní data základními daty používanými pro podnikání, jako je účetnictví, prodej a kontrola zásob. Neprovozní údaje, které se nepřímo vztahují k podnikání, zahrnují odhady budoucích prodejů a obecné informace o národním trhu s oděvy. Data Meta se týkají samotných dat. Program využívající metadata může třídit zákazníky do klasifikací na základě pohlaví nebo zeměpisné polohy kupujících oblečení nebo oblíbené barvy zákazníků, pokud byla tato data shromážděna.

Aplikace pro dolování dat může být velmi sofistikovaná a nástroj pro statistické dolování dat může mít rozšířené praktické aplikace. Jedním z příkladů je studium ohnisek nemoci. Projekt dolování dat z roku 2000 analyzoval vypuknutí choroby kryptosporidia v kanadském Ontariu za účelem stanovení příčin nárůstu případů onemocnění. Výsledky dolování dat pomohly spojit propuknutí bakterií s místními vodními podmínkami a nedostatkem řádného čištění komunální vody. Pole nazvané „biosurveillance“ používá k identifikaci ohnisek jediné nemoci získávání epidemiologických údajů.

Počítačoví programátoři a designéři také používají vývoj pravděpodobnosti a statistické analýzy dat k vývoji strojů a počítačových programů. Internetový vyhledávač Google byl navržen s využitím statistické těžby dat. Google nadále shromažďuje a používá data mining k vytváření aktualizací programů a aplikací.

Co je statistická těžba dat?

Pomohl vám tento článek?