Skip to main content

Jaký je proces těžby dat?

Proces těžby dat je nástrojem pro odhalení statisticky významných vzorců ve velkém množství dat.Obvykle zahrnuje pět hlavních kroků, které zahrnují přípravu, průzkum dat, budování modelu, nasazení a kontrolu.Každý krok v procesu zahrnuje jinou sadu technik, ale většina používá určitou formu statistické analýzy.

Před zahájením procesu těžby dat vědci obvykle stanoví výzkumné cíle.Tento krok přípravy obvykle určuje, jaké typy dat je třeba studovat, jaké techniky těžby dat by měly být použity a jaká forma budou výsledky mít.Tento počáteční krok v procesu může být pro shromažďování užitečných informací zásadní.

Dalším krokem v procesu dolování dat je průzkum.Tento krok obvykle zahrnuje shromáždění požadovaných údajů z informačního skladu nebo entity sběru.Poté odborníci na těžbu obvykle připravují sady dat pro analýzu.Tento krok obvykle spočívá v shromažďování, čištění, organizaci a kontrole všech dat z hlediska chyb.Abychom toho dosáhli, vědci obvykle berou malé testovací vzorky dat a aplikují na ně různé techniky těžby dat.Krok modelování se často používá k určení nejlepší metody statistické analýzy potřebné k dosažení požadovaných výsledků.První je klasifikace, která uspořádá data do předdefinovaných skupin nebo kategorií.Ve druhé technice, nazvané Clustering, vědci umožňují počítači zorganizovat data do skupin, jak se vybere.Třetí technika těžby dat hledá souvislosti mezi proměnnými.Čtvrtý obvykle hledá sekvenční vzorce v datech, které mohou být použity k predikci budoucích trendů.

Konečným krokem v procesu dolování dat je nasazení.Za tímto účelem jsou techniky vybrané v modelu aplikovány na větší datový soubor a výsledky jsou analyzovány.Zpráva, která pochází z tohoto kroku, obvykle ukazuje vzory nalezené v celém procesu, včetně jakýchkoli klasifikací, klastrů, asociací nebo sekvenčních vzorců existujících v datovém souboru.

Review je často důležitým konečným krokem.Tato fáze v procesu obvykle zahrnuje opakování těžebních modelů s novým souborem dat, aby se zajistilo, že hlavní sada byla reprezentativní pro celou populaci dat.Výsledky nemohou předpovídat trendy ve větší populaci, pokud to vzorek dat přesně nepředstavuje.