Skip to main content

Jaké jsou nejdůležitější koncepty těžby dat?

Nejdůležitější koncepty těžby dat se používají pro analýzu shromážděných informací, zejména ve snaze pozorovat chování.Neznámé interakce mezi údaji jsou zkoumány různými způsoby, jak zjistit kritické vztahy mezi subjekty a agregovanými informacemi.Jednou z výzvy při těžbě dat je, že skutečné shromážděné informace nemusí připomínat celou doménu.Ve snaze řešit tuto skutečnost lze korelace mezi údaji metodicky řídit různými koncepty těžby dat.

Standardy pro koncepty těžby dat jsou vynucovány Asociací pro výpočet Machinerys Special Heated Group pro objevování znalostí a těžbu dat (SIGKDD).Tato organizace publikuje „International Journal of Information Technology and rozhodování“ a také časopis SIGKDD Průzkumy.Informace jsou jedním z nejdůležitějších aspektů těžby dat.Nezpracovaná data musí být těžena a interpretována.Za účelem provedení této akce musí být stanoveno proces, je třeba sestavit cílová data a nalezeny vzory.Tento proces je známý jako objev znalostí v databázích

a byl vyvinut Gregory Piatetsky-Shapiro v roce 1989.

Čtyři různé třídy konceptů těžby dat umožňují tento proces probíhat. Shlukování používá algoritmus vytvořený z procesu dolování dat k sestavení položek do podobných skupin.Na rozdíl od shlukování je klasifikace informací, když jsou data sestavena do předdefinovaných skupin a analyzována. Asociace Pokouší se najít vztahy mezi proměnnými a určovat, které skupiny dat jsou běžně spojeny.Konečný typ dolování dat je

regrese

, založená na metodě identifikace funkce ve sběru dat.

Ověření informací je posledním krokem při objevování toho, co aplikace dolování dat představuje.Pokud ne všechny algoritmy představují platný soubor dat, mohou vzory, které se vyskytují, vést k situaci nazývané přeplnění.K překonání tohoto problému jsou data porovnána s testovací sadou.Jedná se o koncept, ve kterém jsou měření sladěna s řadou algoritmů, které by poskytovaly věrohodnou sadu datových souborů.Pokud se získané informace nerovná do testovací sady, musí být předpokládané vzorce v datech nepřesné.

Některé z nejdůležitějších konceptů těžby dat se vyskytují v různých průmyslových odvětvích.Hraní, podnikání, marketing, věda, inženýrství a dohled využívají techniky těžby dat.Provedením těchto technik může každé pole určit osvědčené postupy nebo lepší způsoby, jak najít výsledky.