Skip to main content

Co to jest wydobycie danych statystycznych?

Wydobycie danych statystycznych, znane również jako odkrywanie wiedzy lub danych, jest skomputeryzowaną metodą gromadzenia i analizy informacji.Narzędzie do wydobywania danych przyjmuje dane i kategoryzuje informacje w celu odkrycia wzorców lub korelacji, które można wykorzystać w ważnych aplikacjach, takich jak medycyna, programowanie komputerowe, promocja biznesowa i projekt robotyczny.Techniki eksploracji danych statystycznych wykorzystują złożoną matematykę i skomplikowane procesy statystyczne w celu stworzenia analizy. Mining danych obejmuje pięć głównych kroków.Pierwsza aplikacja do eksploracji danych zbiera dane statystyczne i umieszcza informacje w programie typu magazynu.Następnie dane w magazynie są zorganizowane i tworzą system zarządzania.Następny krok tworzy sposób na dostęp do zarządzanych danych.Następnie czwarty krok opracowuje oprogramowanie do analizy danych, znanych również jako regresja eksploracji danych, podczas gdy ostatni krok ułatwia lub interpretację danych statystycznych w praktyczny sposób.

Ogólnie rzecz biorąc, techniki eksploracji danych integrują systemy danych analitycznych i transakcyjnych.Oprogramowanie analityczne sortują oba typy systemów danych przy użyciu otwartych pytań użytkownika.Pytania otwarte pozwalają na niezliczone odpowiedzi, aby programiści nie wpływają na wyniki sortowania.Programiści tworzą listy pytań, które pomagają w kategoryzacji informacji przy użyciu ogólnego skupienia.

Sortowanie opiera się zatem na opracowywaniu klas i klastrów danych, stowarzyszeń znalezionych w danych oraz próbach zdefiniowania wzorców i trendów w oparciu o skojarzenia.Na przykład Google zbiera informacje o użytkownikach kupujących nawyki, które pomogą w umieszczeniu reklamy online.Pytania otwarte używane do sortowania danych kupującego koncentrują się na kupowaniu preferencji lub przeglądaniu nawyków użytkowników Internetu.

Komputerowi i programiści koncentrują się na analizie gromadzonych danych statystycznych.Tworzenie drzew decyzyjnych, sztucznych sieci neuronowych, metody najbliższych sąsiadów, indukcji reguł, wizualizacji danych i algorytmów genetycznych wykorzystują dane wydane statystycznie.Te systemy klasyfikacji pomagają w interpretacji stowarzyszeń odkrytych przez programy danych analitycznych.Wydobycie danych statystycznych obejmuje małe projekty, które można wykonać na małą skalę na komputerze domowym, ale większość zestawów asocjacji eksploracji danych jest tak duża, a regresja eksploracji danych tak skomplikowana, że wymagają superkomputera lub sieci komputerów szybkich.

Wydobycie danych statystycznych zbiera trzy ogólne typy danych, w tym dane operacyjne, dane nieoperacyjne i meta.W sklepie odzieżowym dane operacyjne to podstawowe dane wykorzystywane do prowadzenia działalności, takich jak rachunkowość, sprzedaż i kontrola zapasów.Dane nieoperacyjne, które są pośrednio związane z firmą, obejmują szacunki przyszłej sprzedaży i ogólnych informacji na temat krajowego rynku odzieży.Meta dane dotyczą samych danych.mieć powszechne praktyczne zastosowania.Badanie wybuchów chorób jest jednym z przykładów.Projekt wydobycia danych z 2000 r. Przeanalizował wybuch choroby Cryptosporidium w Ontario w Kanadzie, aby określić przyczyny wzrostu przypadków choroby.Wyniki wydobycia danych pomogły w połączeniu wybuchu bakterii z lokalnymi warunkami wodnymi i brakiem właściwego obróbki wody miejskiej.Pole o nazwie BioSurveillance wykorzystuje eksplorację danych epidemiologicznych do identyfikacji wybuchów pojedynczej choroby.

Programiści komputerowi i projektanci również wykorzystują badanie prawdopodobieństwa i analizy danych statystycznych do opracowywania maszyn i programów komputerowych.Wyszukiwarka Google Internet została zaprojektowana przy użyciu danych statystycznych MIning.Google nadal zbiera i używa eksploracji danych w celu tworzenia aktualizacji programu i aplikacji.