Skip to main content

Was ist statistischer Data Mining?

Statistisches Data Mining, auch als Wissens- oder Datenerfassungsbekannung bezeichnet, ist eine computergestützte Methode zum Sammeln und Analysieren von Informationen.Das Data-Mining-Tool nimmt Daten an und kategorisiert die Informationen, um Muster oder Korrelationen zu ermitteln, die in wichtigen Anwendungen wie Medizin, Computerprogrammierung, Unternehmensförderung und Roboterdesign verwendet werden können.Statistische Data -Mining -Techniken verwenden komplexe Mathematik und komplizierte statistische Prozesse, um eine Analyse zu erstellen.

Data Mining umfasst fünf Hauptschritte.Die erste Data Mining-Anwendung sammelt statistische Daten und legt die Informationen in ein Lagerprogramm vom Typ Lager.Als nächstes werden die Daten im Lager organisiert und erstellen ein Managementsystem.Der nächste Schritt erstellt eine Möglichkeit, auf die verwalteten Daten zuzugreifen.Anschließend entwickelt der vierte Schritt Software zur Analyse der Daten, auch als Data Mining -Regression bezeichnet, während der endgültige Schritt die Verwendung der statistischen Daten auf praktische Weise erleichtert oder interpretiert.Analytische Software sortiert beide Arten von Datensystemen mit offenen Fragen mit offenen Benutzern.Offene Fragen ermöglichen unzählige Antworten, sodass Programmierer die Ergebnisse der Sortierung nicht beeinflussen.Programmierer erstellen Listen von Fragen, um die Kategorisierung der Informationen mit einem Gesamtfokus zu unterstützen.

Sortierung basiert dann auf der Entwicklung von Klassen und Datenclustern, Assoziationen in den Daten und Versuch, Muster und Trends auf der Grundlage der Assoziationen zu definieren.Zum Beispiel sammelt Google Informationen zu Einkaufsgewohnheiten von Benutzern, um die Online -Werbung zu platzieren.Offene Fragen, die verwendet werden, um diese Käuferdaten zu sortieren, konzentrieren sich auf den Kauf von Vorlieben oder die Anzeigegewohnheiten von Internetnutzern.

Informatiker und Programmierer konzentrieren sich auf die Analyse der gesammelten statistischen Daten.Schaffung von Entscheidungsbäumen, künstlichen neuronalen Netzwerken, nächstgelegener Nachbarmethode, Regelinduktion, Datenvisualisierung und genetischen Algorithmen verwenden die statistisch gestellten Daten.Diese Klassifizierungssysteme helfen bei der Interpretation der von den analytischen Datenprogrammen entdeckten Assoziationen.Der Statistical Data Mining umfasst kleine Projekte, die auf einem kleinen Maßstab auf einem Heimcomputer durchgeführt werden können. Die meisten Sets der Data Mining Association sind jedoch so groß und die Regression des Data Mining so kompliziert, dass sie einen Supercomputer oder ein Netzwerk von Hochgeschwindigkeits-Computern benötigen.

Statistisches Data Mining sammelt drei allgemeine Arten von Daten, einschließlich Betriebsdaten, nicht operativen Daten und Meta-Daten.In einem Bekleidungsgeschäft sind Betriebsdaten grundlegende Daten, mit denen das Unternehmen ausgeführt wird, wie z. B. Rechnungslegung, Verkauf und Bestandskontrolle.Nicht operative Daten, die indirekt mit dem Unternehmen zusammenhängen, umfassen Schätzungen zukünftigen Umsätzen und allgemeinen Informationen über den nationalen Kleidungsmarkt.Meta -Daten betrifft die Daten selbst.Ein Programm, das Meta -Daten verwendet, kann Kunden in Klassifikationen sortieren, die auf dem Geschlecht oder dem geografischen Standort der Käuferkäufer oder der Lieblingsfarbe der Kunden basieren, wenn diese Daten gesammelt wurden.

Eine Data -Miningweit verbreitete praktische Anwendungen haben.Die Untersuchung von Krankheitsausbrüchen ist ein Beispiel.Ein 2000er Data Mining -Projekt analysierte den Ausbruch von Cryptosporidium in Ontario, Kanada, den Krankheitsausbruch, um die Ursachen für den Anstieg der Krankheitsfälle zu bestimmen.Die Ergebnisse des Data Mining halfen bei der Verknüpfung des Bakterienausbruchs mit den lokalen Wasserbedingungen und dem Mangel an ordnungsgemäßer kommunaler Wasserbehandlung.In einem Feld namens Biosurveillance werden epidemiologische Data Mining verwendet, um Ausbrüche einer einzelnen Krankheit zu identifizieren.Die Google -Internet -Suchmaschine wurde mit statistischen Daten MI entwickeltNing.Google sammelt und verwendet Data Mining weiter, um Programmaktualisierungen und -anwendungen zu erstellen.