Skip to main content

Was ist der Data Mining -Prozess?

Der Data Mining -Prozess ist ein Instrument zur Aufdeckung statistisch signifikanter Muster in einer großen Datenmenge.Es umfasst in der Regel fünf Hauptschritte, darunter Vorbereitung, Datenexploration, Modellbildung, Bereitstellung und Überprüfung.Jeder Schritt im Prozess beinhaltet eine andere Reihe von Techniken, aber die meisten verwenden eine Form der statistischen Analyse.

Bevor der Data Mining -Prozess beginnt, setzen die Forscher typischerweise Forschungsziele.Dieser Vorbereitungsschritt bestimmt normalerweise, welche Arten von Daten untersucht werden müssen, welche Data -Mining -Techniken verwendet werden sollten und welche Form die Ergebnisse dauern werden.Dieser erste Schritt im Prozess kann entscheidend sein, um nützliche Informationen zu sammeln.

Der nächste Schritt im Data Mining -Prozess ist die Erkundung.Dieser Schritt umfasst normalerweise das Sammeln der erforderlichen Daten aus einem Informationslager oder einer Sammeleinheit.Anschließend bereiten Bergbauexperten in der Regel die Rohdatensätze für die Analyse vor.Dieser Schritt besteht normalerweise aus dem Sammeln, Reinigen, Organisieren und Überprüfen aller Daten auf Fehler.

Diese vorbereiteten Daten treten normalerweise in den dritten Schritt im Modellabbauprozess, Modellbildung, ein.Um dies zu erreichen, nehmen Forscher in der Regel kleine Testproben von Daten an und wenden ihnen eine Vielzahl von Data -Mining -Techniken an.Der Modellierungsschritt wird häufig verwendet, um die beste Methode der statistischen Analyse zu bestimmen, die zur Erzielung der gewünschten Ergebnisse erforderlich ist.Die erste ist die Klassifizierung, die Daten in vordefinierte Gruppen oder Kategorien anordnet.In der zweiten Technik, die als Clustering bezeichnet wird, erlauben Forscher dem Computer, die Daten in Gruppen zu organisieren, wie es ausgewählt wird.Eine dritte Data Mining -Technik sucht Assoziationen zwischen Variablen.Der vierte sucht normalerweise nach sequentiellen Mustern in den Daten, die zur Vorhersage zukünftiger Trends verwendet werden können.

Der letzte Schritt im Data Mining -Prozess ist die Bereitstellung.Zu diesem Zweck werden die im Modell ausgewählten Techniken auf den größeren Datensatz angewendet und die Ergebnisse werden analysiert.Der Bericht, der aus diesem Schritt stammt, zeigt normalerweise die im gesamten Prozesse enthaltenen Muster, einschließlich Klassifizierungen, Cluster, Assoziationen oder sequentiellen Mustern, die im Datensatz vorhanden sind.Diese Phase im Prozess umfasst normalerweise die Wiederholung von Bergbaumodellen mit einem neuen Datensatz, um sicherzustellen, dass der Hauptsatz repräsentativ für die gesamte Datenpopulation war.Die Ergebnisse können keine Trends in der größeren Population vorhersagen, wenn die Datenprobe sie nicht genau darstellt.