Skip to main content

Was ist Korrelationsclustering?

Korrelationsclustering wird in Datenbanken und anderen großen Datenquellen durchgeführt, um ähnliche Datensätze zu gruppieren und den Benutzer auch auf unterschiedliche Datensätze zu alarmieren.Dies kann in einigen Grafiken perfekt gemacht werden, während andere Fehler aufweisen, da es schwierig sein wird, ähnlich von unterschiedlichen Daten zu unterscheiden.Bei letzterem hilft das Korrelationsclustering bei der automatischen Reduzierung des Fehlers.Dies wird häufig zum Data Mining oder zur Suche nach unhandlichen Daten nach Ähnlichkeiten verwendet.Unähnliche Daten werden üblicherweise gelöscht oder in einen separaten Cluster gelegt.

Wenn eine Korrelationsclusterfunktion verwendet wird, sucht sie nach Daten basierend auf den Anweisungen des Benutzers.Der Benutzer wird dem Programm mitteilen, wonach er suchen soll und wann es gefunden wird, wo die Daten platziert werden sollen.Dies wird normalerweise auf sehr große Datenquellen angewendet, wenn es unmöglich wäre und Mdash;Oder nehmen Sie zu viele Stunden mdash;Um die Daten manuell zu durchsuchen.Es kann entweder perfektes Clustering oder unvollständiges Clustering geben.

Perfektes Clustering ist das ideale Szenario.Dies bedeutet, dass es nur zwei Arten von Daten gibt, und eines ist das, wonach der Benutzer sucht, während der andere nicht benötigt wird.Alle positiven oder benötigten Daten werden in einem Cluster platziert, während die anderen Daten gelöscht oder verschoben werden.In diesem Szenario gibt es keine Verwirrung und alles funktioniert perfekt.Beispielsweise hat ein Diagramm drei Variablen: x, y und z. x, y ist ähnlich, x, z ist ähnlich, aber y, z ist unterschiedlich.Die drei variablen Cluster sind jedoch so ähnlich, dass es unmöglich ist, eine perfekte Korrelationsclusterbildung zu haben.Das Programm wird die Anzahl der positiven Korrelationen maximieren. Dies erfordert jedoch weiterhin eine manuelle Suche vom Benutzer.Wenn beispielsweise ein Unternehmen Daten für eine große Website oder Datenbank abgebaut hat und nur einen bestimmten Aspekt informieren möchte, würde es ewig dauern, alle Daten für diesen Aspekt zu durchsuchen.Durch die Verwendung einer Clustering -Formel werden die Daten für die ordnungsgemäße Analyse beiseite gelegt.

Unähnliche Informationen werden ausschließlich auf Benutzeranweisungen basiert.Der Benutzer kann sich dafür entscheiden, unterschiedliche Daten an verschiedene Cluster zu senden, da die Informationen für andere Projekte nützlich sein können.Wenn die Daten nicht benötigt werden und nur Speicher verschwenden, werden die unterschiedlichen Informationen weggeworfen.Beim unvollkommenen Clustering ist es möglich, dass einige unterschiedliche Informationen nicht ausgeworfen werden, da sie den Daten, nach denen der Benutzer sucht, so ähnlich ist.