Hierarchisches vs. partielles Clustering
Clustering ist eine maschinelle Lernmethode zur Analyse von Daten und zur Aufteilung in Gruppen ähnlicher Daten. Diese Gruppen oder Sätze ähnlicher Daten werden als Cluster bezeichnet. Die Clusteranalyse untersucht Clusteralgorithmen, mit denen Cluster automatisch identifiziert werden können. Hierarchisch und partiell sind zwei solche Klassen von Clusteralgorithmen. Hierarchische Cluster-Algorithmen teilen die Daten in eine Hierarchie von Clustern auf. Paritional-Algorithmen teilen den Datensatz in voneinander getrennte Partitionen auf.
Was ist hierarchisches Clustering??
Hierarchische Clustering-Algorithmen wiederholen den Zyklus, indem entweder kleinere Cluster zu größeren zusammengefügt oder größere Cluster in kleinere Cluster aufgeteilt werden. In jedem Fall wird eine Hierarchie von Clustern erzeugt, die als Dendogramm bezeichnet wird. Bei der agglomerativen Clusterstrategie wird der Bottom-Up-Ansatz zum Zusammenfügen von Clustern zu größeren verwendet, während bei der divisiven Clusterstrategie der Top-Down-Ansatz der Aufteilung in kleinere Cluster verwendet wird. Typischerweise wird der Greedy-Ansatz verwendet, um zu entscheiden, welche größeren / kleineren Cluster zum Zusammenführen / Teilen verwendet werden. Die euklidische Distanz, die Manhattan-Distanz und die Cosinus-Ähnlichkeit sind einige der am häufigsten verwendeten Metriken der Ähnlichkeit für numerische Daten. Für nicht numerische Daten werden Metriken wie der Hamming-Abstand verwendet. Es ist wichtig zu beachten, dass die tatsächlichen Beobachtungen (Instanzen) für hierarchisches Clustering nicht benötigt werden, da nur die Abstandsmatrix ausreicht. Das Dendogramm ist eine visuelle Darstellung der Cluster, die die Hierarchie sehr übersichtlich darstellt. Der Benutzer kann abhängig von der Ebene, bei der das Dendogramm geschnitten wird, unterschiedliche Clustering erhalten.
Was ist partielles Clustering??
Partitionale Clustering-Algorithmen generieren verschiedene Partitionen und werten sie dann nach bestimmten Kriterien aus. Sie werden auch als nicht hierarchisch bezeichnet, da sich jede Instanz in genau einem von k sich gegenseitig ausschließenden Clustern befindet. Da nur ein Satz von Clustern die Ausgabe eines typischen partiellen Clustering-Algorithmus ist, muss der Benutzer die gewünschte Anzahl von Clustern eingeben (normalerweise als k bezeichnet). Einer der am häufigsten verwendeten partiellen Clustering-Algorithmen ist der k-Means-Clustering-Algorithmus. Der Benutzer muss vor dem Start die Anzahl der Cluster (k) angeben, und der Algorithmus initiiert zuerst die Zentren (oder Zentroide) der k Partitionen. Kurz gesagt, ordnet der Clustering-Algorithmus von K-Means Mitglieder auf der Grundlage der aktuellen Zentren zu und schätzt Zentren auf der Grundlage der aktuellen Mitglieder neu. Diese beiden Schritte werden wiederholt, bis eine bestimmte Intra-Cluster-Ähnlichkeits-Zielfunktion und eine Inter-Cluster-Unähnlichkeits-Zielfunktion optimiert sind. Daher ist eine sinnvolle Initialisierung von Zentren ein sehr wichtiger Faktor für die Erzielung qualitativ hochwertiger Ergebnisse aus partiellen Cluster-Algorithmen.
Was ist der Unterschied zwischen hierarchischem und partiellem Clustering??
Hierarchisches und partielles Clustering unterscheiden sich hinsichtlich Laufzeit, Annahmen, Eingabeparametern und resultierenden Clustern. Das partielle Clustering ist normalerweise schneller als das hierarchische Clustering. Hierarchisches Clustering erfordert nur ein Ähnlichkeitsmaß, während für partielles Clustering höhere Annahmen erforderlich sind, wie die Anzahl der Cluster und die anfänglichen Zentren. Hierarchisches Clustering erfordert keine Eingabeparameter, während für partielle Clustering-Algorithmen die Anzahl der Cluster erforderlich ist, um mit der Ausführung zu beginnen. Hierarchisches Clustering führt zu einer viel aussagekräftigeren und subjektiveren Unterteilung von Clustern. Partitionelles Clustering führt jedoch zu genau k Clustern. Hierarchische Clustering-Algorithmen eignen sich eher für kategoriale Daten, sofern ein Ähnlichkeitsmaß entsprechend definiert werden kann.