Das Hauptunterschied zwischen Klassifizierung und Regressionsbaum ist das Bei der Klassifizierung sind die abhängigen Variablen kategorial und ungeordnet, während bei der Regression die abhängigen Variablen kontinuierliche oder geordnete ganze Werte sind.
Klassifikation und Regression sind Lerntechniken, um aus gesammelten Daten Vorhersagemodelle zu erstellen. Beide Techniken werden grafisch als Klassifikations- und Regressionsbäume oder Flussdiagramme mit Dateneinteilungen nach jedem Schritt bzw. als "Zweig" im Baum dargestellt. Dieser Vorgang wird als rekursive Partitionierung bezeichnet. In Bereichen wie dem Bergbau werden diese Klassifizierungs- und Regressionslerntechniken angewendet. Dieser Artikel konzentriert sich auf die Klassifizierungsstruktur und die Regressionsstruktur.
1. Übersicht und Schlüsseldifferenz
2. Was ist Klassifizierung?
3. Was ist Regression?
4. Side-by-Side-Vergleich - Klassifikation vs. Regression in Tabellenform
5. Zusammenfassung
Klassifizierung ist eine Technik, mit der ein Schema erstellt wird, das die Organisation von Daten zeigt, die mit einer Vorläufervariablen beginnen. Die abhängigen Variablen klassifizieren die Daten.
Abbildung 01: Data Mining
Der Klassifikationsbaum beginnt mit der unabhängigen Variablen, die sich in zwei Gruppen verzweigt, wie von den vorhandenen abhängigen Variablen bestimmt. Es soll die Antworten in Form einer Kategorisierung erklären, die durch die abhängigen Variablen hervorgerufen wird.
Die Regression ist eine Vorhersagemethode, die auf einem angenommenen oder bekannten numerischen Ausgabewert basiert. Dieser Ausgabewert ist das Ergebnis einer Reihe von rekursiven Partitionen, wobei jeder Schritt einen numerischen Wert und eine andere Gruppe abhängiger Variablen hat, die zu einem anderen Paar wie diesem verzweigen.
Der Regressionsbaum beginnt mit einer oder mehreren Vorläufervariablen und endet mit einer endgültigen Ausgabevariable. Die abhängigen Variablen sind entweder kontinuierliche oder diskrete numerische Variablen.
Klassifikation vs. Regression | |
Ein Baummodell, bei dem die Zielvariable einen diskreten Satz von Werten annehmen kann. | Ein Baummodell, bei dem die Zielvariable kontinuierliche Werte annehmen kann, normalerweise reelle Zahlen. |
Abhängige Variable | |
Für den Klassifikationsbaum sind die abhängigen Variablen kategorial. | Für den Regressionsbaum sind die abhängigen Variablen numerisch. |
Werte | |
Hat eine festgelegte Menge ungeordneter Werte. | Hat entweder diskrete, aber geordnete Werte oder indiskrete Werte. |
Zweck der Konstruktion | |
Der Zweck des Aufbaus des Regressionsbaums besteht darin, ein Regressionssystem an jeden determinierenden Zweig so anzupassen, dass der erwartete Ausgabewert aufsteigt. | Ein Klassifizierungsbaum verzweigt, wie durch eine vom vorherigen Knoten abgeleitete abhängige Variable bestimmt. |
Regressions- und Klassifizierungsbäume sind hilfreiche Techniken, um den Prozess abzubilden, der auf ein untersuchtes Ergebnis hinweist, sei es bei der Klassifizierung oder bei einem einzelnen numerischen Wert. Der Unterschied zwischen dem Klassifikationsbaum und dem Regressionsbaum ist ihre abhängige Variable. Klassifizierungsbäume haben abhängige Variablen, die kategorisch und ungeordnet sind. Regressionsbäume haben abhängige Variablen, bei denen es sich um kontinuierliche Werte oder um geordnete ganze Werte handelt.
1. "Entscheidungsbaum lernen". Wikipedia, Wikimedia Foundation, 13. Mai 2018. Hier verfügbar
1. 'Data Mining' By Arbeck - Eigene Arbeit, (CC BY 3.0) via Commons Wikimedia