Unterschied zwischen Decision Tree und Random Forest

Das Hauptunterschied zwischen Entscheidungsbaum und zufälliger Gesamtstruktur ist das Ein Entscheidungsbaum ist ein Diagramm, das eine Verzweigungsmethode verwendet, um jedes mögliche Ergebnis einer Entscheidung zu veranschaulichen, während ein zufälliger Wald eine Menge von Entscheidungsbäumen ist, die das Endergebnis basierend auf den Ergebnissen aller seiner Entscheidungsbäume ergibt.

Maschinelles Lernen ist eine Anwendung der künstlichen Intelligenz, die es einem System ermöglicht, auf der Grundlage früherer Erfahrungen zu lernen und zu verbessern. Entscheidungsbaum und zufälliger Wald sind zwei Techniken des maschinellen Lernens. Ein Entscheidungsbaum bildet die möglichen Ergebnisse einer Reihe von verwandten Entscheidungen ab. Es ist beliebt, weil es einfach und verständlicher ist. Wenn der Datensatz viel größer wird, reicht ein einzelner Entscheidungsbaum nicht aus, um die Vorhersage zu finden. Eine zufällige Gesamtstruktur, eine Sammlung von Entscheidungsbäumen, ist eine Alternative zu diesem Problem. Die Ausgabe der zufälligen Gesamtstruktur basiert auf der Ausgabe aller Entscheidungsbäume.

Wichtige Bereiche

1. Was ist ein Entscheidungsbaum?
     - Definition, Funktionalität, Beispiele
2. Was ist ein Random Forest?
     - Definition, Funktionalität, Beispiele
3. Unterschied zwischen Decision Tree und Random Forest
     - Vergleich der wichtigsten Unterschiede

Schlüsselbegriffe

Entscheidungsbaum, Maschinelles Lernen, Zufälliger Wald

Was ist Entscheidungsbaum?

Ein Entscheidungsbaum ist ein Baumformdiagramm, mit dem eine Vorgehensweise bestimmt wird. Jeder Zweig des Baums repräsentiert eine mögliche Entscheidung, ein Vorkommen oder eine Reaktion. 

Mit einem Entscheidungsbaum sind mehrere Begriffe verknüpft. Entropie ist die Messung der Unvorhersehbarkeit im Datensatz. Nach dem Aufteilen des Datensatzes nimmt der Entropiepegel ab, wenn die Unvorhersagbarkeit abnimmt. Informationsgewinn ist die Abnahme der Entropie nach dem Abspucken des Datensatzes. Es ist wichtig, die Daten so aufzuteilen, dass der Informationsgewinn höher wird. Die endgültigen Entscheidungen oder Klassifizierungen werden als Blattknoten bezeichnet. Der oberste oder der Hauptknoten wird als Wurzelknoten bezeichnet. Der Datensatz sollte so lange geteilt werden, bis die endgültige Entropie Null wird.

Ein einfacher Entscheidungsbaum sieht wie folgt aus.

Abbildung 1: Entscheidungsbaum

Der Entscheidungsbaum klassifiziert eine Reihe von Früchten. Es gibt 4 Trauben, 2 Äpfel und 2 Orangen. Wenn der Durchmesser kleiner als 5 ist, werden die Trauben auf einer Seite und Orangen und Äpfel auf der anderen Seite kategorisiert. Trauben können nicht weiter klassifiziert werden, da sie keine Entropie aufweisen. Bei der Kategorisierung basierend auf der Farbe, d. H. Ob das Fruchtrot rot ist oder nicht, werden Äpfel in eine Seite klassifiziert, während Orangen auf der anderen Seite klassifiziert werden. Dieser Entscheidungsbaum klassifiziert einen Apfel, eine Traube oder eine Orange mit 100% iger Genauigkeit.

Insgesamt ist ein Entscheidungsbaum einfach zu verstehen, einfacher zu interpretieren und zu visualisieren. Es erfordert nicht viel Datenaufbereitung. Es kann sowohl numerische als auch kategoriale Daten verarbeiten. Auf der anderen Seite kann das Rauschen in den Daten zu einer Überanpassung führen. Darüber hinaus kann das Modell aufgrund kleiner Abweichungen instabil werden.

Was ist Random Forest?

Zufällige Gesamtstruktur ist eine Methode, bei der während der Trainingsphase mehrere Entscheidungsbäume erstellt werden. Die Entscheidungen der Mehrheit der Bäume sind die endgültige Entscheidung des zufälligen Waldes. Ein einfaches Beispiel ist wie folgt.

Angenommen, es gibt eine Reihe von Früchten (Kirschen, Äpfel und Orangen). Im Folgenden sind die drei Entscheidungsbäume aufgeführt, die diese drei Fruchtarten kategorisieren.

Abbildung 2: Entscheidungsbaum 1

Abbildung 3: Entscheidungsbaum 2

Abbildung 4: Entscheidungsbaum 3

Das Modell erhält eine neue Frucht mit einem Durchmesser von 3. Diese Frucht hat eine orange Farbe und wächst im Sommer. Der erste Entscheidungsbaum kategorisiert ihn als Orange. Der zweite Entscheidungsbaum wird ihn als Kirsche kategorisieren, während der dritte Entscheidungsbaum ihn als Orange einstuft. Bei der Betrachtung aller drei Bäume gibt es zwei Ausgänge für Orange. Daher ist die endgültige Ausgabe der zufälligen Gesamtstruktur eine Orange.

Insgesamt liefert die zufällige Gesamtstruktur genaue Ergebnisse für einen größeren Datensatz. Es reduziert auch das Risiko einer Überanpassung.

Unterschied zwischen Decision Tree und Random Forest

Definition

Ein Entscheidungsbaum ist ein Entscheidungshilfetool, das ein baumähnliches Diagramm oder ein Modell von Entscheidungen und deren möglichen Folgen verwendet, einschließlich der Ergebnisse von Zufallsereignissen, Ressourcenkosten und Nutzen. Random Forests ist eine Ensemble-Lernmethode, bei der zur Entscheidungszeit eine Vielzahl von Entscheidungsbäumen erstellt und die Klasse in Abhängigkeit von den einzelnen Bäumen ausgegeben wird.

Überanpassung

Es besteht die Möglichkeit einer Überanpassung in einem Entscheidungsbaum. Durch die Verwendung mehrerer Bäume in einem beliebigen Wald wird das Risiko einer Überanpassung verringert.

Richtigkeit

Eine zufällige Gesamtstruktur liefert genauere Ergebnisse als ein Entscheidungsbaum.

Komplexität

Ein Entscheidungsbaum ist einfacher und leichter zu verstehen, zu interpretieren und zu visualisieren als ein beliebiger Wald, der vergleichsweise komplexer ist.

Fazit

Der Unterschied zwischen Entscheidungsbaum und zufälliger Gesamtstruktur besteht darin, dass ein Entscheidungsbaum ein Diagramm ist, das eine Verzweigungsmethode verwendet, um jedes mögliche Ergebnis einer Entscheidung zu veranschaulichen, während eine zufällige Gesamtstruktur eine Gruppe von Entscheidungsbäumen ist, die das Endergebnis basierend auf den Ausgaben aller ergibt seine Entscheidungsbäume.

Referenz:

1. Zufallsforstalgorithmus - Randomforest erklärt Zufälliger Wald beim maschinellen Lernen , Simplilearn, 12. März 2018, hier verfügbar.