Unterschied zwischen linearer Regression und logistischer Regression

Das Hauptunterschied zwischen linearer Regression und logistischer Regression ist, dass die Die lineare Regression wird verwendet, um einen kontinuierlichen Wert vorherzusagen, während die logistische Regression verwendet wird, um einen diskreten Wert vorherzusagen.

Maschinelle Lernsysteme können zukünftige Ergebnisse basierend auf dem Training früherer Eingaben vorhersagen. Es gibt zwei Haupttypen des maschinellen Lernens, genannt beaufsichtigtes Lernen und unüberwachtes Lernen. Regression und Klassifizierung fallen unter beaufsichtigtes Lernen, während Clusterbildung unter unbeaufsichtigtes Lernen fällt. Überwachte Lernalgorithmen verwenden markierte Daten, um den Datensatz zu trainieren. Lineare Regression und logistische Regression sind zwei Arten von überwachten Lernalgorithmen. Die lineare Regression wird verwendet, wenn die abhängige Variable stetig ist und das Modell linear ist. Die logistische Regression wird verwendet, wenn die abhängige Variable diskret ist und das Modell nichtlinear ist.

Wichtige Bereiche

1. Was ist lineare Regression?
     - Definition, Funktionalität
2. Was ist eine logistische Regression?
     - Definition, Funktionalität
3. Unterschied zwischen linearer Regression und logistischer Regression
     - Vergleich der wichtigsten Unterschiede

Schlüsselbegriffe

Lineare Regression, Logistische Regression, Maschinelles Lernen

Was ist lineare Regression?

Die lineare Regression ermittelt die Beziehung zwischen unabhängigen und abhängigen Variablen. Beide sind zusammenhängend. Die unabhängige Variable ist die Variable, die von den anderen Variablen nicht geändert wird. Es ist mit x bezeichnet. Es können auch mehrere unabhängige Variablen wie x1, x2, x3 usw. vorhanden sein. Abhängige Variablen ändern sich entsprechend der unabhängigen Variablen und werden mit y bezeichnet.

Wenn es eine unabhängige Variable gibt, lautet die Regressionsgleichung wie folgt.

y = b0 + b1x

Nehmen Sie beispielsweise an, dass x Niederschlag und y den Ernteertrag darstellt.

Abbildung 1: Lineare Regression

Der Datensatz sieht wie oben aus. Dann wird eine Linie ausgewählt, die die meisten Datenpunkte abdeckt. Diese Linie repräsentiert die vorhergesagten Werte.

Abbildung 2: Abstand zwischen den tatsächlichen Datenpunkten und den vorhergesagten Werten

Dann wird der Abstand von jedem Datenpunkt zur Linie ermittelt, wie in der obigen Grafik dargestellt. Dies ist der Abstand zwischen dem tatsächlichen Wert und dem vorhergesagten Wert. Diese Entfernung wird auch als Fehler oder Residuen bezeichnet. Die am besten passende Linie sollte die kleinste Fehlerquadratsumme haben. Wenn ein neuer Niederschlagswert (x) angegeben wird, ist es möglich, den entsprechenden Ernteertrag (y) anhand dieser Linie zu finden.  

In der realen Welt kann es mehrere unabhängige Variablen geben (x1, x2, x3…). Dies wird als mehrfache lineare Regression bezeichnet. Die lineare Regressionsgleichung lautet wie folgt.

Was ist eine logistische Regression?

Mit der logistischen Regression können zwei Klassen klassifiziert werden. Es ist auch bekannt als binäre Klassifizierung.  Zu prüfen, ob eine E-Mail Spam ist oder nicht, ob ein Kunde ein Produkt kauft oder nicht, und ob es möglich ist, eine Werbeaktion zu erhalten, sind einige weitere Beispiele für eine logistische Regression.

Abbildung 3: Logistische Regression

Angenommen, die Anzahl der Stunden, die ein Schüler pro Tag lernte, ist die unabhängige Variable. Abhängig davon wird die Wahrscheinlichkeit des Bestehens einer Prüfung berechnet. Der Wert 0,5 gilt als Schwelle. Wenn die neue Anzahl von Stunden angegeben ist, kann anhand dieses Diagramms die entsprechende Wahrscheinlichkeit für das Bestehen der Prüfung ermittelt werden. Wenn die Wahrscheinlichkeit über 0,5 liegt, wird es als 1 oder bestanden betrachtet. Wenn die Wahrscheinlichkeit unter 0,5 liegt, wird dies als 0 oder als fehlgeschlagen betrachtet.

Die Anwendung der linearen Regressionsgleichung auf die Sigmoidfunktion ergibt die logistische Regressionsgleichung.

Die Sigmoidfunktion ist    

Ein weiterer wichtiger Punkt ist, dass die logistische Regression nur für die Klassifizierung von 2 Klassen gilt. Es wird nicht für die Klassifizierung von mehreren Klassen verwendet.

Unterschied zwischen linearer Regression und logistischer Regression

Definition

Die lineare Regression ist ein linearer Ansatz, der die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen modelliert. Im Gegensatz dazu ist die logistische Regression ein statistisches Modell, das die Wahrscheinlichkeit eines Ergebnisses vorhersagt, das nur zwei Werte annehmen kann.

Verwendungszweck

Während die lineare Regression zur Lösung von Regressionsproblemen verwendet wird, wird die logistische Regression zur Lösung von Klassifizierungsproblemen verwendet (binäre Klassifizierung)..

Methodik

Die lineare Regression schätzt die abhängige Variable, wenn sich die unabhängige Variable ändert. Die logistische Regression berechnet die Möglichkeit eines Ereignisses. Dies ist ein wichtiger Unterschied zwischen linearer Regression und logistischer Regression.

Ausgabewert

Bei linearer Regression ist der Ausgabewert ebenfalls kontinuierlich. Bei der logistischen Regression ist der Ausgabewert diskret.

Modell

Obwohl für die lineare Regression eine gerade Linie verwendet wird, verwendet die logistische Regression eine S-Kurve oder Sigmoid-Funktion. Dies ist ein weiterer wichtiger Unterschied zwischen der linearen Regression und der logistischen Regression.

Beispiele

Vorhersagen des BIP eines Landes, Vorhersagen des Produktpreises, Vorhersagen des Hausverkaufspreises, Ergebnisvorhersagen sind einige Beispiele für lineare Regression. Vorhersagen, ob eine E-Mail Spam ist oder nicht, Vorhersagen, ob die Kreditkartentransaktion Betrug ist oder nicht, Vorhersagen, ob ein Kunde einen Kredit aufnimmt oder nicht, sind einige Beispiele für eine logistische Regression.

Fazit

Der Unterschied zwischen linearer Regression und logistischer Regression besteht darin, dass mit linearer Regression ein kontinuierlicher Wert vorhergesagt wird, während mit logistischer Regression ein diskreter Wert vorhergesagt wird. Kurz gesagt, die lineare Regression wird für die Regression verwendet, während die logistische Regression für die Klassifizierung verwendet wird.

Referenz:

1. Lineare Regressionsanalyse | Lineare Regression in Python | Algorithmen zum maschinellen Lernen | Simplilearn, 26. März 2018, hier verfügbar.
2. Logistische Regression | Logistische Regression in Python | Algorithmen zum maschinellen Lernen | Simplilearn, 22. März 2018, verfügbar hier.

Bildhöflichkeit:

1. "Lineare Regression" (von Sewaqu - Eigene Arbeit, Public Domain) über Commons Wikimedia
2. "Residuen für lineare Regressionsanpassung" Von Thomas.haslwanter - Eigene Arbeit (CC BY-SA 3.0) über Commons Wikimedia
3. "Logistikkurve" von Qef (Diskussion) - Von Grund auf mit gnuplot (Public Domain) über Commons Wikimedia erstellt