Standardabweichung und Abweichung sind statistische Messungen der Streuung von Daten, d. h. sie stellen dar, wie stark die Abweichung vom Durchschnitt ist oder inwieweit die Werte typischerweise vom Durchschnitt (Durchschnitt) "abweichen". Eine Abweichung oder Standardabweichung von Null zeigt an, dass alle Werte identisch sind.
Die Varianz ist der Mittelwert der Quadrate der Abweichungen (d. H. Die Differenz der Werte vom Mittelwert), und die Standardabweichung ist die Quadratwurzel dieser Varianz. Die Standardabweichung wird verwendet, um Ausreißer in den Daten zu identifizieren.
Standardabweichung | Abweichung | |
---|---|---|
Mathematische Formel | Quadratwurzel der Varianz | Durchschnitt der Quadrate der Abweichungen jedes Wertes vom Mittelwert in einer Stichprobe. |
Symbol | Griechischer Buchstabe Sigma - σ | Kein dediziertes Symbol; ausgedrückt als Standardabweichung oder andere Werte. |
Werte in Bezug auf den angegebenen Datensatz | Gleiche Skala wie Werte im angegebenen Datensatz; daher in denselben Einheiten ausgedrückt. | Größer als die Werte im angegebenen Datensatz; nicht in derselben Einheit wie die Werte selbst ausgedrückt. |
Sind Werte negativ oder positiv? | Immer nicht negativ | Immer nicht negativ |
Real World Anwendung | Bevölkerungsstichprobe; Ausreißer identifizieren | Statistische Formeln, Finanzen. |
Die Formel für Standardabweichung und Varianz wird häufig ausgedrückt durch:
Die Varianz eines Satzes von n ebenso wahrscheinliche Werte können geschrieben werden als:
Die Standardabweichung ist die Quadratwurzel der Varianz:
Formeln mit griechischen Buchstaben wirken abschreckend, aber das ist weniger kompliziert als es scheint. Um es in einfachen Schritten auszudrücken:
Das gibt die Abweichung. Nehmen Sie die Quadratwurzel der Varianz, um die Standardabweichung zu ermitteln.
Dieses ausgezeichnete Video von der Khan Academy erläutert die Begriffe Varianz und Standardabweichung:
Angenommen, ein Datensatz umfasst die Höhe von sechs Löwenzähnen: 3 Zoll, 4 Zoll, 5 Zoll, 4 Zoll, 11 Zoll und 6 Zoll.
Ermitteln Sie zuerst den Mittelwert der Datenpunkte: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Die mittlere Höhe beträgt also 5,5 Zoll. Nun brauchen wir die Abweichungen, also finden wir die Abweichung jeder Pflanze vom Mittelwert: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Quadrieren Sie nun jede Abweichung und ermitteln Sie ihre Summe: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5
Teilen Sie nun die Summe der Quadrate durch die Anzahl der Datenpunkte, in diesem Fall Pflanzen: 43,5 / 6 = 7,25
Die Varianz dieses Datensatzes ist also 7,25, was eine ziemlich willkürliche Zahl ist. Um es in eine reale Messung umzuwandeln, nehmen Sie die Quadratwurzel von 7,25, um die Standardabweichung in Zoll zu ermitteln.
Die Standardabweichung beträgt etwa 2,69 Zoll. Das bedeutet, dass für die Probe jeder Löwenzahn innerhalb von 2,69 Zoll vom Mittelwert (5,5 Zoll) "normal" ist..
Abweichungen werden quadriert, um zu verhindern, dass negative Werte (Abweichungen unter dem Mittelwert) die positiven Werte aufheben. Dies funktioniert, weil ein negatives Quadrat ein positiver Wert wird. Wenn Sie einen einfachen Datensatz mit Abweichungen vom Mittelwert von +5, +2, -1 und -6 hatten, wird die Summe der Abweichungen als Null ausgegeben, wenn die Werte nicht quadriert sind (dh 5 + 2 - 1) - 6 = 0).
Die Varianz wird als mathematische Streuung ausgedrückt. Da es sich um eine beliebige Zahl relativ zu den Originalmaßen des Datensatzes handelt, ist es schwierig, sie im realen Sinne zu visualisieren und anzuwenden. Das Finden der Abweichung ist normalerweise nur der letzte Schritt vor dem Ermitteln der Standardabweichung. Abweichungswerte werden manchmal in Finanzformeln und statistischen Formeln verwendet.
Die Standardabweichung, die in den ursprünglichen Einheiten des Datensatzes ausgedrückt wird, ist viel intuitiver und nähert sich den Werten des ursprünglichen Datensatzes. Es wird meistens verwendet, um demographische Daten oder Bevölkerungsstichproben zu analysieren, um ein Gefühl dafür zu bekommen, was in der Bevölkerung normal ist.
In einer Normalverteilung liegen etwa 68% der Bevölkerung (oder Werte) innerhalb einer Standardabweichung (1σ) des Mittelwerts und etwa 94% innerhalb von 2σ. Werte, die um 1,7 σ oder mehr vom Mittelwert abweichen, werden normalerweise als Ausreißer betrachtet.
In der Praxis versuchen Qualitätssysteme wie Six Sigma, die Fehlerquote zu reduzieren, so dass Fehler zu Ausreißern werden. Der Begriff "Six-Sigma-Prozess" stammt aus dem Gedanken, dass, wenn man sechs Standardabweichungen zwischen dem Prozessmittelwert und der nächsten Spezifikationsgrenze hat, praktisch kein Artikel die Spezifikationen nicht erfüllt.[1]
In realen Anwendungen repräsentieren verwendete Datensätze normalerweise Bevölkerungsstichproben und nicht ganze Populationen. Eine leicht modifizierte Formel wird verwendet, wenn aus einer Teilstichprobe populationsweite Schlussfolgerungen gezogen werden sollen.
Eine "Standardabweichung der Stichprobe" wird verwendet, wenn Sie lediglich eine Stichprobe haben. Sie möchten jedoch eine Aussage über die Populationsstandardabweichung treffen, von der die Stichprobe gezogen wird
Die Standardabweichungsformel der Probe unterscheidet sich nur durch die "-1" im Nenner.
Bei Verwendung des Löwenzahn-Beispiels wäre diese Formel erforderlich, wenn wir nur 6 Löwenzahnproben genommen hätten, diese jedoch verwenden wollten, um die Standardabweichung für das gesamte Feld mit Hunderten von Löwenzahnwerten anzugeben.
Die Quadratsumme würde jetzt durch 5 anstelle von 6 (n - 1) dividiert, was eine Abweichung von 8,7 (anstelle von 7,25) und eine Musterstandardabweichung von 2,95 Zoll anstelle von 2,69 Zoll für die ursprüngliche Standardabweichung ergibt. Diese Änderung wird verwendet, um eine Fehlerquote in einer Stichprobe zu ermitteln (in diesem Fall 9%)..