Zentrale Tendenz gegen Dispersion
In der deskriptiven und inferentiellen Statistik werden mehrere Indizes verwendet, um einen Datensatz zu beschreiben, der seiner zentralen Tendenz, Streuung und Schrägheit entspricht: Die drei wichtigsten Eigenschaften, die die relative Form der Verteilung eines Datensatzes bestimmen.
Was ist eine zentrale Tendenz??
Die zentrale Tendenz bezieht sich auf das Zentrum der Werteverteilung. Mittelwert, Modus und Medianwert sind die am häufigsten verwendeten Indizes zur Beschreibung der zentralen Tendenz eines Datensatzes. Wenn ein Datensatz symmetrisch ist, stimmen sowohl der Medianwert als auch der Mittelwert des Datensatzes überein.
Bei einem gegebenen Datensatz wird der Mittelwert berechnet, indem die Summe aller Datenwerte genommen und dann durch die Anzahl der Daten dividiert wird. Zum Beispiel wird das Gewicht von 10 Personen (in Kilogramm) mit 70, 62, 65, 72, 80, 70, 63, 72, 77 und 79 gemessen. Dann kann das Durchschnittsgewicht der zehn Personen (in Kilogramm) liegen wie folgt berechnet. Die Summe der Gewichte beträgt 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Mittelwert (Summe) / (Anzahl der Daten) = 710/10 = 71 (in Kilogramm). Es versteht sich, dass Ausreißer (Datenpunkte, die vom normalen Trend abweichen) tendenziell den Mittelwert beeinflussen. In Gegenwart von Ausreißern gibt das Mittel allein daher kein korrektes Bild über die Mitte des Datensatzes an.
Der Median ist der Datenpunkt genau in der Mitte des Datensatzes. Eine Methode zur Berechnung des Medians besteht darin, die Datenpunkte in aufsteigender Reihenfolge anzuordnen und dann den Datenpunkt in der Mitte zu lokalisieren. Wenn beispielsweise der vorherige Datensatz einmal angeordnet ist, sieht er wie aus: 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Daher ist (70 + 72) / 2 = 71 in der Mitte. Daraus ist ersichtlich, dass der Median nicht im Datensatz enthalten sein muss. Der Median wird durch die Anwesenheit der Ausreißer nicht beeinflusst. Der Medianwert dient daher als besseres Maß für die zentrale Tendenz in Gegenwart von Ausreißern.
Der Modus ist der am häufigsten vorkommende Wert im Datensatz. Im vorherigen Beispiel tritt der Wert 70 und 72 beide doppelt auf und somit sind beide Modi. Dies zeigt, dass es in einigen Distributionen mehr als einen modalen Wert gibt. Wenn es nur einen Modus gibt, wird der Datensatz als unimodal bezeichnet. In diesem Fall ist der Datensatz bimodal.
Was ist Dispersion??
Dispersion ist die Streuung der Daten um das Zentrum der Verteilung. Bereich und Standardabweichung sind die am häufigsten verwendeten Streuungsmaße.
Der Bereich ist einfach der höchste Wert minus dem niedrigsten Wert. Im vorherigen Beispiel ist der höchste Wert 80 und der niedrigste Wert ist 62, der Bereich ist also 80-62 = 18. Der Bereich liefert jedoch kein ausreichendes Bild über die Dispersion.
Zur Berechnung der Standardabweichung werden zunächst die Abweichungen der Datenwerte vom Mittelwert berechnet. Der quadratische Mittelwert der Abweichungen wird als Standardabweichung bezeichnet. Im vorherigen Beispiel sind die jeweiligen Abweichungen vom Mittelwert (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = - 8, (72 - 71) = 1, (77 - 71) = 6 und (79 - 71) = 8. Die Summe von Abweichungsquadrate sind (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Die Standardabweichung beträgt √ (366/10) = 6,05 (in Kilogramm). Wenn der Datensatz nicht stark verzerrt ist, kann daraus geschlossen werden, dass die Mehrheit der Daten im Intervall 71 ± 6,05 liegt, und dies ist in diesem speziellen Beispiel tatsächlich der Fall.
Was ist der Unterschied zwischen zentraler Tendenz und Dispersion? • Die zentrale Tendenz bezieht sich auf das Zentrum der Werteverteilung • Streuung ist die Streuung der Daten um den Mittelpunkt eines Datensatzes.
|