In der Statistik bezieht sich der Begriff "Stichprobe" auf die Auswahl eines Teils der aggregierten statistischen Daten, um relevante Informationen über das Ganze zu erhalten. Die gesammelten oder vollständigen statistischen Informationen zu einem bestimmten Charakter aller von der Untersuchung betroffenen Mitglieder werden als "Bevölkerung" oder "Universum" bezeichnet. (Das, N. G., 2010). Der ausgewählte Teil der Bevölkerung, der verwendet wird, um die Merkmale der Bevölkerung oder des Universums zu erhalten, wird als „Stichprobe“ bezeichnet. Die Grundgesamtheit besteht aus einzelnen Einheiten oder Mitgliedern und einige der Einheiten sind in der Stichprobe enthalten. Die Gesamtzahl der Einheiten der Bevölkerung wird als Bevölkerungsgröße bezeichnet, die der Stichprobe als Stichprobengröße. Bevölkerung und Stichprobe können endlich oder unendlich sein, ebenso können sie vorhanden oder hypothetisch sein.
Varianz: Varianz ist ein numerischer Wert, der angibt, wie weit sich die einzelnen Figuren in einer Gruppe von Daten um den Mittelwert verteilen. So weit ist jede Zahl vom Mittelwert und damit voneinander entfernt. Eine Abweichung von Null bedeutet, dass alle Daten identisch sind. Je mehr die Varianz, desto mehr sind die Werte um den Mittelwert verteilt, also voneinander. Je kleiner die Abweichung, desto geringer sind die Werte, die sich um den Mittelwert erstrecken, also voneinander und die Abweichung kann nicht negativ sein.
Der Hauptunterschied zwischen Populationsvarianz und Stichprobenvarianz bezieht sich auf die Berechnung der Varianz. Die Abweichung wird in fünf Schritten berechnet. Zuerst wird der Mittelwert berechnet, dann werden Abweichungen vom Mittelwert berechnet und drittens werden die Abweichungen quadriert, viertens werden die quadratischen Abweichungen aufsummiert und schließlich wird diese Summe durch die Anzahl der Elemente dividiert, für die die Varianz berechnet wird. Also Varianz = Σ (xi-x -) / n. Wobei xi = ith. Anzahl, x- = Mittelwert und n = Anzahl der Elemente…
Wenn nun die Varianz aus Bevölkerungsdaten berechnet werden soll, ist n gleich der Anzahl der Elemente. Wenn also die Blutdruckabweichung aller 1000 Personen aus den Blutdruckdaten aller 1000 Personen berechnet werden soll, ist n = 1000. Wenn jedoch die Varianz aus den Probendaten berechnet wird, ist 1 vor der Division der 1 von n abzuziehen Summe der quadrierten Abweichungen. Wenn im obigen Beispiel Beispieldaten 100 Elemente haben, wäre der Nenner 100 - 1 = 99.
Aus diesem Grund ist der aus den Probendaten berechnete Varianzwert höher als der Wert, der unter Verwendung der Bevölkerungsdaten hätte ermittelt werden können. Die Logik dabei ist, den Mangel an Informationen über die Bevölkerungsdaten auszugleichen. Es ist unmöglich, die Höhenunterschiede bei Menschen herauszufinden, da wir absolut keine Informationen über die Höhen aller lebenden Menschen haben, nicht über die Zukunft zu sprechen. Selbst wenn wir ein moderates Beispiel nehmen, so wie Bevölkerungsdaten zu den Höhen aller lebenden Männer in den USA, ist dies physikalisch möglich, aber die damit verbundenen Kosten und der Zeitaufwand würden den Zweck seiner Berechnung verfehlen. Dies ist der Grund, warum für die meisten statistischen Zwecke Probedaten genommen werden, und dies geht mit fehlenden Informationen über die Mehrheit der Daten einher. Um dies zu kompensieren, sind der Varianzwert und die Standardabweichung, die die quadratische Varianzwurzel ist, bei Stichprobendaten höher als die Varianz von Populationsdaten.
Dies ist ein automatischer Schutz für Analysten und Entscheidungsträger. Die Logik gilt für Entscheidungen in Bezug auf die Kapitalplanung, persönliche und geschäftliche Finanzierung, Bauwesen, Verkehrsmanagement und viele anwendbare Bereiche. Dies hilft dem Stakeholder, auf der sicheren Seite zu sein, wenn er Entscheidungen trifft oder andere Schlüsse zieht.
Zusammenfassung: Die Populationsvarianz bezieht sich auf den aus den Bevölkerungsdaten berechneten Varianzwert, und die Stichprobenvarianz ist die aus den Probendaten berechnete Varianz. Aufgrund dieses Nennwerts in der Formel für die Abweichung im Fall von Stichprobendaten ist 'n-1' und für Bevölkerungsdaten 'n'. Infolgedessen sind sowohl die Varianz als auch die Standardabweichung, die aus den Probendaten abgeleitet wurden, mehr als die aus den Populationsdaten.