Chi-Quadrat (χ2) Statistische Definition
Was ist eine Chi-Quadrat-Statistik?Ein Chi-Quadrat ( χ 2 ) Die Statistik ist ein Test, der misst, wie die Erwartungen mit den tatsächlich beobachteten Daten (oder den Modellergebnissen) verglichen werden. Die zur Berechnung einer Chi-Quadrat-Statistik verwendeten Daten müssen zufällig, roh, sich gegenseitig ausschließend, aus unabhängigen Variablen und aus einer ausreichend großen Stichprobe stammen. Beispielsweise erfüllen die Ergebnisse des 100-maligen Werfens einer Münze diese Kriterien.
Chi-Quadrat-Tests werden häufig beim Testen von Hypothesen verwendet.
Die Formel für Chi Square lautet
χc2 = ∑ (Oi - Ei) 2Eiwhere: c = FreiheitsgradeO = beobachteter Wert (e) E = erwarteter Wert (e) \ begin {align} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \\ & \ textbf {wobei:} \\ & c = \ text {Freiheitsgrade} \\ & O = \ text {beobachtete Werte} \\ & E = \ text {erwarteter Wert (e) )} \\ \ ende {ausgerichtet} χc2 = ∑Ei (Oi −Ei) 2 wobei: c = FreiheitsgradeO = beobachteter Wert (e) E = erwarteter Wert (e)
Was sagt Ihnen eine Chi-Quadrat-Statistik?
Es gibt zwei Hauptarten von Chi-Quadrat-Tests: den Unabhängigkeitstest, bei dem eine Frage der Beziehung gestellt wird, z. B. "Gibt es eine Beziehung zwischen Geschlecht und SAT-Punktzahl?"; und der Goodness-of-Fit-Test, der so etwas wie "Wenn eine Münze 100 Mal geworfen wird, kommt sie dann 50 Mal auf den Kopf und 50 Mal nach oben?"
Bei diesen Tests werden Freiheitsgrade verwendet, um zu bestimmen, ob eine bestimmte Nullhypothese auf der Grundlage der Gesamtzahl der Variablen und Stichproben innerhalb des Experiments verworfen werden kann.
Zum Beispiel ist eine Stichprobengröße von 30 oder 40 Schülern unter Berücksichtigung der Schüler- und Kurswahl wahrscheinlich nicht groß genug, um signifikante Daten zu generieren. Besser ist es, die gleichen oder ähnliche Ergebnisse aus einer Studie mit einer Stichprobengröße von 400 oder 500 Studenten zu erhalten.
In einem anderen Beispiel ziehen Sie in Betracht, eine Münze 100 Mal zu werfen. Das erwartete Ergebnis des 100-maligen Werfens einer fairen Münze ist, dass die Köpfe 50-mal und die Schwänze 50-mal steigen. Das tatsächliche Ergebnis könnte sein, dass der Kopf 45-mal und der Schwanz 55-mal hoch kommt. Die Chi-Quadrat-Statistik zeigt Abweichungen zwischen den erwarteten und den tatsächlichen Ergebnissen.
Die zentralen Thesen
- Ein Chi-Quadrat (χ 2 ) Die Statistik ist ein Test, der misst, wie die Erwartungen mit den tatsächlich beobachteten Daten verglichen werden.
- Es gibt zwei Hauptarten von Chi-Quadrat-Tests: den Test der Unabhängigkeit für Daten und den Test der Anpassungsgüte für ein Modell.
- Diese Tests können verwendet werden, um zu bestimmen, ob eine bestimmte Nullhypothese beim Testen von Hypothesen zurückgewiesen werden kann.
Beispiel eines Chi-Quadrat-Tests
Stellen Sie sich vor, eine zufällige Umfrage wurde unter 2.000 verschiedenen Wählern durchgeführt, sowohl unter Männern als auch unter Frauen. Die Personen, die geantwortet haben, wurden nach Geschlecht und ob sie republikanisch, demokratisch oder unabhängig waren, klassifiziert. Stellen Sie sich ein Raster mit den Spalten "Republikanisch", "Demokratisch" und "Unabhängig" sowie zwei Zeilen "Männlich" und "Weiblich" vor. Angenommen, die Daten der 2.000 Befragten lauten wie folgt:
Republikanisch | Demokrat | Unabhängig | Gesamt | |
Männlich | 400 | 300 | 100 | 800 |
Weiblich | 500 | 600 | 100 | 1200 |
Gesamt | 900 | 900 | 200 | 2000 |
Der erste Schritt zur Berechnung der Chi-Quadrat-Statistik besteht darin, die erwarteten Frequenzen zu ermitteln. Diese werden für jede "Zelle" im Raster berechnet. Da es zwei Kategorien von Geschlechtern und drei Kategorien von politischen Ansichten gibt, gibt es insgesamt sechs erwartete Häufigkeiten. Die Formel für die erwartete Häufigkeit lautet:
E (r, c) = n (r) × c (r) wo: r = Zeile in Frage c = Spalte in Frage n = entsprechende Summe \ begin {align} & E (r, c) = \ frac {n (r) \ times c (r)} {n} \\ & \ textbf {where:} \\ & r = \ text {fragliche Zeile} \\ & c = \ text {fragliche Spalte} \\ & n = \ text {entsprechende Summe } \\ \ ende {ausgerichtet} E (r, c) = nn (r) × c (r) wobei: r = Zeile in Frage c = Spalte in Frage n = entsprechende Summe
In diesem Beispiel sind die erwarteten Frequenzen:
- E (1, 1) = (900 × 800) / 2.000 = 360
- E (1, 2) = (900 · 800) / 2.000 = 360
- E (1, 3) = (200 · 800) / 2000 = 80
- E (2, 1) = (900 × 1.200) / 2.000 = 540
- E (2, 2) = (900 x 1.200) / 2.000 = 540
- E (2, 3) = (200 x 1.200) / 2.000 = 120
Als nächstes werden diese Werte verwendet, um die Chi-Quadrat-Statistik unter Verwendung der folgenden Formel zu berechnen:
Chi-Quadrat = ∑ [O (r, c) - E (r, c)] 2E (r, c) wobei: O (r, c) = beobachtete Daten für die gegebene Zeile und Spalte \ begin {align} & \ text {Chi-Quadrat} = \ sum \ frac {[O (r, c) - E (r, c)] ^ 2} {E (r, c)} \\ & \ textbf {wobei:} \\ & O (r, c) = \ text {beobachtete Daten für die angegebene Zeile und Spalte} \\ \ end {ausgerichtet} Chi-Quadrat = ∑E (r, c) [O (r, c) - E (r, c)] 2 wobei: O (r, c) = beobachtete Daten für die gegebene Zeile und Spalte
In diesem Beispiel lautet der Ausdruck für jeden beobachteten Wert:
- O (1, 1) = (400 - 360) 2/360 = 4, 44
- O (1, 2) = (300 - 360) 2/360 = 10
- O (1, 3) = (100 - 80) 2/80 = 5
- O (2, 1) = (500 - 540) 2/540 = 2, 96
- O (2, 2) = (600 - 540) 2/540 = 6, 67
- O (2, 3) = (100 - 120) 2/120 = 3, 33
Die Chi-Quadrat-Statistik entspricht dann der Summe dieser Werte oder 32, 41. Wir können uns dann eine Chi-Quadrat-Statistiktabelle ansehen, um angesichts der Freiheitsgrade in unserer Konfiguration zu sehen, ob das Ergebnis statistisch signifikant ist oder nicht.
Vergleich von Anlagekonten Name des Anbieters Beschreibung Angaben zum Werbetreibenden × Die in dieser Tabelle aufgeführten Angebote stammen von Partnerschaften, von denen Investopedia eine Vergütung erhält.