Häufigkeitsdaten: Chi²-(Vierfelder-)Test
Statistik: Übungen
1 Aufgabe
- Lesen Sie über die folgende URL eine csv-Datei ein (Separator-Zeichen: “,” – also:
read.csv()
): https://goo.gl/j6lRXD (alternativ finden sie die Datei hier) - Speichern Sie das Ergebnis in der Variablen
data_frame_roh
. - Rufen Sie die Funktion
table()
mit den beiden Spaltentreatment
undimprovement
des Dataframes als Parameter auf (data_frame_roh$treatment
bzw.data_frame_roh$improvement
). Das Ergebnis ist eine Kreuztabelle mit den Häufigkeiten in den vier Zellen.. - Speichern Sie das Ergebnis in der Variable
data_frame_chi
. - Geben Sie den neuen Dataframe aus.
- Führen Sie mit der Funktion
chisq.test()
einen Chi²-Test durch; Parameter istdata_frame_chi
. Setzen Sie im Funktionsaufruf den Parametercorrect
aufFALSE
. - Interpretieren Sie das Ergebnis. Sind die beiden Merkmale voneinander unabhängig?
- Wie stark ist der Effekt (also der Zusammenhang zwischen den beiden Merkmalen)? Berechnen Sie dazu Cramer’s V (Funktion:
cramerV()
; Parameter istdata_frame_chi
). Installieren Sie dazu die Libraryrcompanion
. - Validieren Sie den Test mit Hilfe des Excel-Chi²-Rechners.
Die Kreuztabelle sollte so aussehen:
improved not-improved
not-treated 26 29
treated 35 15
2 Aufgabe
Der Vierfelder-Test lässt sich leicht erweitern. Hier betrachten wir 2 x 3 Felder.
Wir führen ein Experiment mit zwei Versuchsbedingungen durch (z. B. Diät A vs. B). In jeder Bedingung nehmen 100 Personen teil. Jede Person kann eindeutig einer von drei Kategorien (z. B. BMI niedrig, mittel, hoch) zugeordnet werden. In Bedingung A ist die Verteilung über die Kategorien 20, 20, 60; unter Bedingung 2 ist die Verteilung 35, 30, 35.
Hängen Diät und BMI zusammen?
- Erzeugen Sie mit der Funktion
c()
je einen Vektor für die die zwei Diäten mit den drei Häufigkeiten in den Kategorien. - Verbinden Sie die beiden Vektoren (eigentlich DataFrames) zu einem neuen DataFrame. Verwenden Sie dazu die Funktion
cbind()
mit den beiden Vektoren als Parameter. Speichern Sie das Ergebnis in der Variablenkreuztabelle
. - Geben Sie den drei Kategorien in der Kreuztabelle mit Hilfe der Funktion
rownames()
sprechende Namen:rownames(kreuztabelle) <- c( 'BMI_n', 'BMI_m', 'BMI_h' )
. - Geben Sie die Kreuztabelle aus.
- Testen Sie die Unabhängigkeit der beiden Variablen Diät und BMI.
- Wie groß ist der Effekt?
Anhang
df | Krit.Werte |
---|---|
1 | 3.841459 |
2 | 5.991465 |
3 | 7.814728 |
4 | 9.487729 |
5 | 11.070498 |
6 | 12.591587 |
7 | 14.067140 |
8 | 15.507313 |
9 | 16.918978 |
10 | 18.307038 |