Häufigkeitsdaten: Chi²-(Vierfelder-)Test

Statistik: Übungen

Author

Prof. Dr. Armin Eichinger

Published

27.11.2023

1 Aufgabe

Lesen Sie über die folgende URL eine csv-Datei ein (Separator-Zeichen: “,” – also: read.csv()): https://goo.gl/j6lRXD (alternativ finden sie die Datei hier)
Speichern Sie das Ergebnis in der Variablen data_frame_roh.
Rufen Sie die Funktion table() mit den beiden Spalten treatment und improvement des Dataframes als Parameter auf (data_frame_roh$treatment bzw. data_frame_roh$improvement). Das Ergebnis ist eine Kreuztabelle mit den Häufigkeiten in den vier Zellen..
Speichern Sie das Ergebnis in der Variable data_frame_chi.
Geben Sie den neuen Dataframe aus.
Führen Sie mit der Funktion chisq.test() einen Chi²-Test durch; Parameter ist data_frame_chi. Setzen Sie im Funktionsaufruf den Parameter correct auf FALSE.
Interpretieren Sie das Ergebnis. Sind die beiden Merkmale voneinander unabhängig?
Wie stark ist der Effekt (also der Zusammenhang zwischen den beiden Merkmalen)? Berechnen Sie dazu Cramer’s V (Funktion: cramerV(); Parameter ist data_frame_chi). Installieren Sie dazu die Library rcompanion.
Validieren Sie den Test mit Hilfe des Excel-Chi²-Rechners.

Die Kreuztabelle sollte so aussehen:

             
              improved not-improved
  not-treated       26           29
  treated           35           15

2 Aufgabe

Der Vierfelder-Test lässt sich leicht erweitern. Hier betrachten wir 2 x 3 Felder.

Wir führen ein Experiment mit zwei Versuchsbedingungen durch (z. B. Diät A vs. B). In jeder Bedingung nehmen 100 Personen teil. Jede Person kann eindeutig einer von drei Kategorien (z. B. BMI niedrig, mittel, hoch) zugeordnet werden. In Bedingung A ist die Verteilung über die Kategorien 20, 20, 60; unter Bedingung 2 ist die Verteilung 35, 30, 35.

Hängen Diät und BMI zusammen?

Erzeugen Sie mit der Funktion c() je einen Vektor für die die zwei Diäten mit den drei Häufigkeiten in den Kategorien.
Verbinden Sie die beiden Vektoren (eigentlich DataFrames) zu einem neuen DataFrame. Verwenden Sie dazu die Funktion cbind() mit den beiden Vektoren als Parameter. Speichern Sie das Ergebnis in der Variablen kreuztabelle.
Geben Sie den drei Kategorien in der Kreuztabelle mit Hilfe der Funktion rownames() sprechende Namen: rownames(kreuztabelle) <- c( 'BMI_n', 'BMI_m', 'BMI_h' ).
Geben Sie die Kreuztabelle aus.
Testen Sie die Unabhängigkeit der beiden Variablen Diät und BMI.
Wie groß ist der Effekt?

Anhang

df	Krit.Werte
1	3.841459
2	5.991465
3	7.814728
4	9.487729
5	11.070498
6	12.591587
7	14.067140
8	15.507313
9	16.918978
10	18.307038