Grundlagen: Daten, Messen, Skalenniveaus
Statistik: Übungen
Aufgabe 1
Wir verwenden den Datensatz Erstis
, den Luhmann (2020)1 für eine Kohorte Studierender im ersten Semester erhoben hat.
1. Sehen Sie sich das Codebook für den Datensatz an.
In der ersten Spalte stehen die Namen der einzelnen Variablen, für die Daten erhoben worden sind. Das sind üblicherweise kurze Bezeichnungen ohne Leer- oder Sonderzeichen. Die Spalte daneben liefert die “Beschreibung” der Daten. Die Spalte “Ausprägung” erklärt, wie die Zahlen zu interpretieren sind.
Wir wollen hier nicht zu tief einsteigen, sondern sehen uns nur einige Beispiele von Variablen an:
2. Auf welchem Skalenniveau befinden sich die folgenden Variablen (vermutlich)?
code
gruppe
gebjahr
alter
job
uni1
-uni8
stim1
-stim12
lz13
-lz17
3. Lesen Sie den Datensatz ein und sehen Sie ihn sich an.
- Erstellen Sie ein Quarto-Dokument2.
- Den Datensatz (“;”-getrennte csv-Datei) finden Sie hier. Speichern Sie den Datensatz in ein Unterverzeichnis namens “data” Ihres Wurzelverzeichnisses (also dem Verzeichnis, in dem Ihre qmd-Datei liegt); rechter Mausklick auf den Link → Link speichern unter….
- Verwenden Sie die Funktion
read.csv2()
zum Einlesen des Datensatzes. Das Ergebnis des Funktionsaufrufes weisen Sie einer neuen Variablen zu. Sie müssen der Funktion Speicherort und Name der csv-Datei als Zeichenkettenparameter übergeben:erstis <- read.csv2("./data/erstis.csv")
- Details zur Funktion
read.csv2()
finden Sie, wenn Sie in?
vor den Funktionsaufruf stellen:?read.csv2
(ohne Leerzeichen) - Wenn Sie die Variable
erstis
aufrufen, wird der gesamte Datensatz angezeigt. Versuchen Sie das. Wie viele Personen haben an der Befragung teilgenommen? - Kommentieren Sie den Aufruf anschließend aus: einfach ein
#
vor den Aufruf setzen. - Wenn Sie nur die ersten paar Zeilen eines Datensatzes anzeigen möchten, können Sie die Funktion
head(erstis)
verwenden. - Mit Hilfe des Befehls
View(erstis)
können Sie innerhalb von RStudio den Datensatz ansehen. Setzen Sie den Cursor in die Zeile und klicken Sie das grüne Dreieck rechts über dem Code-Block (“Run Current Chunk”). Es sollte in RStudio ein Excel-artiges Fenster (bzw. Karteireiter) geöffnet werden.
Aufgabe 2
Nicht vergessen: dokumentieren Sie!
1. Daten & Operationalisierung
Finden Sie Beispiele für Daten (nach unserem Verständnis) in mindestens drei unterschiedlichen wissenschaftlichen Disziplinen.
Finden Sie drei Beispiele für Daten in Ihrem Alltag.
Für beide Teilaufgaben: Welches Konstrukt (o. latente Variable) wird durch die Daten (= Ausprägung der manifesten Variablen) operationalisiert? Wären andere Operationalisierungen denkbar?
2. Skalenniveaus
Auf welchem Skalenniveau befinden sich die Beispiele in Teilaufgabe 1.ii.?
Die Daten aus Teilaufgabe 1 werden nach folgendem Verfahren transformiert:
neue Daten = 10 * alte Daten + 20
Welche Daten büßen dadurch ihr Skalenniveau ein?
Aufgabe 3
In einer Studie zum Einfluss unterschiedlicher Trainingsintensitäten werden die unterschiedlichen Gruppen folgendermaßen codiert:
niedrig – 1, mittel – 2, hoch – 3, Abbrecher – 4.
Auf welchem Skalenniveau wird das (welches?) Merkmal gemessen?Welches Skalenniveau haben wir hier: ledig – 1, verlobt – 2, verheiratet – 3, geschieden – 4, verwitwet – 5?
Kann man bei einer Intervallskala sagen, dass eine Person A, die auf dieser Skala einen Werte von 20 aufweist, doppelt so viel von dem gemessenen Merkmal hat wie eine Person B, deren Wert 10 beträgt?
Welche Skalenniveaus entdecken Sie in der folgenden Tabelle der Windstärken?
Aufgabe 4 [optional]
Lesen Sie den kritischen Artikel zur Verwendung von Noten in der Leistungsevaluation von Prof. Brand3.
Beantworten Sie die Studienfragen zum Text.
Lesen Sie den Kommentar von Prof. Riedl4.
Footnotes
Luhmann, M. (2020). R für Einsteiger. Beltz. – Eine Einführung in
R
, die sich vor allem an (angehende) Sozialwissenschaftler:innen richtet, aber auch ausreichend allgemein inR
einführt. Definitiv eine Empfehlung!
Eine weitere Literaturempfehlung in Sachen R, RStudio und Markdown: Gehrau, V., Maubach, K., & Fujarski, S. (2022). Einfache Datenauswertung mit R. Wiesbaden: Springer Fachmedien Wiesbaden GmbH.↩︎Wie bei allen Aufgaben. Damit dokumentieren Sie Ihre Aufgabe zugleich professionell. Zur Weitergabe (z. B. zum Upload) können Sie das Dokument als PDF ausdrucken (rechter Mausklick → Drucken… → Als PDF speichern). Im Folgenden werden wir diesen Schritt nicht mehr extra erwähnen.↩︎
Brand, F. (2015). Vom Sinn und Unsinn der Lehrevaluationen an deutschen Hochschulen – Über den Missbrauch von Statistik. Die Neue Hochschule – DNH, 1, 2015, S. 36–39.↩︎
Riedl, J. (2015). Leserbrief zum Artikel „Vom Sinn und Unsinn der Lehrevaluationen an deutschen Hochschulen – Über den Missbrauch von Statistik” von Frank Brand in DNH 1/2015. Die Neue Hochschule – DNH, 2, 2015, S. 73.↩︎