Anhang D — Datensätze

In diesem Anhang finden Sie Informationen über einige Datensätze, die in diesem Kurs verwendet werden und die über die Learnweb-Seite des Kurses zum Herunterladen verfügbar sind. Manche dieser Datensätze werden weder in der Vorlesung noch in den Übungen benutzt. Sie können sie zum Ausprobieren und selbständigen Üben herunterladen. Alle Datensätze sind bereits bereinigt, Sie können direkt damit arbeiten. Bitte beachten Sie aber, dass die Datensätze wegen der Bereinigungen nur für diesen Kurs geeignet sind, Sie können keine wirklich verlässlichen Schlussfolgerungen aus ihnen ziehen. Für weitergehende Forschungsprojekte sollten Sie immer auf die Originalquellen zurückgreifen.

Da über das Learnweb nur Dateien bis zu maximal 100 MB bereitgestellt werden können, sind manche Dateien komprimiert. In diesen Fällen laden Sie bitte die komprimierten (zip) Dateien auf Ihren Rechner herunter und entpacken sie. Anschließend können Sie mit den ausgepackten csv-Dateien arbeiten.

D.1 SOEP

Das Sozio-ökonomische Panel SOEP ist ein Längsschnittdatensatz, der in der ökonomischen Forschung in Deutschland oft verwendet wird. Er enthält Angaben zu vielen Personen und Haushalten über einen Zeitraum von fast 40 Jahren. Aus Datenschutzgründen arbeiten wir in diesem Kurs jedoch nicht mit den richtigen Daten, sondern einem künstlichen kleineren Datensatz, der sich an das Format der Originaldaten anlehnt. Die Variablen nehmen jedoch nicht die in Wirklichkeit beobachteten Werte an. Der Datensatz ist in der Datei mocksoep.csv abgespeichert.

Die Variablen in dem Datensatz sind:

  • id Personen-ID
  • hid Haushalts-ID
  • year Jahr der Beobachtung
  • age Alter in Jahren
  • sex Geschlecht mit den beiden Ausprägungen “F” für “Frau” und “M” für “Mann”
  • npers Anzahl der Personen im Haushalt
  • educ Zahl der Schul- und Ausbildungsjahre
  • hours Anzahl an Arbeitsstunden (im Jahr)
  • empllev Beschäftigungsstatus mit den drei Ausprägungen “nicht” für “nicht beschäftigt”, “voll” für “Vollzeit” und “teil” für “Teilzeit”
  • region Bundesland (mit Zweibuchstaben-Abkürzungen für die 16 Länder)
  • pregov Bruttoeinkommen (im Jahr, in Euro)
  • postgov Nettoeinkommen (nach Steuern und Transfers, im Jahr, in Euro)
  • earn personenbezogenes Arbeitseinkommen (im Jahr, in Euro)
  • sport Häufigkeit sportlicher Betätigung (mit vier Ausprägungen von fast nie bis mindestens einmal pro Woche)
  • height Körpergröße in cm
  • weight Körpergewicht in kg
  • healthsat Zufriedenheit mit der Gesundheit auf einer Skala von 1 (miserabel) bis 10 (super)
  • ndoctor Zahl der Arztbesuche im letzten Quartal
  • lifesat allgemeine Lebenszufriedenheit auf einer Skala von 1 (miserabel) bis 10 (super)

Das Geschlecht sex, die Region region, der Beschäftigungsstatus empllev und die beiden IDs sind nominal skaliert, die Zufriedenheiten healthsat und lifesat sowie die Sporthäufigkeit sport sind ordinal skaliert.

D.2 The Movie-Database

Der Original-Datensatz der Movie-Database ist recht groß. Man findet ihn auf der Data-Science-Plattform kaggle und dem Link The Movies Dataset. Für diesen Kurs wurde der Datensatz radikal vereinfacht und gekürzt. Er ist in der Datei tmdb.csv gespeichert und hat nur noch folgende Variablen (und bei weitem nicht mehr alle Filme):

  • title Filmtitel
  • genre Genre (im Vergleich zum Originaldatensatz deutlich vergröbert)
  • year Jahr des Erscheinens
  • budget Budget in Mio. US-Dollars
  • revenue Höhe des eingespielten Betrags (in Mio. US-Dollars)
  • duration Filmdauer in Minuten
  • avgvote durchschnittliches Rating des Films

D.3 Weltbank

Der Datensatz der Weltbank wurde mit der API des R-Pakets wbstats heruntergeladen. Für alle verfügbaren Ländern über den jeweils maximal abgedeckten Zeitraum wurden folgende Variablen ausgelesen:

  • SP.POP.TOTL: Einwohnerzahl

  • NY.GDP.PCAP.PP.CD: Diese Variable gibt die Höhe des Bruttoinlandsprodukts pro Einwohner in einem Jahr an. Gemessen wird das Bruttoinlandsprodukt in “kaufkraftbereinigten internationalen US-Dollars”. Die Kaufkraft eines internationalen Dollars ist genauso hoch wie die eines US-Dollars in den USA (im Jahr 2021).

  • EN.GHG.CO2.MT.CE.AR5: Diese Variable gibt an, wie hoch der jährliche Ausstoß an CO2 (in Megatonnen) aus den Bereichen Landwirtschaft, Energie, Abfall und Industrie. Nicht betrachtet wird der Effekt von Änderungen der Landnutzung (z.B. Aufforstungen).

  • SP.DYN.LE00.FE.IN: Durchschnittliche Lebenserwartung einer weiblichen Person, die im Betrachtungsjahr geboren wird, unter der Annahme, dass die Sterblichkeitsraten sich in Zukunft nicht verändern.

  • SP.DYN.LE00.MA.IN: Durchschnittliche Lebenserwartung einer männlichen Person, die im Betrachtungsjahr geboren wird, unter der Annahme, dass die Sterblichkeitsraten sich in Zukunft nicht verändern.

Beobachtungen, bei denen die Angabe zum CO2-Ausstoß oder zum Pro-Kopf-Inlandsprodukt fehlen, wurden aus dem Datensatz gelöscht.

D.4 Eikon

Als Beispieldatensatz wurde von Eikon/Refinitiv die Zeitreihe der täglichen Werte des Baltic-Dry-Indexes heruntergeladen. Dieser Index steht für das Preisniveau des Massen-Transports von Gütern wie Getreide oder Kohle. Die Transportkosten schwanken sehr stark, wie man an diesem Datensatz sehen kann. Die Daten liegen vor für den Zeitraum vom 3.2.2014 bis zum 31.1.2024. Folgende Variablen sind enthalten:

  • JAHR, MONAT, TAG Spalten für Jahr, Monat und Tag der Beobachtung
  • LFDTAG Zähler für die Tage (1 ist der erste Tag, 2495 der letzte Tag)
  • BDI Wert des Indexes

D.5 Bloomberg

Dieser Datensatz wurde am Bloomberg-Terminal der Fakultät für die Vorlesung heruntergeladen. Er enthält 5-Minuten-Angaben zu Aktienkursen und Handelsaktivitäten der Aktien von Apple, Google, Samsung und Xiaomi. Da der Umgang mit Datums- und Zeitangaben nicht in der Vorlesung behandelt wird, sind einige zusätzliche Spalten generiert worden, die die Analyse der Zeitangaben erleichtern. Folgende Variablen sind in dem Datensatz vorhanden:

  • times der genaue Zeitpunkt im Format YYYY-MM-DD HH:MM:SS (also Jahr-Monat-Tag Stunde:Minuten:Sekunden); die Sekunden sind immer 0
  • open Kurs am Beginn des 5-Minuten-Intervalls
  • high höchster Kurs
  • low niedrigster Kurs
  • close Kurs am Ende des 5-Minuten-Intervalls
  • numEvents Anzahl der Transaktionen
  • volume Anzahl der gehandelten Aktien
  • value Wert der gehandelten Aktien
  • name Name der Aktiengesellschaft (APPLE, GOOGLE, SAMSUNG, XIAOMI)
  • year Jahr (immer 2022)
  • month Monat
  • day Tag
  • hour Stunde
  • minute Minute
  • daynr laufende Nummer des Tags (der 24.2.2022 ist Tag 1, Wochenenden und andere Tage ohne Handel werden mitgezählt)

D.6 Campus-Files

Das Forschungsdatenzentrum des Statistischen Bundesamts stellt einige (leider sehr alte) Datensätze für die Lehre zur Verfügung. Wir nutzen in diesem Kurs zwei dieser sogenannten Campus-Files.

  • Krankenhausdaten des Statistischen Bundesamts. Die Daten sind in der Datei cf_drg_2010.csv (225 MB) gespeichert. Die Datei ist mit dem zugehörigen Codebook cf_drg_2010.pdf (in dem die Variablen erklärt werden) zusammen in der komprimierten Datei cf_drg_2010.zip (37 MB) im Learnweb zu finden.

  • Einkommensteuerdaten des Statistischen Bundesamts. Die Daten sind in der Datei cf_est_2001.csv (31 MB) gespeichert. Das zugehörige Codebook ist cf_est_2001.pdf.

D.7 Fahrraddaten

Auf der Internetseite der Stadt Münster gibt es eine Verlinkung auf die stündlichen Daten der Fahrrad-Zählstellen in der Stadt für ein ganzes Jahr, unter anderem für das Neutor 2023. Die Daten sind in einer Excel-Tabelle gespeichert. Für diesen Kurs wurden die Daten teilweise aufbereitet. Insbesondere wurden die Angaben zum Wetter vergröbert, so dass es nicht mehr rund 35, sondern nur noch 8 unterschiedliche Ausprägungen gibt. Für die Zeit von 02:00 bis 03:00 am Sonntag, 26. März 2023 fehlen die Daten wegen der Umstellung auf die Sommerzeit. Für den Tag der Umstellung auf die Winterzeit gibt es trotz der eingefügten Extra-Stunde nur 24 Beobachtungen. Aus diesem Grund gibt es insgesamt 8759 Beobachtungen (365 Tage * 24 Stunden/Tag minus 1 Stunde).

Die Variablen in der Datei fahrrad2023.csv sind:

  • beob: Stunde des Jahres 2023. Die Stunde 2019 (am 26. März) fehlt.
  • jahr: alle Beobachtungen nehmen den Wert 2023 an.
  • monat: Monat des Jahres als Zahl (1-12).
  • tag: Tag des Monats als Zahl (1-31).
  • stunde: Stunde des Tags als Zahl (0-23).
  • tagimjahr: Tag des Jahres (1-365)
  • wtag: Wochentag als ordered factor (Montag, Dienstag, …,Sonntag).
  • rein: Fahrräder in Richtung Innenstadt.
  • raus: Fahrräder aus der Innenstadt heraus.
  • wetter: acht Ausprägungen, z.B. “Bewölkt” oder “Regen”.
  • temp: Temperatur in Grad Celsius.
  • humid: Luftfeuchtigkeit in Prozent
  • regen: Regen in mm (in der Stunde)
  • wind: Windgeschwindigkeit in km/h

D.8 Bigmac-Index

Der Datensatz wurde im Januar 2025 von der github-Seite des Economist kopiert und etwas gekürzt. Der Economist hat eine sehr einfache Methode vorgeschlagen, die Kaufkraft zwischen verschiedenen Ländern zu vergleichen. Üblicherweise wird die Kaufkraft verglichen, indem man den Preis eines Warenkorbs in dem einen Land mit dem Preis des gleichen Warenkorbs in einem anderen Land vergleicht, und zwar in einer der beiden Währungen, d.h. der Wechselkurs wird berücksichtigt. Der Economist vereinfacht die Vorgehensweise, indem der Preis nur eines einzigen Produkts verglichen wird, nämlich der Preis eines “Big-Mac” von McDonalds. Außerdem werden die Preise zum jeweils aktuellen Wechselkurs in US-Dollar umgerechnet und so über alle Länder und Währungen hinweg vergleichbar gemacht. Die Länder der Euro-Zone sind zusammenfasst. Die Datei bigmacindex.csv enthält folgende Variablen:

  • year Jahr der Beobachtung
  • name Land (ausgeschrieben)
  • iso3 Land (Kürzel)
  • cur Kürzel für die Währung (currency)
  • local lokaler Preis
  • exchr Wechselkurs, gemessen in lokale Währungseinheiten pro US-Dollar; Achtung, in Europa sind wir es gewohnt, dass der Dollarkurs in der Form “US-Dollar pro Euro” berichtet wird, das ist der Kehrwert des Wechselkurses in diesem Dataframe.
  • gdpusd Bruttoinlandsprodukt pro Kopf in US-Dollar.

D.9 Wetterdaten

Der Deutsche Wetterdienst (DWD) hat ein Open-Data-Angebot. Von dort wurden alle Daten aller Wetterstationen bis zum 16.1.2025 heruntergeladen und anschließend gekürzt. Der Originaldatensatz ist erheblich größer, es gibt Angaben von über 1200 Stationen, die aber nicht alle durchgängig Daten lieferten. Für einige (wenige) Stationen reichen die Beobachtungen sogar bis ins 18. Jahrhundert zurück. Die Datei wetter.csv enthält für 96 Wetterstationen, die vom 1. Januar 1960 bis zum 16. Januar 2025 jeden Tag Daten lieferten, folgende Variablen:

  • STATIONS_ID Stationsnummer
  • MESS_DATUM Tag der Messung im Format JJJJMMTT als Integer
  • FX Tagesmaximum Windgeschwindigkeit in m/s
  • FM Mittlere Windgeschwindigkeit in m/s
  • RSK tägliche Niederschlagshöhe in mm
  • SDK tägliche Sonnenscheindauer in Std.
  • SHK_TAG Tagesschneehöhe in cm
  • PM Mittlerer Luftdruck in hPa
  • UPM Tagesmittel der relativen Feuchte in Prozent
  • TMK Tagesmittel der Temperatur (in Grad Celsius)
  • TXK Tagesmaximum der Lufttemperatur in 2m Höhe
  • TNK Tagesminimum der Lufttemperatur in 2m Höhe
  • TGK Tagesminimum der Lufttemperatur in 5cm Höhe
  • JAHR Jahr der Messung
  • MONAT Monat der Messung
  • TAG Tag des Monats
  • LFDTAG laufende Nummer des Tags (der 1.1.1960 ist Tag 1, der 16.1.2025 ist Tag 23758)

Nicht an jedem Tag sind alle Variablen an allen Stationen vorhanden. Fehlende Werte sind als NA gekennzeichnet. Eine genaue Beschreibung des Datenangebots des DWD finden Sie in wetter.zip im Learnweb. Dort gibt es auch eine Tabelle, in der die Namen und die geografische Lage der Wetterstationen zu den STATIONS_IDs aufgelistet werden. Die Wetterstation Düsseldorf hat die STATIONS_ID 1078. Leider gibt es in Münster und Umgebung keine Station, die über den Betrachtungszeitraum hinweg Daten liefert.