Skalenentwicklung

_Pragmatischer Ansatz 👨🔧

Prof. Dr. Armin Eichinger

TH Deggendorf

01.10.2024

Einführung

Hinweis: Der Untertitel “pragmatisch” soll darauf hinweisen, dass unsere Ausführungen einige Inhalte ignorieren, die in einer Veranstaltung zur Entwicklung psychologischer Messinstrumente üblicherweise behandelt werden. Dazu gehören die Arten der Testkonstruktion (z. B. induktiv, rational, …), Differenzierung der Modelle der Klassischen Testtheorie (z. B. parallele Messungen, tau-äquivalente Messung) oder die Item Response Theorie. Auch die Themen Leistungsmessung oder Bildung von Indizes werden wir außen vor lassen.

Literatur

  • DeVellis, R. F., & Thorpe, C. T. (2021). Scale development: Theory and applications. Sage publications.
    [→ Schwerpunkt]

  • Bühner, M. (2024). Einführung in die Test-und Fragebogenkonstruktion. Pearson.
    [→ für die Details und eine tieergehende Auseinandersetzung]

Schritte der Testentwicklung

  1. Bestimmen Sie genau, was Sie messen möchten.
  2. Erstellen Sie einen Itempool.
  3. Bestimmen Sie das Format für die Messung.
  4. Überprüfen Sie Itempool: Experten & kognitives Interview.
  5. Erwägen Sie die Einbeziehung von Validierungsitems.
  6. Führen Sie einen Pilottest an kleiner Stichprobe durch.
  7. Evaluieren Sie die Items.
  8. Erstellen Sie eine endgültige Skala.

1. Bestimmen Sie genau, was Sie messen möchten.

Beschreiben Sie den genauen Gegenstand der Messung und identifiziere das Konstrukt.

  • Was wollen wir messen?
  • Ermitteln relevanter Konstrukte
  • Grad der Spezifizität klären
  • Zielgruppe
  • Gibt es bestehende Fragebögen, die wir verwenden könnten?

2. Erstellen Sie einen Itempool.

  • Ähnlichkeit von Fragen

  • Redundanz hat Vorteile und Nachteile

    • Vorteil: Aufsummierung stärkt z.B. das Thema, Gemeinsamkeiten betont und eliminiert das, was jedes Item nur einzeln mitbringt
      → Stärkung der Skala
    • Nachteile: Mehr Aufwand
    • Je spezifischer die Formulierung, desto ähnlicher werden die Fragen
  • Anzahl an Items

    • Zu Beginn 150-400%; später reduzieren auf 100%
    • Je größer der Item-Pool anfänglich, desto besser
    • Praktische Erwägungen

Weitere Hinweise zur Item-Generierung:

  • Unklarheit vermeiden
  • Kein unkritisches Paraphrasieren des Konstrukts
  • Unzweideutig
  • Nicht zu lang
  • Nicht schwer zu lesen und zu verstehen; z. B. mehrfache Verneinungen
  • Keine Kombination mehrerer Ideen in einem Item
  • Positive und negative Formulierung (um z. B. Akquieszenz zu identifizieren): eher vermeiden

3. Bestimmen Sie das Format für die Messung.

  • Guttman Skalierung:
    • Messung von Einstellungen
    • Abgestufte Skala zur Messung von Konstrukten
    • Anzahl von Zustimmungspunkten, die unterschieden werden
  • Semantisches Differential:
    • Einsetzten von Oppositen
    • Verwendung in der Marktanalyse
  • Likert-Skala:
    • Weit verbreitetes Format
    • Skala von stark zustimmend bis stark ablehnend

Weitere Formate:

  • Visuelle Analogskala
  • Numerische Antwortformate
  • Bipolare Antwortformate
  • Smiley-Skala

4. Überprüfen Sie Itempool: Experten & kognitives Interview.

  • Fach-Experten überprüfen die gesammelten Items nach Relevanz der Fragen für das jeweilige Konstrukt
  • Dazu Arbeitsdefinition des Konstrukts erforderlich
  • Ziel: Prüfung der Konstruktvalidität
  • Prüfung nach Klarheit und Prägnanz

Kognitives Interview:

  • Qualitative Technik
  • Zielgruppe
  • Wie werden Items verstanden bzw. Antworten gefunden
  • Thinking Aloud

5. Erwägen Sie die Einbeziehung von Validierungsitems.

  • Prüfung von sozialer Erwünschtheit:
    • ggf. Skala zur soziale Erwünschtheit in den Fragebogen einbeziehen
  • Antwort-Verzerrungen:
    • Nein-Sage Tendenz (Zustimmung Tendenz – Akquieszenz)
    • Tendenz zur Mitte
  • Eventuell Fragen zu anderen Konstrukten integrieren (vgl. diskriminante und konvergente Validität)

6. Pilot-Durchführung an Entwicklungsstichprobe.

  • Ausreichend große Stichprobe erforderlich

    • Nunnally (1974): n > 300
    • Bühner (2024):
  • Ziel: Repräsentativität und Stabilität

  • Abhängig von Umfang und Komplexität des Instruments

  • Abhängig von Heterogenität der Zielgruppe

7. Evaluieren Sie die Items.

  • Itemanalyse: „Eine Itemanalyse verwendet ein Bündel statistischer Verfahren, um die Eignung einzelner Items (…) im Hinblick auf die Zielsetzung der Befragung zu untersuchen.“ (Wikipedia)

  • Dimensionalität: Prüfung (über Faktorenanalyse)

  • Analyse der Rohwertverteilung: recht hohe Varianzen, zentraler Mittelwert

  • Weitere Kennwerte

    • Itemschwierigkeit: Anteil derjenigen Personen, die das Item richtig lösen oder bejahen; für mehrstufige Fragen häufig erreichte/erreichbare Punkte
    • Trennschärfe: Korrelationskoeffizient zwischen einem Einzelitem und dem Gesamttestscore
    • Homogenität, Konsistenz: Durchschnittliche Korrelation aller Items (Fisher-Z-Transformation!), Cronbachs Alpha: \(\alpha = \frac{{k \cdot \bar{r}}}{{1 + \bar{r}(k-1)}}\)

Richtwerte für Cronbachs Alpha:

\(\alpha \geq\).80: gute Konsistenz
\(\alpha \geq\).70: zufriedenstellende Konsistenz
\(\alpha \geq\).60: gerade noch zufriedenstellende Konsistenz
\(\alpha \geq\).50: grenzwertige Konsistenz
\(\alpha <\).50: unzureichende Konsistenz

8. Erstellen Sie eine endgültige Skala.

→ Als Ergebnis der Itemanalyse.

  • Je mehr Items, desto stabiler
  • Je kürzer, desto praktikabler in der Anwendung
  • Software unterstützt beim “Basteln” mit Itemzahl