Skalenindex

Psychologische Konstrukte (z.B. Optimismus) sind mitunter nicht direkt beobachtbar. Im Fragebogen verwendet man zur Messung daher häufig eine Skala: Mehrere einzelne Fragen – auch Skalenitems genannt – welche alle unterschiedliche Aspekte desselben Konstrukts abbilden.

Je mehr Skalenitems man zur Messung des Konstrukts verwendet, desto genauer wird die Messung, weil Messfehler bei einzelnen Items dann weniger ins Gewicht fallen. Vorraussetzung ist natürlich, dass die Skala sauber konstruiert und validiert wurde (die Konstruktion von Skalen ist ein aufwändiger Prozess: 100-mal dieselbe Frage zu stellen liefert natürlich keine bessere Messung, als diese Frage nur einmal zu stellen).

In der Auswertung verrechnet man die einzelnen Antworten dann i.d.R. zu einem Mittelwert- oder Summenindex, um das Konstrukt zu quantifizieren. Der Mittelwertindex hat zwei Vorteile:

Der Wertebereich eines Mittelwertindex ist derselbe wie bei den einzelnen Items. Wenn diese jeweils von 1 bis 5 reichen, liegt auch der Mittelwertindex zwischen 1 und 5. Das macht die Interpretation einfacher.
Einen Mittelwertindex kann man auch dann relativ einfach berechnen, wenn einzelne Antworten fehlen (missing values). Allerdings dürfen sich die Mittelwerte der einzelnen Items nicht zu sehr unterscheiden – sonst führen fehlende Werte zu Messartefakten.

Berechnung in SPSS

Im einfachsten Fall berechnet man einen Mittelwertindex in SPSS mit der Syntax (Datei → Neu → Syntax). Für Summenindezes ersetzt man das MEAN einfach durch SUM:

COMPUTE AB01 = MEAN(AB01_01 TO AB01_10).
EXECUTE.

Im obigen Beispiel werden alle Variablen von AB01_01 bis AB01_10 zu einem Index verrechnet. Falls man einzelne Items aus einer Skala zu einem Teilskalen-Index verrechnet will, gibt man diese durch Komma getrennt an:

COMPUTE AB01 = MEAN(AB01_01, AB01_03, AB01_05, AB01_07, AB01_09).
EXECUTE.

Diese Beispiele würden auch einen Mittelwert berechnen, wenn nur ein einziges der Items beantwortet wurde. Man kann mit einem Punkt hinter dem MEAN()-Befehl festlegen, dass eine Mindestzahl an Antworten pro Fall vorliegen muss. Drei viertel der Items ist ein sinnvoller Mindestwert – also z.B. 8 von 10 Items:

COMPUTE AB01 = MEAN.8(AB01_01 TO AB01_10).
EXECUTE.

„Gedrehte“ Items – also Items, die umgekehrt formuliert wurden und wo Zustimmung eine geringere Ausprägung des Konstrukts indiziert – markiert man am besten schon beim Zusammenstellen des Fragebogens als solche: Item links in der Navigation auswählen → „Antwortcodes für dieses Item invertieren“.

Wichtig: Gedrehte Items müssen vor Start der Erhebung als solche markiert werden. Ändern Sie diese Einstellung nicht während oder nach der Erhebung, denn bisher erhobene Antworten werden nicht umkodiert.

Falls Sie Items nicht vorab „gedreht“ haben, müssen Sie diese Umkodieren. Dafür gibt es in SPSS zwei Möglichkeiten. Die folgenden Beispiele gehen von einer 5er-Skala aus:

RECODE AB01_01 (1=5) (2=4) (3=3) (4=2) (5=1) (ELSE=SYSMIS) INTO AB01_01R.
EXECUTE.

COMPUTE AB01_01R = 6 - AB01_01.
EXECUTE.

Vorsicht: Bei der zweiten, etwas eleganteren Variante müssen Sie mit fehlenden Werten aufpassen. Eine -1 wird hier zur 7 umkodiert. Diese Variante eignet sich vor allem dann, wenn der Befragte nichts auslassen kann und keine „weiß nicht“ Option angeboten wurde.

Für den Skalenindex muss dann natürlich die gedrehte Variable verwendet werden:

COMPUTE AB01 = MEAN(AB01_01R, AB01_02, AB01_03R, AB01_04, AB01_05R, AB01_06, AB01_07R, AB01_08, AB01_09R, AB01_10).
EXECUTE.

Häufige Fragen

Darf ich Variablen immer zu einem Index verrechnen?

Die Berechnung eines Skalenindex ergibt inhaltlich nur dann Sinn, wenn die Items dasselbe Konstrukt widerspiegeln. In der Praxis prüft man das anhand der Korrelation zwischen den Items mittels Cronbach's Alpha.

Als Faustregel gilt: Cronbach's Alpha sollte über .7 liegen. Allerdings ist Cronbach's Alpha stark abhängig von der Anzahl der Items. Daher kann für eine Skala mit 4 oder 5 Items auch ein Alpha-Wert von .6 schon gut sein.

Muss ich die Items vor der Berechnung des Skalenindex z-standardisieren?

Das hängt von der Skala ab. Die z-Standardisierung hat einen Nachteil: Der Wertebereich des Skalenindex ist nicht derselbe, wie bei den einzelnen Items. Das erschwert die Interpretation: Während man weiß, dass bei einer 5er-Skala (1 bis 5) eine 2,7 nahe der Skalenmitte liegt, ist die Bedeutung des z-Wertes -0,2 nicht so leicht ersichtlich.

Vorteile hat die z-Standardisierung vor allem, wenn man fehlende Werte in den Daten hat. Man stelle sich vor, dass bei einem Item nahezu alle Teilnehmer „trifft voll zu“ angeben, während der Mittelwert bei den anderen Items eher in der Mitte der Skala liegt. Wenn nun ein Teilnehmer das 5er-Item nicht beantwortet, „fehlt“ vermutlich eine 5 – und der Skalenindex fällt vermutlich geringer aus, als wenn er das Item beantwortet hätte. Sind die Items z-standardisiert (oder Mittelwert-normalisiert), fällt diese Fehlerquelle weg.

Die z-Standardisierung normalisiert aber auch die Standardabweichung der einzelnen Items. Wenn die meisten Teilnehmer bei einem Item denselben Skalenpunkt auswählen, fällt eine Abweichung um einen Skalenpunkt nach z-Standardisierung deutlich mehr ins Gewicht, als wenn die Antworten der Teilnehmer bei dem Item weit streuen. Manche Items fallen damit im Skalenindex stärker ins Gewicht als andere. Ob das positiv oder negativ ist, hängt von der Skala ab. In einer perfekten Skala haben ohnehin schon alle Items nahezu denselben Mittelwert (in der Skalenmitte) und dieselbe Standardabweichung…

Hängt es von der Anzahl der Items ab, wie stark das Konstrukt mit anderen Konstrukten korreliert?

Jein. Prinzipiell ist die Stärke der Korrelation unabhängig von der Anzahl der Items. Aber: Bei einer sauber konstruierten Skala steigt mit der Anzahl der Items auch die Güte der Messung. Und wenn der Skalenindex weniger Messfehler enthält, fällt die Korrelation u.U. stärker aus.

Umgekehrt kann die Korrelation mit mehr Items auch schwächer ausfallen, wenn beide Konstrukte demselben Messfehler unterliegen. Die höhere Korrelation mit mehr Items ist in diesem Fall eine Scheinkorrelation – z.B. weil manche Menschen in Skalen lieber weiter rechts klicken (Aquieszenz).

Welches Messniveau haben Skalenindezes?

Intervallskaliert (metrisch). Damit man überhaupt einen Mittelwert oder eine Summe berchnen darf, muss man annehmen, dass die Skalenitems zumindest annähernd intervallskaliert sind (quasi-metrisch). Folglich ist der Skalenindex intervallskaliert.

Sind Skalen mit gedrehten Items besser als ohne gedrehte Items?

Diese Frage kann man nicht pauschal beantworten.

Die Verwendung von gedrehten Items hat in aller Regel den Effekt, dass die Korrelation zwischen den Items (Cronbach's Alpha) etwas geringer ausfällt. Das sieht zwar nicht so toll aus – dürfte aber ein Indikator dafür sein, dass die Befragten sich bei der Beanwortung mehr Gedanken gemacht haben. Außerdem wird eine generelle Neigung zu Zustimmung/Ablehnung (Ja/Nein-Sager) durch die gedrehten Items nivelliert. Dies spricht für eine bessere Messung des Konstrukts.

Andererseits reagieren unterschiedliche Menschen unterschiedlich auf gedrehte Items. Zum Beispiel könnte jemand aus besonderer Ehrlichkeit vermeiden, niemals anzugeben, dass etwas „nie“ auf ihn zutreffe. Dies kann zu Messartefakten führen. Zudem gibt es Hinweise aus der Forschung, dass gedrehte Items die Eindimensionalität der Skala beeinflussen können.

Mittelwerte oder Faktorwerte für den Skalenindex?

Vor allem wenn eine Skalenbatterie mehrere Teildimensionen/Teilkonstrukte abbildet, steht diese Frage im Raum: Soll man für die Indizes der Teilkonstrukte einfach den Mittelwert aus den einem Teilkonstrukt zugeordneten Items bilden oder stattdessen mit den Faktorwerten einer explorativen Faktorenanalyse arbeiten?

Die Faktorenwerte beziehen die einzelnen Items mit unterschiedlicher Gewichtung ein. Theoretisch bilden die Faktorenwerte damit die Vektoren der Teilkonstrukte etwas genauer ab. Praktisch ist dieser Vorteil vernachlässigbar. Praktisch geht mit Faktorenwerten ein wesentlicher Nachteil einher: Die Berechnung der Indizes erfolgt in jedem Datensatz, der die Skala verwendet, ein wenig anders – eben abhängig davon, wie die Faktoren genau liegen. Das heißt, die Vergleichbarkeit zwischen Studien geht verloren.

Zudem sollte man sich bewusst sein, dass die konkrete Faktorlösung (und damit die Gewichtung) nur eine von vielen möglichen Lösungen ist – und sie ist zu einem großen Teil auch das Ergebnis von Messartefakten, der Wahl des Optimierungsverfahrens etc…

Der Mangel an Vergleichbarkeit und der Einfluss von Messfehlern sprechen für „normale“ Mittelwerte. Solch ein Index ist in aller Regel auch theoretisch besser untermauert, denn im Idealfall ist bereits a-priori geklärt, welche Items zu welchem Teilkonstrukt gehören.