SoSci Survey
Übersetzungen dieser Seite:
 

Zusätzliche Variablen in der Datenausgabe

Vor bzw. nach den eigentlichen Daten finden Sie im Datensatz weitere Variablen. Diese werden im Folgenden kurz erläutert.

Hinweis: Einige Variablen muss man beim Herunterladen der Daten explizit aktivieren.

Hinweis: Die Aufzeichnung der Browser-Daten (Browser, Referer, etc.) muss man vor der Datenerhebung in den Projekt-Einstellungen aktivieren.

Identifikation des Interviews

  • CASE Eindeutige Nummer der Versuchsperson. In der Regel entspricht die Nummer der Reihenfolge, in der die Versuchspersonen den Fragebogen aufrufen (s. auch PHP-Funktion caseNumber()).
    Hinweis: Wann immer jemand den Fragebogen aufruft, wird eine neue Nummer vergeben – klickt die Person nicht auf Weiter oder ruft sie den Fragebogen gleich nochmal auf, so entsteht ein leerer Datensatz. Dieser wird standardmäßig automatisch gelöscht. Außerdem werden auch beim Testen des Fragebogens Fall-Nummern vergeben. In der Folge beginnt die Nummerierung meist nicht bei Null und weist Lücken auf (z.B. 123, 125, 130, 131, 132, …)
    Hinweis: Auch für Tests während der Fragebogen-Entwicklung werden Fallnummern vergeben. Es ist daher üblich, dass die Nummer nicht bei 1 beginnt. Damit die Fallnummern pro Befragungsprojekt eindeutig bleiben, lässt sich die Zählung nicht zurücksetzen – dies würde in der Auswertung auch keinerlei Vorteile bringen.
  • SERIAL Sofern der Fragebogen mit einem personalisieren Link (Seriennummer) aufgerufen wurde, erscheint hier die Teilnehmer-Kennung (s. auch PHP-Funktion caseSerial()).
  • REF Falls im Link zum Fragebogen eine Referenz übergeben wurde (Der Link zum Fragebogen), wird der Referenz-Text hier abgespeichert (s. auch PHP-Funktion reference()).
  • QUESTNNR Enthält die Kennung des Fragebogens, der ausgefüllt wurde. Die Kennung legt man beim Zusammenstellen des Fragebogens fest. Eine Kennung „del:<nummer>“ bedeutet, dass der Fragebogen, mit dem das Interview durchgeführt worden ist, gelöscht wurde.
  • MODE Gibt an, ob der Fragebogen in einem speziellen Modus gestartet wurde:
    • „interview“ bedeutet, dass der Fragebogen normal über den Link aufgerufen wurde
    • „pretest“ markiert Fragebögen aus dem Pretest (mit Anzeige der Frage-Kennungen und Feedback-Möglichkeit)
    • „orgtest“ markiert Fragebögen aus dem Pretest, die im Original-Layout gestartet wurden
    • „admin“ bedeutet, dass der Fragebogen in der Admin-Vorschau gestartet wurde (Starten)
    • „debug“ markiert Interviews, die im Debug-Modus (Im Debug-Modus starten) getestet wurden
  • LANGUAGE Sprache, in der das Interview geführt wurde. Diese Variable wird in mehrsprachigen Befragungsprojekten ausgegeben oder wenn die Option „Variablen herunterladen, die nicht im Fragebogen verwendet wurden“ aktiv ist. Falls die Sprache während des Interviews gewechselt wurde, wird die zuletzt verwendete Sprache angegeben.
  • STARTED Gibt den Zeitpunkt an, zu dem der Teilnehmer den Fragebogen aufgerufen hat.

Interview-Fortschritt

Die folgenden Variablen sind am Ende des Datensatzes zu finden.

  • LASTDATA Zeitpunkt als der Interviewpartner das letzte mal auf „Weiter“ geklickt und so den Datensatz aktualisiert hat. Der Zeitabstand zwischen STARTED und LASTDATA kann von der Summe der Antwortzeiten abweichen, weil die Verarbeitungszeiten durch den Webserver hier vollständig enthalten sind.
  • FINISHED Hat der Teilnehmer die „Letzte Seite“ erreicht (1) oder nicht (0).
  • LASTPAGE Gibt an, welche Seite des Fragebogens zuletzt bearbeitet und mit „Weiter“ abgeschickt wurde. Die Nummer entspricht der Seitennummerierung im Fragebogen (Fragebogen zusammenstellen).
  • MAXPAGE Die letzte Seite im Fragebogen, die beantwortet wurde. Hier wird nicht angegeben, welche Seite der Teilnehmer zuletzt bearbeitet hat, sondern welche er erreicht hat – auch wenn er anschließend vielleicht mit dem „Zurück“-Knopf wieder zu einer früheren Seite gewechselt ist.
  • MISSING Gibt den Anteil der nicht gegebenen Antworten in Prozent an (0 bis 100). Es werden nur die Fragen gezählt, die dem Teilnehmer auch tatsächlich gestellt wurden – auch ein Abbrecher kann also alle Fragen beantwortet haben (0%). Diese Variable kann helfen, jene Teilnehmer herauszufiltern, die den Fragebogen nur durchgeklickt haben. Bitte beachte Sie, dass bei einer Mehrfachauswahl auch keine Antwort (kein Kreuzchen) eine gültige Antwort ist. Daher liegt der Wert selbst bei absolut leeren Interviews meist deutlich unter 100%. Fehlende Werte (z.B. „weiß nicht“) werden nicht als fehlende Antworten gezählt.
  • MISSREL Anteil fehlender Antworten, gewichtet mit dem Antwortverhalten der anderen Teilnehmer. Fragen, die generell häufig nicht beantwortet werden (z.B. optionale offene Textangaben) fallen hier kaum ins Gewicht. Fragen, die von den meisten Teilnehmern beantwortet wurden, fallen stärker ins Gewicht. Der lineare Gewichtungsfaktor für die Frage bzw. das Item ist die Anzahl gegebener Antworten dividiert dadurch, wie häufig die Frage gestellt bzw. das Item abgefragt wurde.
    Hinweis: Dieser Wert ist abhängig davon, welche Datensätze heruntergeladen werden.

Antwortzeiten

Die Antwortzeiten sind nur im Datensatz enthalten, wenn die Option Verweildauer in der Variablen-Auswahl nicht deaktiviert wurde.

  • TIMEnnn In den Spalten TIME001 u.s.w. wird abgespeichert, wie lange (in Sekunden) sich ein Teilnehmer auf einer Seite im Fragebogen aufgehalten hat. Wenn ein Teilnehmer eine Seite mehrfach sieht (z.B. durch Verwendung des Zurück-Knopfes im Fragebogen), dann werden die Zeiten addiert. Diese Zeiten sind nur ungenaue Angaben, da sie auch die Ladezeiten enthalten.
  • TIME_SUM Summe der Bearbeitungszeiten (in Sekunden) nach Bereinigung von Unterbrechungen. Unterbricht der Teilnehmer die Befragung und führt sie zu einem späteren Zeitpunkt fort, wird für die entsprechende Seite eine sehr lange Bearbeitungszeit (Stunden oder gar Tage) ermittelt. Als Unterbrechung wird jede Bearbeitungszeit erkannt, die
    • länger als 2 Stunden dauert oder
    • den Median der Bearbeitungszeit um mehr als den 3-fachen Interquartilsabstand (IQR) dividiert durch 1.34 übersteigt (entsprechend mehr als 3 Standardabweichungen in einer normalverteilten Stichprobe)

Qualitätsindikatoren

Die Datenqualität in Onlinebefragungen ist zwar meist sehr hoch – um eine Datenbereinigung kommt man aber i.d.R. nicht umhin. SoSci Survey stellt mit der Option Variablen-AuswahlKennwerte zur Datenqualität herunterladen drei Variablen zur Verfügung, welche Sie bei der Bereinigung unterstützen:

  • DEG_MISS Maluspunkte für fehlende Antworten
  • DEG_TIME Maluspunkte für extrem schnelles Ausfüllen
  • DEGRADE Summe der Maluspunkte DEG_MISS und DEG_TIME (die Summe wird vor Rundung ermittelt und kann daher minimal von der Summe der gerundeten Werte abweichen)

Das Punktesystem ist so normiert, dass Fälle mit einer Gesamtpunktzahl (DEGRADE) über 100 als minderwertige Daten klassifiziert werden können. Allerdings ist Qualität keine dichotome Eigenschaft. Daher ist auch die Punktzahl ein kontinuierliches Merkmal mit einer „long tail“ Charakteristik. Wenn Sie strenger filtern möchten, ist eine Grenze von 75 oder 50 Punkten ebenso denkbar wie ein Bereinigung ab 200 für eine liberalere Filterung.

Wichtige Quellen ungültiger Daten sind:

  • Personen, die den Fragebogen nur einmal ansehen wollten
  • Teilnehmer, die schon nach wenigen Seiten die Motivation verloren haben

Daten solcher Teilnehmer lassen sich anhand verschiedener Indikatoren identifizieren. Ob ein Fragebogen vollständig ausgefüllt wurde lässt sich anhand der Variablen LASTPAGE und FINISHED nachvollziehen (s. oben). Daneben ist der Anteil fehlender Angaben (MISSING) ein wertvoller Indikator für die Sorgfalt des Teilnehmers bzw. für Datensätze, die vom „nur mal ansehen“ stammen. Die zum Ausfüllen investierte Zeit ist zwar kein direkter Indikator für Datenqualität, aber sehr geringe Antwortzeiten deuten darauf hin, dass die Fragen nicht einmal gelesen wurden.

Eine Dokumentation zur Berechnung der Qualitätsindikatoren folgt noch.

Externe Daten

Die folgenden Variablen sind nur im Datensatz enthalten, wenn die entsprechende Option in der Variablen-Auswahl aktiviert wurde. Außerdem werden diese Daten beim Interview nur aufgezeichnet, wenn dies in den Projekt-Einstellungen unter Datenschutz explizit erlaubt wurde.

Aktivierung der Variablen beim Herunterladen der Daten

  • S_IP IP-Adresse des Befragen [REMOTE_ADDR]. Diese lässt z.B. Rückschlüsse auf den Aufenthaltsort zu, zur zuverlässigen Identifikation von Mehrfach-Ausfüllern ist sie nicht geeignet.
  • S_LANG Sprache (z.B. „en“ oder „de“) des Befragten [HTTP_ACCEPT_LANGUAGE].
    Vorsicht: Es handelt sich hierbei um eine Einstellung im Browser, die nicht unbedingt mit dem Herkunftsland oder der tatsächlichen Sprache übereinstimmt.
  • S_REFERR Referrer -– woher kam der Befragte [HTTP_REFERER]? Wo fand er den Link zum Fragebogen?
  • S_BROWSR Benutzter Browser, wie dieser sich selbst identifiziert [HTTP_USER_AGENT].
de/results/variables.txt · Zuletzt geändert: 05.04.2013 19:53 von lisa.przioda
 
Falls nicht anders bezeichnet, ist der Inhalt dieses Wikis unter der folgenden Lizenz veröffentlicht: CC Attribution-Share Alike 3.0 Unported
Driven by DokuWiki