Übersetzungen dieser Seite:
 

Zusätzliche Variablen in der Datenausgabe

Vor bzw. nach den eigentlichen Daten finden Sie im Datensatz weitere Variablen. Diese werden im Folgenden kurz erläutert.

Hinweis: Einige Variablen muss man beim Herunterladen der Daten explizit aktivieren.

Hinweis: Die Aufzeichnung der Browser-Daten (Browser, Referer, etc.) muss man vor der Datenerhebung in den Projekt-Einstellungen aktivieren.

Identifikation des Interviews

  • CASE Eindeutige Nummer der Versuchsperson. In der Regel entspricht die Nummer der Reihenfolge, in der die Versuchspersonen den Fragebogen aufrufen (s. auch PHP-Funktion caseNumber()).
    Hinweis: Wann immer jemand den Fragebogen aufruft, wird eine neue Nummer vergeben – klickt die Person nicht auf Weiter oder ruft sie den Fragebogen gleich nochmal auf, so entsteht ein leerer Datensatz. Dieser wird standardmäßig automatisch gelöscht. Außerdem werden auch beim Testen des Fragebogens Fall-Nummern vergeben. In der Folge beginnt die Nummerierung meist nicht bei Null und weist Lücken auf (z.B. 123, 125, 130, 131, 132, …)
    Hinweis: Auch für Tests während der Fragebogen-Entwicklung werden Fallnummern vergeben. Es ist daher üblich, dass die Nummer nicht bei 1 beginnt. Damit die Fallnummern pro Befragungsprojekt eindeutig bleiben, lässt sich die Zählung nicht zurücksetzen – dies würde in der Auswertung auch keinerlei Vorteile bringen.
  • SERIAL Sofern der Fragebogen mit einem personalisieren Link (Seriennummer) aufgerufen wurde, erscheint hier die Teilnehmer-Kennung (s. auch PHP-Funktion caseSerial()).
  • REF Falls im Link zum Fragebogen eine Referenz übergeben wurde (Der Link zum Fragebogen), wird der Referenz-Text hier abgespeichert (s. auch PHP-Funktion reference()).
  • QUESTNNR Enthält die Kennung des Fragebogens, der ausgefüllt wurde. Die Kennung legt man beim Zusammenstellen des Fragebogens fest. Eine Kennung „del:<nummer>“ bedeutet, dass der Fragebogen, mit dem das Interview durchgeführt worden ist, gelöscht wurde.
  • MODE Gibt an, ob der Fragebogen in einem speziellen Modus gestartet wurde:
    • „interview“ bedeutet, dass der Fragebogen normal über den Link aufgerufen wurde
    • „pretest“ markiert Fragebögen aus dem Pretest (mit Anzeige der Frage-Kennungen und Feedback-Möglichkeit)
    • „orgtest“ markiert Fragebögen aus dem Pretest, die im Original-Layout gestartet wurden
    • „admin“ bedeutet, dass der Fragebogen in der Admin-Vorschau gestartet wurde (Starten)
    • „debug“ markiert Interviews, die im Debug-Modus (Im Debug-Modus starten) getestet wurden
  • LANGUAGE Sprache, in der das Interview geführt wurde. Diese Variable wird in mehrsprachigen Befragungsprojekten ausgegeben oder wenn die Option „Variablen herunterladen, die nicht im Fragebogen verwendet wurden“ aktiv ist. Falls die Sprache während des Interviews gewechselt wurde, wird die zuletzt verwendete Sprache angegeben.
  • STARTED Gibt den Zeitpunkt an, zu dem der Teilnehmer den Fragebogen aufgerufen hat.

Interview-Fortschritt

Die folgenden Variablen sind am Ende des Datensatzes zu finden.

  • LASTDATA Zeitpunkt als der Interviewpartner das letzte mal auf „Weiter“ geklickt und so den Datensatz aktualisiert hat. Der Zeitabstand zwischen STARTED und LASTDATA kann von der Summe der Antwortzeiten abweichen, weil die Verarbeitungszeiten durch den Webserver hier vollständig enthalten sind.
  • FINISHED Hat der Teilnehmer die „Letzte Seite“ erreicht (1) oder nicht (0).
  • LASTPAGE Gibt an, welche Seite des Fragebogens zuletzt bearbeitet und mit „Weiter“ abgeschickt wurde. Die Nummer entspricht der Seitennummerierung im Fragebogen (Fragebogen zusammenstellen).
  • MAXPAGE Die letzt-platzierte Seite im Fragebogen, die beantwortet wurde. Im Unterschied zu LASTPAGE wird hier nicht die zuletzt bearbeitet Seite angegeben, sondern jene bearbeitete Seite mit der höchsten Nummer. Der Wert entspricht dem von LASTPAGE, es sei denn (a) der Teilnehmer hat den Zurück-Knopf verwendet (etwa wenn er am Ende nochmal die erste Seite ansehen wollte) oder (b) im Fragebogen sind Sprünge „nach vorne“ programmiert.

Antwortzeiten

  • TIMEnnn In den Spalten TIME001 u.s.w. wird abgespeichert, wie lange (in Sekunden) sich ein Teilnehmer auf einer Seite im Fragebogen aufgehalten hat. Wenn ein Teilnehmer eine Seite mehrfach sieht (z.B. durch Verwendung des Zurück-Knopfes im Fragebogen), dann werden die Zeiten addiert. Diese Zeiten sind nur ungenaue Angaben, da sie auch die Ladezeiten enthalten.
  • TIME_SUM Summe der Bearbeitungszeiten (in Sekunden) nach Bereinigung von Unterbrechungen. Unterbricht der Teilnehmer die Befragung und führt sie zu einem späteren Zeitpunkt fort, wird für die entsprechende Seite eine sehr lange Bearbeitungszeit (Stunden oder gar Tage) ermittelt. Als Unterbrechung wird jede Bearbeitungszeit erkannt, die
    • länger als 2 Stunden dauert oder
    • den Median der Bearbeitungszeit um mehr als den 3-fachen Interquartilsabstand (IQR) dividiert durch 1.34 übersteigt (entsprechend mehr als 3 Standardabweichungen in einer normalverteilten Stichprobe)
  • TIME_RSI Ein Index, der angibt, wie viel schneller als der typische Teilnehmer (Median) ein Teilnehmer den Fragebogen ausgefüllt hat. Werte über 1 identifzieren schnellere Teilnehmer, Werte unter 1 langsamere Teilnehmer. Details s. unten.

Hinweis: Die Kennwerte TIME_SUM und TIME_RSI enthalten erst dann einen Wert, wenn mindestens 10 Datensätze für den jeweiligen Fragebogen im Download enthalten sind (auswahlkriterien_filterAuswahlkriterien/Filter). Je mehr Datensätze der Download enthält, desto genauer werden die Werte für TIME_SUM und TIME_RSI, denn für die Bereinigung von Ausreißern bzw. zur Normierung wird die Verteilung der Antwortzeiten in der Stichprobe herangezogen.

Hinweis: Die Antwortzeiten sind im Datensatz nur dann enthalten, wenn beim Daten herunterladen in der Variablen-Auswahl ein Kreuzchen bei der Option Verweildauer gesetzt wurde. Diese Option ist standardmäßig ausgewählt.

Hinweis: Die Bearbeitungszeiten werden automatisch aufgezeichnet. Um die Aufzeichnung zu deaktivieren, entfernen Sie bitte die Markierung bei BefragungsprojektProjekt-Einstellungen → Karteireiter DatenschutzZeit und Verweildauer während der Befragung aufzeichnen.

Qualitätsindikatoren

Die Datenqualität in Onlinebefragungen ist zwar meist sehr hoch – um eine Datenbereinigung kommt man aber i.d.R. nicht umhin. SoSci Survey stellt mit der Option Variablen-AuswahlKennwerte zur Datenqualität herunterladen drei Variablen zur Verfügung, welche Sie bei der Bereinigung unterstützen:

  • MISSING Gibt den Anteil der nicht gegebenen Antworten in Prozent an (0 bis 100). Es werden nur die Fragen gezählt, die dem Teilnehmer auch tatsächlich gestellt wurden – auch ein Abbrecher kann also alle Fragen beantwortet haben (0%). Diese Variable kann helfen, jene Teilnehmer herauszufiltern, die den Fragebogen nur durchgeklickt haben.
    • Bitte beachten Sie, dass bei einer Mehrfachauswahl auch keine Antwort (kein Kreuzchen) eine gültige Antwort ist. Daher liegt der Wert selbst bei absolut leeren Interviews meist deutlich unter 100%.
    • Fehlende Werte (z.B. „weiß nicht“) werden nicht als fehlende Antworten gezählt.
    • Bei offenen Texteingabe-Fragen gilt es als fehlende Antwort, wenn der Teilnehmer nichts (oder nur Leerzeichen) einträgt. Dies gilt auch dann, wenn die Angabe eines Textes optional ist (z.B. wenn der Fragebogen vorsieht, dass man anstatt eine Null einzutragen, das Feld auf leer belassen kann).
    • Bei Auswahlfragen (einfache Auswahl oder Mehrfachauswahl) wird ein leeres Eingabefeld der Antwortoption (Eingabefelder in einer Auswahlfrage, z.B. „Sonstiges: ___“) hingegen nur dann als fehlende Antwort gezählt, wenn die entsprechende Option in der Auswahlfrage ausgewählt wurde.
  • MISSREL Anteil fehlender Antworten, gewichtet mit dem Antwortverhalten der anderen Teilnehmer. Fragen, die generell häufig nicht beantwortet werden (z.B. optionale offene Textangaben) fallen hier kaum ins Gewicht. Fragen, die von den meisten Teilnehmern beantwortet wurden, fallen stärker ins Gewicht. Der lineare Gewichtungsfaktor für die Frage bzw. das Item ist die Anzahl gegebener Antworten dividiert dadurch, wie häufig die Frage gestellt bzw. das Item abgefragt wurde.
    Hinweis: Dieser Wert ist abhängig davon, welche Datensätze heruntergeladen werden.
  • DEG_TIME Maluspunkte für extrem schnelles Ausfüllen. Der Wert ist so normiert, dass Fälle mit einer Gesamtpunktzahl über 100 als minderwertige Daten klassifiziert werden können. Allerdings ist Qualität keine dichotome Eigenschaft. Wenn Sie strenger filtern möchten, ist eine Grenze von 75 oder 50 Punkten ebenso denkbar wie ein Bereinigung ab 200 für eine liberalere Filterung. Der Indikator TIME_RSI ist eine Weiterentwicklung von DEG_TIME und in einigen Situationen akkurater.
  • TIME_RSI Dieser Kennwert ist im Artikel Too Fast, too Straight, too Weird genauer dokumentiert (als „relative speed index“). Datensätze mit einem Wert über 1,6 sollten genauer betrachtet werden. Ab einem Wert von 2,0 ist es sehr unwahrscheinlich, dass der Teilnehmer den Fragebogen sinnvoll ausgefüllt hat. Wissensfragen, die der Teilnehmer evtl. recherchieren muss, können den Wert allerdings verzerren (Teilnehmer mit gutem Vorwissen sind schneller).

Ob ein Fragebogen vollständig ausgefüllt wurde lässt sich anhand der Variablen LASTPAGE und FINISHED nachvollziehen (s. oben). Der Anteil fehlender Angaben (MISSREL) ist ein wertvoller Indikator für die Sorgfalt des Teilnehmers bzw. für Datensätze, die vom „nur mal ansehen“ stammen. Die zum Ausfüllen investierte Zeit ist zwar kein direkter Indikator für Datenqualität, aber sehr geringe Antwortzeiten (TIME_SUM und DEG_TIME) deuten darauf hin, dass die Fragen nicht einmal gelesen wurden.

de/results/variables.txt · Zuletzt geändert: 02.03.2018 08:27 von admin
 
Falls nicht anders bezeichnet, ist der Inhalt dieses Wikis unter der folgenden Lizenz veröffentlicht: CC Attribution-Share Alike 4.0 International
Driven by DokuWiki