8 Tipps für aussagekräftige Mitarbeiterbefragungen

Prof. Dr. Torsten Biemann

Lehrstuhl für Personalmanagement und Führung an der Universität Mannheim

Prof. Dr. Heiko Weckmüller
Professor für HR Management am Rhein-Ahr-Campus der Hochschule Koblenz

Acht Tipps: Aussagekraft von Mitarbeiterbefragungen erhöhen — Bild: Veer Im Schnitt werden weniger als fünf Sekunden benötigt, um eine Standardfrage zu beantworten. Achten Sie daher auf verständliche Formulierungen und ein effizientes Fragebogendesign.

Werden die Fragebögen zu Mitarbeiterbefragungen innerhalb der Organisation entwickelt, gilt es einiges zu beachten. In diesem Beitrag schauen wir uns acht Themen sowie Skalen zu Einstellungen und Einschätzungen genauer an. Von der Entwicklung der Items bis hin zur Erhöhung der Rücklaufquote.

Weniger als fünf Sekunden brauchen Teilnehmende im Durchschnitt, um eine Standardfrage in einem Fragebogen zu beantworten. Verständliche Formulierungen und ein effizientes Fragebogendesign sind deswegen bedeutsam, um eine hohe Rücklaufquote und aussagekräftige Ergebnisse zu erhalten. Neuere Ansätze wie Continuous Listening oder Pulse-Befragungen sollen zudem helfen, die Einstellungen und Einschätzungen der Mitarbeitenden häufiger zu erfassen und Änderungen der Stimmung und Sorgen der Belegschaft zeitnah zu erkennen.

Oftmals werden die Fragebögen innerhalb der Organisation entwickelt, was auch durchaus möglich und sinnvoll ist. Gerade bei Eigenkonstruktionen gibt es aber einige Hürden und Probleme, auf die geachtet werden sollte.

Nutzen Sie bereits existierende Fragen und Skalen

Sie müssen bei der Fragebogenkonstruktion das Rad nicht neu erfinden und können für die Messung auf existierende Fragen und Skalen zurückgreifen. Das erleichtert die Fragebogenkonstruktion gleich auf mehrfache Weise:

Erstens konnte bei validierten Skalen bereits gezeigt werden, dass sie zur Erfassung des Konstrukts funktionieren. Ein umfangreiches Testen wie bei selbst entwickelten Skalen bzw. das Risiko nicht funktionierender Skalen entfällt weitestgehend. Zweitens können existierende Skalen die Argumentation innerhalb der Organisation erleichtern. Oftmals entdecken verschiedenste Stakeholder in der Organisation bei der Abstimmung einer Mitarbeiterbefragung ihre Expertise in der Fragenbogenkonstruktion und schlagen alternative Formulierungen vor.

Fragebogenkonstruktion: Wo finde ich existierende Skalen?

Die Verwendung einer existierenden Skala kann helfen, wenig zielführende Diskussionen zu Fragenformulierungen zu verkürzen, da die Skala in der vorliegenden Form validiert wurde und eben nicht einfach verändert werden sollte. Zudem erleichtert die Verwendung von existierenden Skalen die Interpretation der Ergebnisse, sofern bereits vergleichbare Ergebnisse aus anderen Unternehmen öffentlich vorliegen. Antworten zur Vergütung und Vergütungsgerechtigkeit fallen meist schlecht aus, sodass aus dem Vergleich der Antworten innerhalb eines Fragebogens fehlerhafte Rückschlüsse zu erwarten sind.

Leider gibt es keine einzelne Quelle, in der man alle relevanten Skalen finden kann, dazu gibt es einfach zu viele. Wir möchten aber zwei Wege vorschlagen, über die Sie eigentlich für jedes relevante Konstrukt existierende Skalen finden sollten. Eine erste Anlaufstelle ist die Übersicht im Handbook of Management Scales. Dort gibt es eine Auswahl an Skalen, die aber weit von einer Vollständigkeit entfernt ist. Zweitens können Sie über Google Scholar nach Skalen suchen, indem Sie neben dem englischen Namen des Konstrukts (zum Beispiel Engagement oder Psychological Safety) noch scale oder measurement als Suchbegriff eingeben.

Was ist bei der eigenen Fragenformulierung zu beachten?

Wir raten explizit davon ab, eigene Fragen zu entwickeln, wenn bereits Skalen zur Messung existieren. Die Entwicklung und Validierung einer Skala ist ein umfangreicher Prozess, der nicht durch eine Brainstorming-Session ersetzt werden kann, in der man sich schnell ein paar Fragen ausdenkt. Der wissenschaftliche Prozess zur Skalenentwicklung ist sehr schön in Hinkin (1998) beschrieben, in der Personalmanagementpraxis wird dieser umfangreiche Prozess allerdings in den seltensten Fällen umsetzbar sein.

Auf jeden Fall sollten Sie aber bei der Fragenformulierung einen Blick auf die Verständlichkeit haben. Hardy und Ford (2014) unterscheiden drei Fehlerarten beim Verständnis einzelner Fragen: erstens Fehler beim Verstehen der Instruktionen (instructional miscomprehension), zweitens Fehler beim Verstehen der Frage (sentential miscomprehension) und drittens Fehler beim Verstehen einzelner Wörter oder Phrasen (lexical miscomprehension). Empfehlungen der Autoren sind unter anderem (vgl. Hardy/Ford, 2014, S. 154-156):

Vermeidung vager quantitativer Formulierungen wie "viel" oder "oft"
Vermeidung von Wörtern mit unterschiedlichen Bedeutungen, wie zum Beispiel "Glück"
Pretests zur Vermeidung von Verständnisproblemen und Deckeneffekten (fast alle Teilnehmenden stimmen zu).

Wie viele Antwortoptionen sollten verwendet werden?

Bei den meisten Fragen zu Einstellungen und Einschätzungen der Mitarbeitenden gibt es keine fest vorgegebene Anzahl von Antwortmöglichkeiten, und es bestehen Freiheitsgrade bei der Fragebogenentwicklung, wie viele Antwortoptionen letztlich angeboten werden. Ein klassisches Beispiel einer Likert-Skala beinhaltet beispielsweise die folgenden fünf Optionen: (1) stimme überhaupt nicht zu; (2) stimme nicht zu; (3) weder noch; (4) stimme zu; (5) stimme völlig zu.

Aber wie viele Antwortmöglichkeiten sollten geboten werden, um Mitarbeitenden hinreichend viel Spielraum bei den Antworten zu geben, sie gleichzeitig aber nicht zu überfordern? Und sollte die Anzahl der Antwortoptionen gerade sein, damit Teilnehmende gezwungen sind, zumindest eine Tendenz auszudrücken, oder sollte über eine ungerade Anzahl von Antwortoptionen eine mittlere Kategorie enthalten sein? Verschiedene Studien haben untersucht, welche Anzahl von Antwortoptionen die besten Ergebnisse liefert.

Simms und Kollegen (2019) beispielsweise untersuchen Skalen mit zwei bis elf Antwortoptionen und stellen fest, dass sechs Antwortoptionen die präzisesten Ergebnisse liefert, die Unterschiede zu fünf oder sieben Antwortoptionen aber eher marginal sind. Darüber hinaus können sie keine Unterschiede zwischen einer geraden und einer ungeraden Anzahl an Antwortoptionen finden. Zu ähnlichen Ergebnissen kommen auch Lee und Paek (2014), die keine nennenswerten psychometrischen Unterschiede für Items mit vier, fünf oder sechs Antwortoptionen finden.

Interessant ist ein weiteres Ergebnis von Simms et al. (2019), die ebenfalls Skalen mit Schieberegler ("visual analog scales") untersuchen. Wenn Teilnehmende ihre Einschätzung zwischen Ablehnung und Zustimmung feinstufig über einen Schieberegler abgeben können, sind die Ergebnisse so gut wie bei sechs Antwortoptionen – nicht besser, aber auch nicht schlechter. Insgesamt gibt es also keine einzelne Empfehlung für eine bestimmte Anzahl an Antwortoptionen, da die psychometrische Qualität der Antworten mit vier bis sieben Antwortoptionen vergleichbare Ergebnisse liefert. Weniger als vier oder mehr als sieben Optionen werden dagegen nicht empfohlen.

Wie sollten die Antwortoptionen beschriftet sein?

Neben der Anzahl ist auch die Beschriftung der Antwortoptionen eine häufige Frage bei der Konzeption von Mitarbeiterbefragungen. Sollte zum Beispiel die höchste Zustimmung über "stimme voll zu", "stimme stark zu" oder "stimme zu" eingefangen werden? Ein gängiger Kritikpunkt ist, dass die verschiedenen Optionen nicht gleichmäßig verteilt (sondern nur ordinalskaliert) sein könnten und deswegen eine spätere Analyse mit den gängigen statistischen Verfahren schwierig sei, da diese in der Regel ein metrisches Skalenniveau unterstellen, sozusagen die Abstände zwischen den einzelnen Antwortoptionen genau gleich sein müssen.

Eine hilfreiche Studie ist von Casper et al. (2020), in der für verschiedene Fragentypen eine empirische Analyse möglicher Antwortoptionen vorgenommen wird, um so eine Entscheidungshilfe für die Beschriftung der Skalen zu liefern. Eine umfassende Übersicht ist im Appendix von Casper et al. (2020) aufgeführt. Wir haben daraus in Abbildung 1 beispielhaft eine Auswahl möglicher Skalenanker einer fünfstufigen Skala für unterschiedliche Zwecke zusammengestellt. Fragen zur Zustimmung (agreement; zum Beispiel "I enjoy my job.") sind in Forschung und Praxis am häufigsten, gefolgt von Fragen nach der Anzahl (amount; zum Beispiel: "How much effort do you put into your job at work?") und Fragen nach der Häufigkeit (frequency; zum Beispiel: "You speak positively of your job with someone outside of work.").

In der Abbildung sind für jede Kategorie fünf Antwortoptionen dargestellt. Entscheidet man sich zum Beispiel für sieben Antwortoptionen, so sollten die zwei zusätzlichen Optionen nicht einfach zwischen je zwei bestehende Antwortoptionen gepresst werden, sondern – um ungefähr gleiche Abstände zwischen allen Antwortoptionen zu erhalten – ein insgesamt angepasstes Set an Antwortoptionen verwendet werden.

Abb. 1: Beispiele für Sets von Antwortoptionen — Bild: Haufe Online Redaktion Beispiele für Sets von Antwortoptionen.

Wie viele Fragen brauche ich zur Messung eines Konstrukts?

Einige existierende Skalen besitzen eine abschreckend hohe Anzahl an Items, sodass eine Kürzung dieser Skalen für die Mitarbeiterbefragung unvermeidlich erscheint. Wenn Sie weniger Items als in der Originalskala verwenden, besteht allerdings die Gefahr, dass die Reliabilität der Messung schlechter wird oder Sie einzelne Facetten des Konstrukts nicht mehr erfassen können. Wie viele Fragen Sie für die Messung einzelner Konstrukte verwenden sollten, hängt von zwei Faktoren ab:

Einerseits ist der Inhalt des Konstrukts relevant. Denn gerade sehr einfache und eindimensionale Konstrukte lassen sich über sehr wenige Items messen. Tatsächlich gibt es einige Konstrukte, die sich sogar recht gut über ein einzelnes Item erfassen lassen. Wanous, Reichers und Hudy (1997) beispielsweise zeigen, dass ein Item zur Messung von Arbeitszufriedenheit schon ganz gut funktioniert. Für gängige Konstrukte wurden auch schon gut funktionierende Kurzskalen entwickelt, beispielsweise die drei Fragen umfassende Kurzskala zu Work Engagement (UWES-3; Schaufeli et al., 2017). Zweitens sollte die Bedeutung des Konstrukts im Fragebogen bei der Entscheidung über die Skalenlänge in der Mitarbeiterbefragung bedacht werden. Ist die Erfassung zentral, sollten entsprechend mehr Items verwendet werden.

Wie lang sollte der Fragebogen sein?

Ein sehr langer Fragebogen ist schwer in der Organisation umsetzbar und liefert tatsächlich durch eine reduzierte Aufmerksamkeit und Teilnahmebereitschaft nicht unbedingt bessere Ergebnisse. Eine einfache Regel zur maximalen Länge einer Mitarbeiterbefragung existiert aber nicht, da sie von sehr vielen Faktoren abhängig ist, beispielsweise der wahrgenommenen Bedeutung der Mitarbeiterbefragung in der Organisation oder der Unterstützung durch die Unternehmensführung.

Die ungefähre Dauer der Beantwortung lässt sich über einen kleinen Pretest ermitteln oder über die Anzahl der Fragen abschätzen, bei der Sie fünf bis zehn Sekunden pro Item kalkulieren können. Bei Online-Fragebögen ist zudem ein modularer Aufbau leicht umsetzbar, bei dem ein Kern der Fragen für alle Teilnehmenden identisch ist, einzelne Module dagegen nur von Teilen der Belegschaft beantwortet werden.

Wie kann ich feststellen, ob ehrlich und aufmerksam geantwortet wird?

Mitarbeitende könnten beim Fragebogen "durchklicken", ohne die Fragen überhaupt zu lesen, oder bei kritischen Fragen unehrlich antworten. Einige bereits genannte Faktoren im Design des Fragebogens können dieses unerwünschte Verhalten etwas vermeiden, zum Beispiel über einen kurzen Fragebogen, in dem die Anonymität der Teilnehmenden gewährleistet wird. Zusätzlich gibt es verschiedene Techniken, Teilnehmende zu identifizieren, die unachtsam antworten.

Erstens können Items verwendet werden, welche die Aufmerksamkeit der Teilnehmenden testen, sogenannte attention check items. Antworten auf Items wie zum Beispiel "I have never used a computer" oder "respond with strongly disagree for this item" sind Beispiele, allerdings in Mitarbeiterbefragungen begrenzt sinnvoll, da sie im organisationalen Setting befremdlich auf Teilnehmende wirken könnten.

Gut umsetzbar dagegen sind einzelne Items mit umgedrehter Skala (reverse-coded items), bei denen eine starke Zustimmung eine niedrige Ausprägung bedeutet. Im Kurzfragebogen zu den Big-5-Persönlichkeitsdimensionen von Ramstedt und John (2007) beispielsweise schätzen die Teilnehmenden ein: "I see myself as someone who is outgoing, sociable" sowie "I see myself as someone who is reserved". Beide Items messen Extraversion, allerdings bedeutet die Zustimmung zum zweiten Item eine niedrige Ausprägung. Wenn nun Teilnehmende zu beiden Items voll zustimmen oder voll ablehnen, haben sie vermutlich nicht aufmerksam geantwortet.

Zweitens gibt es einige statistische Techniken, um unaufmerksame Teilnehmende zu identifizieren (Curran, 2016). Ein sehr einfaches Maß ist zum Beispiel der Longstring-Index, bei dem die maximale Länge identischer Antworten für jeden Teilnehmenden berechnet wird. Klickt jemand beispielsweise 20 mal nacheinander auf "5 - stimme voll zu", beträgt dessen Longstring-Wert 20. Teilnehmende mit sehr hohen Werten könnten dann von weiteren Analysen ausgeschlossen werden, da ein unachtsames Ausfüllen wahrscheinlich ist.

Wie kann ich die Rücklaufquote bei Mitarbeiterbefragungen erhöhen?

Eine hohe Rücklaufquote ist immer wünschenswert, da sich mit steigender Teilnehmerzahl die Möglichkeit genauerer statistischer Analysen wie auch die Repräsentativität der Stichprobe erhöht. Zudem bestehen viele Betriebsräte darauf, dass Auswertungen auf Team- oder Abteilungsebene erst ab einer Mindestteilnehmerzahl erfolgen.

Einen Überblick zu den Faktoren, die auf die Rücklaufquote einwirken, geben Fan und Yan (2010). Sie können verschiedene Faktoren identifizieren, die positiv auf die Rücklaufquote wirken, unterteilt in Faktoren bei der Entwicklung des Fragebogens (zum Beispiel kurze Fragebögen und interessante Themen), bei der Durchführung zum Beispiel Anreize und Verlosungen) sowie beim Ausfüllen durch die Teilnehmenden (zum Beispiel wahrgenommener Nutzen durch die Teilnehmerinnen und Teilnehmer). Die schon zuvor empfohlenen Pretests helfen auch bei der Erhöhung der Rücklaufquote. Für einen Überblick zu Trends und erwarteten Rücklaufquoten empfehlen wir Holtom et al. (2022).

Bei Mitarbeiterbefragungen könnte zusätzlich ein non-response bias wirken, dass zum Beispiel gerade sehr unzufriedene Mitarbeitende den Fragebogen beantworten und so das Gesamtbild verzerrt wird. Es ist kaum möglich, solche Verzerrungen generell auszuschließen. Ein schneller Weg, um zu überprüfen, ob tatsächlich ein verzerrtes Bild entsteht, ist die Analyse der Zeitpunkte, zu denen die Antworten eingegangen sind. Es ist zu vermuten, dass über bestimmte Aspekte sehr verärgerte Mitarbeitende nicht lange warten und die Befragung direkt angehen.

Vergleicht man nun die Gruppe derjenigen, die am ersten Befragungstag geantwortet hatten, mit späteren Antworten, können daraus Indizien für einen non-response bias abgeleitet werden. Ein Vergleich der demografischen Charakteristika in der gesamten Organisation mit den Charakteristika der Stichprobe kann ebenfalls hilfreiche Erkenntnisse liefern, zum Beispiel, ob verstärkt Mitarbeitende einer Altersgruppe teilgenommen haben.

Zusammenfassung und Schlussfolgerungen

Greifen Sie, sofern möglich, auf existierende Fragebögen zurück, die wissenschaftlich validiert sind.
Fünf bis sieben Antwortoptionen sind optimal. Ob die Anzahl gerade oder ungerade ist, ist nicht wichtig. Feinstufigere und benutzerfreundliche Einstufungen über "Schieberegler" führen zu qualitativ ähnlichen Ergebnissen.
Der eigentlichen Befragung sollte ein Pretest mit 20 bis 30 Teilnehmenden vorgeschaltet werden.

Dieser Beitrag ist erschienen im Wissenschaftsjournal PERSONALquarterly 2/2023. Die Ausgabe hat das Schwerpunktthema "Wie Teams und künstliche Intelligenz erfolgreich zusammenarbeiten".

Mehr Informationen und Tipps finden Sie in unserem Top-Thema Mitarbeiterbefragungen.

Literaturverzeichnis:

Casper, W./Edwards, B. D./Wallace, J. C./Landis, R. S./Fife, D. A. (2020): Selecting response anchors with equal intervals for summated rating scales. Journal of Applied Psychology, 105(4), 390.

Curran, P. G. (2016): Methods for the detection of carelessly invalid responses in survey data. Journal of Experimental Social Psychology, 66, 4-19.

Fan, W./Yan, Z. (2010): Factors affecting response rates of the web survey: A systematic review. Computers in Human Behavior, 26(2), 132-139.

Hardy, B./Ford, L. R. (2014): It’s Not Me, It’s You – Miscomprehension in Surveys. Organizational Research Methods, 1094428113520185.

Hinkin, T. R. (1998): A brief tutorial on the development of measures for use in survey questionnaires. Organizational Research Methods, 1(1), 104-121.

Holtom, B./Baruch, Y./Aguinis, H./Ballinger, G. A. (2022): Survey response rates: Trends and a validity assessment framework. Human Relations, 75(8), 1560–1584.

Lee, J./Paek, I. (2014): In search of the optimal number of response categories in a rating scale. Journal of Psychoeducational Assessment, 32(7), 663-673.

Rammstedt, B./John, O. P. (2007): Measuring personality in one minute or less: A 10-item short version of the Big Five Inventory in English and German. Journal of Research in Personality, 41(1), 203–212.

Schaufeli, W. B./Shimazu, A./Hakanen, J./Salanova, M./De Witte, H. (2017): An ultra-short measure for work engagement. European Journal of Psychological Assessment.

Simms, L. J./Zelazny, K./Williams, T. F./Bernstein, L. (2019): Does the number of response options matter? Psychometric perspectives using personality questionnaire data. Psychological Assessment, 31(4), 557–566.

Wanous, J. P./Reichers, A. E./Hudy, M. J. (1997): Overall job satisfaction: how good are single-item measures? Journal of Applied Psychology, 82(2), 247.