PQ State of the Art: Subjektive Leistungsbeurteilung

Angesichts der Herausforderungen der VUCA-Welt wird über das bislang gängige Performance Management diskutiert. Wie zutreffend sind Leistungsbeurteilungen durch Vorgesetzte und wie verhält es sich mit den Abweichungen zwischen der Fremdeinschätzung durch Vorgesetzte und der Selbsteinschätzung der betreffenden Mitarbeitenden? Kann die Bewertungsgüte durch Trainingsmaßnahmen verbessert werden?

Über viele Jahre waren Zielvereinbarungen der Goldstandard im Performance Management. "SMARTe" Ziele (Specific Measurable Achievable Reasonable Time Bound) haben im Rahmen von Management-by-Objectives zur Objektivierung individueller Leistungen beigetragen. Subjektive Leistungsbeurteilungen waren hingegen wegen ihrer inhärenten Ungerechtigkeit als "Nasenfaktor" verpönt. Wissenschaftlich gestützt wurden diese Ansätze durch die umfangreichen empirischen Befunde zur Wirksamkeit transaktionaler Führung (Dumdum/Lowe/Avolio, 2013) und von Zielen (zum Beispiel Mento/Steel/Karren, 1987; Kleingeld/van Mierlo/Arends, 2011).

Performance Management: Kritik an klassischen Zielvereinbarungen

In den letzten Jahren ist allerdings zunehmend Kritik an Zielvereinbarungen aufgekommen. Insbesondere seien sie zu unflexibel für die durch Unsicherheit und Volatilität geprägte "VUCA-Welt". "Die klassische Zielvereinbarung ist nutzlos", titelte beispielsweise das Managermagazin schon 2011 (Endres, 2011). Besondere Aufmerksamkeit erlangte das Thema wieder durch die grundlegenden Veränderungen des Performance Managements der Robert Bosch GmbH, bei der finanzielle Boni von individuellen Zielvereinbarungen entkoppelt wurden (Personalmagazin, 7/2019). Als Ersatz dienen unter anderem sogenannte Spot-Boni, bei denen Führungskräfte auf Basis ihrer subjektiven Bewertung individuelle Leistungen unmittelbar honorieren. Neben diesem Trend in der Praxis zeigte auch die weitergehende Forschung zu Zielvereinbarungen, dass deren Wirksamkeit vom Kontext abhängt. Bei komplexen Tätigkeiten beispielsweise ist die Wirkung von Zielen geringer als bei einfachen Aufgaben (Wood/Mento/Locke, 1987).  

Vor dem Hintergrund dieser Überlegungen wollen wir auf folgende Themen eingehen: Zunächst beschäftigen wir uns allgemein mit der Güte der Beurteilungen durch Vorgesetzte. Anschließend betrachten wir vertiefend die Abweichungen zwischen der Fremdeinschätzung durch Vorgesetzte und der Selbsteinschätzung der betreffenden Mitarbeiter und die daraus resultierenden Konsequenzen zum Beispiel für die Kommunikation und Verantwortung von Beurteilungsergebnissen. Abschließend beschäftigen wir uns mit der Frage, ob die Bewertungsgüte durch Trainingsmaßnahmen verbessert werden kann. Unser Hauptaugenmerk liegt auf den Leistungsbeurteilungen im Rahmen des Performance Managements. Beurteilungen sind auch in anderen Kontexten relevant, zum Beispiel bei der Beobachtung in Assessment Centern zur Personalauswahl. In diesem Sinne sind nicht alle der im Folgenden aufgeführten und metaanalytisch hinterlegten Befunde auf Leistungsbeurteilungen begrenzt.

Leistungsbeurteilung durch Vorgesetzte und andere Gruppen

Wie stark weichen Beurteilungen durch verschiedene Personen voneinander ab? Diese Frage beantworten James M. Conway und Allen I. Huffcutt (1997) in einer Metaanalyse zur Übereinstimmung, das heißt zur Reliabilität, zwischen unterschiedlichen Bewertungsgruppen (Vorgesetzte, Kollegen, Selbsteinschätzung). Die Reliabilität kann über die Korrelation der Urteile verschiedener Personen gemessen werden, wobei die Werte wie bei allen Korrelationskoeffizienten zwischen -1 und +1 liegen können. Je höher die Reliabilität, umso stärker ist die Übereinstimmung der Urteile. Wenn zwei Personen genau gleich urteilen, das heißt, deren Bewertungen perfekt positiv korreliert sind, ist die maximale Reliabilität von 1 erreicht. Theoretisch sind auch negative Korrelationen denkbar, was aber bedeuten würde, dass diejenigen Mitarbeiter, die von Beurteiler A als in ihrer Leistung überdurchschnittlich bewertet werden, von Beurteiler B tendenziell als unterdurchschnittlich bewertet werden. Entsprechend sind die errechneten Koeffizienten in der Regel positiv.

Eine hohe Reliabilität der Urteile ist eine Voraussetzung für die Nützlichkeit von Beurteilungen, denn wenn es überhaupt keine Übereinstimmung der Beurteilung gibt, könnte man die Ergebnisse auch würfeln. Eine sich anschließende Frage ist, inwieweit die Beurteilungen nicht nur reliabel sind, sondern ebenfalls das messen, was gemessen werden soll. Selbst wenn Beurteiler übereinstimmen, könnten sie systematisch auf die falschen Aspekte schauen. Dann gäbe es zwar eine hohe Reliabilität, aber eine geringe Validität. Man würde zwar genau messen, aber leider das Falsche. Die Validität kann verstanden werden als die Prognosekraft der Beurteilungen, zum Beispiel inwieweit die Beurteilungen vorhersagen können, welche Leistung von den Mitarbeitern in den kommenden Jahren erwartet werden kann oder auch inwieweit Beförderungen, Lohnerhöhungen etc. vorhergesagt werden können. Eine hohe Validität würde dann bedeuten, dass die Beurteiler sehr gut darin sind, diejenigen Mitarbeiter zu identifizieren, die in den kommenden Jahren eine hohe Leistung erbringen und befördert werden sollten. Diese Validitätsbetrachtung lässt sich für Leistungsbeurteilungen allerdings nur eingeschränkt nutzen, da die Beurteilungsergebnisse selbst als Datenbasis für diese Entscheidungen dienen.

Wenn zwei oder mehr Vorgesetzte dieselben Mitarbeiter beurteilen, liegt die Korrelation zwischen deren Beurteilungen bei durchschnittlich r=0,50 (vgl. Abbildung 1). Dieser Wert kann als zufriedenstellend charakterisiert werden. (Anmerkung: In der psychologischen Testtheorie werden Faustregeln für die Einschätzung der Reliabilität verwendet. Danach werden Reliabilitätskoeffizienten unter 0,7 als "problematisch" eingestuft. Allerdings sind diese Werte für die Gestaltung von Fragebögen und insbesondere die Test-Retest-Reliabilität, das heißt die Übereinstimmung der Messwerte zu zwei unterschiedlichen Zeitpunkten, formuliert. Insofern sind diese Faustregeln nicht unmittelbar übertragbar auf unsere Fragestellung und wir weichen in diesem Punkt bei der Interpretation von den etablierten Konventionen ab.)

Reliabilität von Beurteilungen

Von einem ausgeprägten "Nasenfaktor" kann somit nicht gesprochen werden. Beurteilungen zwischen verschiedenen Vorgesetzten sind zudem konsistenter, als wenn Beurteilungen von Kollegen vorgenommen werden (r=0,37) oder wenn Mitarbeiter ihre Führungskräfte beurteilen (r=0,30). Als Vergleich kann auch die Reliabilität der Urteile zwischen den Personengruppen herangezogen werden. Diese Reliabilitäten zwischen den Gruppen liegen gemäß der Metaanalyse von Conway und Huffcutt (1997) unter der oben dargestellten Reliabilität innerhalb der Gruppen (zum Beispiel Vorgesetzte-Kollegen r=0,34; Vorgesetzte-Mitarbeiter: r=0,22; Mitarbeiter-Kollegen: r=0,22). Fragt man also innerhalb eines Unternehmens nach der Leis­tung eines bestimmten Mitarbeiters, so ist die Übereinstimmung der Beurteilungen innerhalb der Führungskräfte oder innerhalb der Kollegen größer als die Übereinstimmung der Beurteilungen von Führungskräften mit den Beurteilungen der Kollegen.

Abbildung 1 zeigt zudem Bedingungen, unter denen die Einschätzung der Vorgesetzten besser oder schlechter als der Durchschnittswert von r=0,50 ausfällt. Je geringer die Komplexität der Aufgaben, umso höher ist die Reliabilität. Leider erweisen sich Beurteilungen gerade in den Bereichen als vorteilhaft, in denen auch Zielvereinbarungen bessere Ergebnisse zeigen, eine Komplementarität der Instrumente ist also nicht gegeben. 

Vorgesetzteneinschätzung und Selbsteinschätzung

Bislang haben wir die Güte der Beurteilungen durch verschiedene Gruppen und insbesondere Führungskräfte diskutiert. In diesem Abschnitt wollen wir uns auf den Zusammenhang dieser Urteile mit der Selbsteinschätzung der Beurteilten konzentrieren, wobei wir auf die Ergebnisse der Metastudie von Heike Heidemeier und Klaus Moser (2009) eingehen. Die Autoren finden auf der Basis von 115 Einzelstudien (mit n=37.752 Beurteilungsvergleichen) eine durchschnittliche korrigierte Korrelation von r=0,34. Selbsteinschätzung und Vorgesetztenbeurteilung weichen somit stärker voneinander ab als die Beurteilungen durch verschiedene Vorgesetzte (r=0,50 wie oben im Text beschrieben). Auch hier untersuchen die Autoren Faktoren, die die Höhe der Korrelation beeinflussen. Bezogen auf die Komplexität der Aufgaben zeigt sich, dass die Korrelation bei Aufgaben mit geringer Komplexität besonders hoch ist. 

Heidemeier und Moser (2009) untersuchen neben der Korrelation auch das Niveau der Urteile: Ist die Selbsteinschätzung durchschnittlich strenger oder weniger streng als die Vorgesetztenbeurteilung? Beide Maße sind grundsätzlich unabhängig voneinander: Auch bei einer durchgängigen Selbstüberschätzung oder Selbstunterschätzung kann sich eine perfekte Korrelation mit dem Vorgesetztenurteil ergeben. Im Durchschnitt schätzen sich die Beschäftigten selbst besser ein als ihre Vorgesetzten (d=0,32, also eine kleine bis mittlere Effektstärke). 

Begründungszwang erhöht die durchschnittliche Bewertung

Unternehmen setzen unterschiedliche Methoden ein, mit denen Führungskräfte die Ergebnisse ihrer Bewertungen gegenüber anderen vertreten müssen. Im Rahmen von Leis­tungsbeurteilungen wird man mindestens erwarten, dass Führungskräfte die Ergebnisse gegenüber den bewerteten Mitarbeitern begründen, was bei Bewertungen zum Beispiel im Rahmen der Personalauswahl nicht zwingend gegeben sein muss. Führungskräfte können aber auch im Rahmen von Bewertungskonferenzen gezwungen sein, ihre jeweilige Bewertung in einer Gruppe öffentlich oder aber gegenüber ihren eigenen Vorgesetzten zu erklären. Michael B. Harari und Cort W. Rudolph (2017) untersuchen die Wirkung dieser Verantwortlichkeit in einer Metaanalyse, die experimentelle Einzelstudien sowohl aus Labor- als auch aus Feldexperimenten berücksichtigt. Dabei zeigt sich, dass die Bewertungsergebnisse besser ausfallen, wenn die Begründung gegenüber der bewerteten Person erfolgen muss (d=0,28). Dies ist vor dem Hintergrund der oben ausgeführten Ergebnisse zur Diskrepanz zwischen Selbst- und Fremdeinschätzung unmittelbar einleuchtend: Führungskräfte wollen die soziale Beziehung zu ihren Mitarbeitern nicht gefährden, indem sie eine Bewertung abgeben, die deutlich unter deren Selbsteinschätzung liegt. Der Begründungszwang gegenüber Vorgesetzten hingegen verändert die Bewertung nahezu gar nicht (d=-0,06). Es ist nicht ganz einfach, aus diesen Befunden praxistaugliche Handlungsempfehlungen abzuleiten, da es unmöglich erscheint, dass Führungskräfte auf die Begründung und Diskussion der Ergebnisse von Leistungsbeurteilungen gegenüber Mitarbeitern verzichten. Möglich wäre unter Umständen, Bewertungen durch Bewertungskonferenzen, an denen mehrere Führungskräfte beteiligt sind, final festzulegen und dem direkten Vorgesetzten das qualitative Feedback an die Mitarbeiter zu überlassen.

Frame-of-Reference-Training zur Verbesserung der Qualität von Beurteilungen

Die Qualität von Vorgesetztenbeurteilungen ist im Durchschnitt zufriedenstellend. Damit Beurteilungen zu Recht einen festen Platz im betrieblichen Performance Management erhalten, ist eine Verbesserung der Beurteilungsgüte empfehlenswert. Können Trainingsmaßnahmen helfen und wie müssen entsprechende Weiterbildungsmaßnahmen ausgestaltet sein? In einer frühen Metaanalyse (Woehr/Huffcutt, 1994), in der unterschiedliche betriebliche Beurteilungssituationen (zum Beispiel auch subjektive Beurteilung  im Rahmen der Personalauswahl) untersucht wurden, zeigten sich durchgängig positive Effekte unterschiedlicher Trainingsmaßnahmen, wobei das Bezugsrahmentraining (Frame-of-Reference-Training) den größten positiven Effekt aufwies. Im Bezugsrahmentraining erhalten die Trainingsteilnehmer Vorgaben für konkrete Bewertungssituationen zum Beispiel als Musterzuordnungen von konkreten Verhaltensweisen zu festgelegten Bewertungsstufen. Dadurch werden konsistente Referenzpunkte erlernt, die anschließend mithilfe praxisnaher Situationen eingeübt und mit den Musterbewertungen abgeglichen werden. Das Ziel ist also vergleichbar mit der Verwendung von behaviorally anchored rating scales (BARs) zur Leistungsmessung, bei denen die einzelnen Leistungsklassen genauer beschrieben werden, um allen Beurteilern vergleichbare Referenzpunkte zu geben. 

In einer neueren Metaanalyse untersuchen Sylvia Roch und Kollegen (2012) die Effektivität von Trainingsmaßnahmen zur Erhöhung der Qualität von Leistungsbewertungen. Betrachtet werden wieder nicht nur Ergebnisse von Leistungsbeurteilungen, sondern auch andere Beurteilungssituationen, wodurch auch Vergleiche zwischen den Anwendungsfeldern möglich sind. Übergreifend zeigt das Training eine Verbesserung der Bewertungsgenauigkeit im Vergleich zu einer Kontrollgruppe bei mittlerer Effektstärke (d=0,50). Im Rahmen von Leistungsbeurteilungen ist der Effekt geringfügig kleiner (d=0,45). Kritisch anzumerken ist, dass die Mehrzahl der berücksichtigten Einzelstudien mit Studierenden als Probanden durchgeführt wurde und nicht im realen betrieblichen Umfeld stattfand. 

Zusammenfassung und Schlussfolgerungen
 

  • Beurteilungen durch Vorgesetzte weisen gemessen an der Reliabilität, das heißt der Übereinstimmung der Beurteilung verschiedener Vorgesetzter, zufriedenstellende Ergebnisse auf.
  • Selbsteinschätzungen und Vorgesetztenbeurteilungen sind nur schwach miteinander korreliert, wobei die Selbsteinschätzungen im Durchschnitt über den Vorgesetztenbeurteilungen liegen.
  • Die Qualität der Beurteilungen kann durch Trainingsmaßnahmen und insbesondere durch Bezugsrahmentraining (Frame-of-Reference-Training) verbessert werden.

Dieser Beitrag ist erschienen im Wissenschaftsjournal PERSONALquarterly 4/2020. Hier gelangen Sie zur Ausgabe zum Thema "Corporate Entrepreneurship".


Literaturverzeichnis:

Conway, J. M./Huffcutt, A. I. (1997): Psychometric Properties of Multisource Performance Ratings: A Meta-Analysis of Subordinate, Supervisor, Peer, and Self-Ratings. Human Performance, 10(4): 331-360.

Dumdum, U. R./Lowe, K. B./Avolio, B. J. (2013): A Meta-Analysis of Transformational and Transactional Leadership Correlates of Effectiveness and Satisfaction: An Update and Extension. In: Avolio, B. J./ Yammariono, F. Y. (edts.): Transformational and Charismatic Leadership: The Road Ahead, 10th Anniversary Edition Emerald Group Publishing Limited, 39-70. 

Endres, H. (2011): Warum Zielvereinbarungen oft nutzlos sind. https://www.manager-magazin.de/unternehmen/karriere/a-745833.html

Harari, M. B./Rudolph, C. W. (2017): The Effect of Rater Accountability on Performance Ratings: A Meta-Analytic Review. Human Resource Management Review, 27(1): 121-133.

Heidemeier, H./Moser, K. (2009): Self-Other Agreement in Job Performance Ratings: A Meta-Analytic Test of a Process Model. Journal of Applied Psychology, 94(2): 353-370.

Kleingeld, A./van Mierlo, H./ Arends, L. (2011): The Effect of Goal Setting on Group Performance: A Meta-Analysis. Journal of Applied Psychology, 96(6): 1289-1304.
Mento, A. J./Steel, R. P./ Karren, R. J. (1987): A Meta-Analytic Study of the Effects of Goal Setting on Task Performance: 1966–1984. Organizational Behavior and Human Decision Processes, 39(1): 52-83.

Personalmagazin (2019): Geld alleine ist relativ unbedeutend. Interview von Stefanie Hornung mit Uwe Schirmer. Personalmagazin 07(2019): 36-41.

Roch, S. G./Woehr, D. J./Mishra, V./Kieszczynska, U. (2012): Rater Training Revisited: An Updated Meta-Analytic Review of Frame-of-reference Training. Journal of Occupational and Organizational Psychology, 85(2): 370-395.

Woehr, D. J./Huffcutt, A. I. (1994): Rater Training for Performance Appraisal: A Quantitative Review. Journal of Occupational and Organizational Psychology, 67(3): 189-205.

Wood, R. E./Mento, A. J./Locke, E. A. (1987): Task Complexity as a Moderator of Goal Effects: A Meta-Analysis. Journal of Applied Psychology, 72(3): 416-425.