BFH Beschluss vom 05.05.1999 - VII B 343/98 (NV) | Finance Office Professional | Finance

Entscheidungsstichwort (Thema)

Bewertung von Prüfungsleistungen - Keine Orientierung an Durchschnittswerten

Leitsatz (NV)

Zwischen einer Prüfung nach der Approbationsordnung für Ärzte nach dem Antwort-Wahl-Verfahren und der schriftlichen Steuerberaterprüfung bestehen entscheidende Unterschiede. Wer sich auf eine Divergenz zur Rechtsprechung des BVerfG zu jener Prüfung berufen will, muß deshalb darlegen, inwieweit beide Prüfungen vergleichbar sind.
Es wäre sinnwidrig, aus den in der Steuerberaterprüfung von den einzelnen Prüfern vergebenen Noten einen statistischen Durchschnittswert zu bilden und an diesem das Prüfungsergebnis eines anderen Prüflings zu messen. Ein solches Verfahren würde die Bewertungsfreiheit des Prüfers in nicht sachgerechter Weise beschränken und die Verantwortung der Prüfer für die Prüfungsentscheidung verwischen.
Vom Gericht ist zu prüfen, ob bei der Formulierung von Prüfungsaufgaben oder der Bewertung der Prüfungsleistungen von den Prüfern überhöhte Anforderungen gestellt worden sind. Die Höhe der Quote der Bewerber, welche die Prüfung nicht bestanden haben, kann als Indiz dafür herangezogen werden. Sie ist niemals allein ausreichend, um den Schluß darauf zu gestatten, die Prüfer hätten sachfremde Erwägungen angestellt.
Komplexe prüfungsspezifische Bewertungen müssen im Gesamtzusammenhang des Prüfungsverfahrens von den Prüfern getroffen werden; diesen ist nach wie vor ein entsprechender Bewertungsspielraum zuzubilligen.

Normenkette

Tatbestand

Der Kläger und Beschwerdeführer (Kläger) hat die Steuerberaterprüfung 1996 aufgrund der Bewertung seiner schriftlichen Prüfungsarbeiten nicht bestanden. Die deswegen erhobene Klage hat das Finanzgericht (FG) abgewiesen und zur Begründung seiner Entscheidung im wesentlichen folgendes ausgeführt:

Es sei nicht zu erkennen, daß die Prüfungsanforderungen in bezug auf Bewertung und Aufgabenstellung der Arbeiten überspannt gewesen seien. Die Mißerfolgsquote habe bei 40,7 % gelegen; die vom Kläger unter Einbeziehung der zurückgetretenen Prüfungskandidaten ermittelte Quote von 63 % sei spekulativ, weil nicht bekannt sei, welche Gründe die Kandidaten zum Rücktritt veranlaßt hätten. Überdies sei die Höhe der Durchfallquote kein Indiz für übersteigerte Prüfungsanforderungen. Besondere Umstände, wie sie dem FG bei der Steuerberaterprüfung 1995 Anlaß gegeben hätten, einen Verfahrensfehler anzunehmen ―besonders hohe Mißerfolgsquote von 46,3 %, insbesondere in Verbindung mit der Korrektur des Bewertungsschemas bei einer der Klausuren in einem Nachbarland―, lägen bei der Steuerberaterprüfung 1996 nicht vor. Hinzu komme, daß eine Verbesserung des Notenrahmens nur schwerlich zur Zulassung des Klägers zur mündlichen Prüfung führen könne.

Gegen die Nichtzulassung der Revision in diesem Urteil richtet sich die Beschwerde des Klägers, mit der grundsätzliche Bedeutung und Divergenz geltend gemacht werden.

Der Beklagte und Beschwerdegegner (die Finanzbehörde) trägt sinngemäß vor, die Beschwerde sei unbegründet.

Entscheidungsgründe

Die Beschwerde hat keinen Erfolg. Die Rechtssache hat weder die ihr vom Kläger beigemessene grundsätzliche Bedeutung noch weicht das Urteil des FG von den in der Beschwerdeschrift bezeichneten Entscheidungen des Bundesverfassungsgerichts (BVerfG) ab (§ 115 Abs. 2 Nr. 1 und 2 der Finanzgerichtsordnung ―FGO―).

1. Ohne Erfolg versucht der Kläger die Zulassung der Revision nach § 115 Abs. 2 Nr. 2 FGO damit zu erstreiten, daß er vorträgt, das FG habe nicht "den Gedankengang des BVerfG aus dem Beschluß vom 14. März 1989 1 BvR 1033/82 und 174/84 (BVerfGE 80, 1) berücksichtigt". Dort habe das BVerfG eine absolute Bestehensregel in der berufszulassenden Prüfung für Ärzte (§ 14 Abs. 5 der Approbationsordnung für Ärzte i.d.F. von 1978 ―AppOÄ―) als verfassungsrechtlich nicht haltbar eingestuft und eine relative Bestehensregel gefordert, die die Durchfallquote abmildere; der Kläger habe mit seinem erstinstanzlichen Vorbringen nichts anderes entworfen als eine solche relative Bestehensregel.

Dieses Vorbringen genügt schon nicht den Anforderungen des § 115 Abs. 3 Satz 3 FGO. Der Kläger ist nicht in einer Prüfung nach der AppOÄ, sondern in der (schriftlichen) Steuerberaterprüfung gescheitert. Wenn er sich auf die Rechtsprechung des BVerfG zu jener Prüfung berufen will, hätte er deshalb zumindest darlegen müssen, inwiefern diese ihrer Struktur nach und insbesondere hinsichtlich des davon abhängigen Bewertungsvorganges der Steuerberaterprüfung vergleichbar ist. Dazu bestand um so mehr Anlaß, als offenkundig entscheidende Unterschiede zwischen den beiden Prüfungen bestehen. Denn die ärztliche Prüfung, auf die sich der Beschluß des BVerfG in BVerfGE 80, 1 bezieht, wendet ein Antwort-Wahl-Verfahren an, so daß nach Abgabe der Prüfungsbögen keine wertende Beurteilung der Prüfungsleistung mehr stattfindet, sondern nur die Zahl der richtigen Antworten des Prüflings festzustellen und aufgrund dieser Feststellung nach einer generell und abstrakt festgelegten Regel über die Bewertung der Prüfungsleistung zu entscheiden ist. Die Steuerberaterprüfung wendet hingegen kein Antwort-Wahl-Verfahren an, auch wenn sie ―wie es der Lösung einfacher, im wesentlichen rechtsdogmatischer Aufgaben eigentümlich ist― den Prüflingen weniger Antwortspielräume läßt als andere Prüfungen und auch wenn in der Steuerberaterprüfung im allgemeinen starkes Gewicht auf der Benennung und Anwendung der jeweils einschlägigen Rechtsvorschriften liegt (vgl. Beschluß des Senats vom 9. März 1999 VII S 14/98, nicht veröffentlicht).

Selbst wenn man aber von den Mängeln der Beschwerdebegründung absieht, ist ein Grund für die Zulassung der Revision nach § 115 Abs. 2 Nr. 2 FGO nicht zu erkennen. Das BVerfG hat in der von der Beschwerde in diesem Zusammenhang angeführten Entscheidung die absolute Bestehensregel des § 14 Abs. 5 der AppOÄ i.d.F. von 1978 verfassungsrechtlich beanstandet. Eine solche absolute Bestehensregel ist vom FG im Streitfall nicht angewandt worden und wird auch in dem einschlägigen Steuerberatungsrecht nicht aufgestellt.

Das BVerfG hat ferner verlangt, daß die Bestehensgrenze sich nicht allein aus einem Vomhundertsatz der geforderten Antworten ergeben dürfe ―also nach einer absoluten Bestehensregel bestimmt werden dürfe―, sondern in einem Verhältnis zu einer möglichen Höchstleistung oder zu einer Normalleistung stehen müsse; es hat als erforderlich angesehen, daß die Durchschnittsergebnisse eines oder mehrerer Prüfungstermine oder ähnliche statistische Entscheidungshilfen ―also relative Bestehensregeln― in die Ergebnisberechnung einbezogen werden. Diese Erwägungen des BVerfG beziehen sich jedoch auf ein Prüfungsverfahren, bei dem die Bewertung der individuellen Prüfungsleistung gleichsam mathematisch genau nach abstrakt und generell vorher festgelegten Maßstäben erfolgt, so daß das Prüfungsergebnis weder von der individuellen, höchstpersönlichen Wertung einzelner Prüfer abhängt noch von den Prüfern Schwankungen des Schwierigkeitsgrades der Prüfungsaufgabe bei der Bewertung der Prüfungsleistungen ausgeglichen werden können. Diesen wesentlichen Unterschied zu einer herkömmlichen Prüfung ―wie der Steuerberaterprüfung― hat das BVerfG ausdrücklich hervorgehoben; seine Überlegungen beruhen maßgeblich auf diesem Unterschied. Da die vom BVerfG bei der ärztlichen Prüfung vorgefundenen Gegebenheiten denen bei einer Steuerberaterprüfung nicht gleichen, steht es nicht im Widerspruch zu der angeführten Entscheidung des BVerfG, wenn das FG im Streitfall die Überprüfung der Leistung des Klägers an einer Normal- oder Durchschnittsleistung nicht für geboten gehalten hat und das Prüfungsergebnis des Prüfungstermins an den Durchschnittsergebnissen anderer Prüfungstermine oder anhand ähnlicher statistischer Entscheidungshilfen nicht gemessen hat.

Es wäre auch sinnwidrig, aus den in der Steuerberaterprüfung von den einzelnen Prüfern nach deren höchstpersönlicher, prüfungsspezifischer Bewertung der individuellen Prüfungsleistung von ihnen begutachteter Prüflinge vergebenen Noten einen statistischen Durchschnittswert zu bilden und an diesem das Prüfungsergebnis eines anderen Prüflings zu messen. Denn aufgrund eines solchen Durchschnittswerts könnte der unter Umständen unterschiedliche Schwierigkeitsgrad der Aufgabenstellung in unterschiedlichen Prüfungsterminen schon deshalb nicht ―wie vom BVerfG für die ärztliche Prüfung verlangt und für möglich gehalten― ausgeglichen werden, weil ein solcher Ausgleich bei rechtmäßiger Handhabung des Prüfungsverfahrens bereits von den einzelnen Prüfern bei der Bewertung der einzelnen Prüfungsleistungen vorweggenommen ist und sich anhand von statistischen Werten nicht hinreichend zuverlässig ermitteln läßt, inwiefern ein solcher Ausgleich noch vonnöten ist.

Überdies würde die Überprüfung der Bewertung der einzelnen Prüfungsleistung an einem solchen Durchschnittswert die Bewertungsfreiheit des einzelnen Prüfers bzw. der von der Verordnung zur Durchführung der Vorschriften über Steuerberater, Steuerbevollmächtigte und Steuerberatungsgesellschaften (DVStB) mit der Abnahme der Prüfungen betrauten Prüfungskommission in einer rechtlich ebensowenig gebotenen wie sachgerechten Weise beschränken und die Verantwortung der Prüfer für die Prüfungsentscheidung und die von ihnen an den für die erfolgreiche Ausübung eines steuerberatenden Berufes notwendigen Ausbildungsstand gestellten Anforderungen verwischen. Bereits das Bundesverwaltungsgericht (BVerwG) hat hierzu mit Recht darauf hingewiesen, daß mit der Anerkennung des prüfungsrechtlichen Bewertungsspielraums in den durch die höchstrichterliche Rechtsprechung gezogenen Grenzen in Kauf genommen werde, daß verschiedene Prüfer dieselbe Prüfungsleistung unterschiedlich bewerten. Dies beinhalte keinen Verstoß gegen den Grundsatz der Chancengleichheit, der die Herstellung völliger tatsächlicher Gleichheit weder gebiete noch realistischerweise überhaupt versprechen könne. Ein Ausgleich für die in der Person der Prüfer liegenden unterschiedlichen Bewertungstendenzen sei vielmehr darin angelegt, daß im allgemeinen die Abnahme der Prüfungsleistungen durch Prüfungskommissionen vorgesehen ist. Der Gesetzgeber gehe offenbar davon aus, daß sich in solchen Gremien strenge und weniger strenge Bewertungen einzelner Prüfer so weit wie möglich ausgleichen (BVerwG-Beschluß vom 11. August 1998 6 B 49.98, Neue Zeitschrift für Verwaltungsrecht 1999, 74). Dies gilt aufgrund der eben angeführten Regelungen der DVStB insbesondere auch für die Steuerberaterprüfung.

2. Die angebliche Abweichung des Urteils des FG von den Beschlüssen des BVerfG vom 17. April 1991 1 BvR 419/81 und 213/83 (BVerfGE 84, 34) und 1 BvR 1529/84 und 138/87 (BVerfGE 84, 59) liegt jedenfalls nicht vor. In dem Beschluß in BVerfGE 84, 34 hat das BVerfG die Rechtsprechung der Verwaltungsgerichte zum Bewertungsspielraum der Prüfungsbehörden für mit Art. 19 Abs. 4 des Grundgesetzes (GG) vereinbar erklärt, soweit es um prüfungsspezifische Bewertungen geht ―also das auf Einschätzungen und Erfahrungen, die die Prüfer im Laufe ihrer Examenspraxis bei vergleichbaren Prüfungen entwickelt haben und fallbezogen anwenden müssen, beruhende Urteil insbesondere über die Schwierigkeit der Prüfungsaufgabe und über die Benotung der Leistung des einzelnen Prüflings―. Insoweit hat das BVerfG den Prüfungsbehörden ausdrücklich eine Letztentscheidungskompetenz zugebilligt (BVerfG-Beschluß in BVerfGE 84, 34, 53), wenn auch deren Bewertungsspielraum Grenzen habe.

Von diesen rechtlichen Vorgaben ist das FG ausgegangen. Es hat zwar in seiner Entscheidung einleitend die gerichtlichen Prüfungsmaßstäbe mit einer Formel beschrieben, die das BVerfG (in BVerfGE 84, 34, 54) als so abstrakt gekennzeichnet hat, daß sie die von Verfassungs wegen erforderliche Kontrolldichte noch nicht erkennen lasse. Das FG hat aber ―auf den Streitfall bezogen― ausreichend die von ihm benannten allgemeinen Kontrollmaßstäbe, insbesondere den Begriff der maßgeblichen Verfahrensbestimmungen, zutreffend dahin näher gekennzeichnet, die "Prüfungsanforderungen in bezug auf Bewertung und Aufgabenstellung der Arbeiten" dürften nicht "überspannt" werden. Das entspricht dem, was das BVerfG von einer verwaltungsgerichtlichen Kontrolle der prüfungsspezifischen Bewertung einer Examensleistung verlangt.

Soweit die Beschwerde in diesem Zusammenhang ferner Abweichung von dem BVerfG-Beschluß in BVerfGE 84, 59 rügt, ist weder dargelegt noch erkennbar, welcher über die vorgenannte Entscheidung hinausgehende, einschlägige Rechtssatz in dieser Entscheidung aufgestellt worden sein sollte und inwiefern er zu den vom FG seiner Entscheidung zugrunde gelegten Rechtssätzen im Widerspruch stehen könnte. Soweit sich die eben genannte Entscheidung des BVerfG auf die Besonderheiten einer Prüfung nach dem Antwort-Wahl-Verfahren bezieht, ist sie, wie bereits dargelegt, ohnehin bei einer Steuerberaterprüfung nicht einschlägig.

3. Die Rechtssache hat schließlich auch keine grundsätzliche Bedeutung (§ 115 Abs. 2 Nr. 1 FGO). Die Beschwerde möchte etwas anderes zu Unrecht sinngemäß daraus herleiten, daß der erkennende Senat ausgehend von den Anforderungen an die gerichtliche Überprüfung einer Prüfungsentscheidung, die das BVerfG in den vorgenannten Entscheidungen aufgestellt habe, noch nicht zu der Frage Stellung genommen habe, ob eine Mißerfolgsquote in einer bestimmten Höhe ―etwa wenn mehr als 45 % oder sogar 50% der Bewerber durchfallen― eine Überspannung der Prüfungsanforderungen indiziere. Die Beschwerde meint also offenbar, die Frage sei klärungsbedürftig, ob bei einer Mißerfolgsquote von gut 40 %, wie sie das FG für die Steuerberaterprüfung 1996 festgestellt hat, bzw. von 63 % nach der vom Kläger für richtig gehaltenen Berechnungsmethode davon auszugehen ist, daß von den Prüfern überhöhte Anforderungen gestellt worden sind und die Prüfungsentscheidung daher aufzuheben ist.

Diese Frage kann indes die Zulassung der Revision nicht rechtfertigen, denn sie ist in der höchstrichterlichen Rechtsprechung bereits hinreichend geklärt. Der erkennende Senat hatte bereits in seinen ersten Urteilen zur richterlichen Beurteilung von Prüfungsentscheidungen entschieden, daß nachgeprüft werden könne, ob bei der Formulierung von Prüfungsaufgaben oder der Bewertung der Prüfungsleistungen von den Prüfern überhöhte Anforderungen gestellt worden sind, so daß die Prüfung nicht mehr geeignet sei, festzustellen, ob ein Bewerber in der Lage ist, den Beruf eines Steuerberaters auszuüben, sondern offenbar von sachfremden Erwägungen ―u.U. einer versteckten Bedürfnisprüfung oder dem Zweck, Konkurrenz von den steuerberatenden Berufen abzuhalten― beeinflußt sei (Urteile des Senats vom 25. Juni 1963 VII 18/62, Höchstrichterliche Finanzrechtsprechung ―HFR― 1963, 375, und vom 4. Februar 1964 VII 35/63, HFR 1964, 467). Der Senat hat an der Notwendigkeit, dies nachzuprüfen, insbesondere auch in seinen Urteilen vom 30. Januar 1979 VII R 13/78 (BFHE 127, 290, BStBl II 1979, 417) sowie vom 8. April 1986 VII R 9/84 (BFH/NV 1986, 768) und vom 7. Juli 1983 VII R 130/82 (nicht veröffentlicht ―NV―) festgehalten. Der Senat hat jedoch seit dem Urteil in BFHE 127, 290, BStBl II 1979, 417 betont, die Höhe der Quote der Bewerber, welche die Prüfung nicht bestanden haben, könne allenfalls als Indiz dafür herangezogen werden, ob die von den Prüfern gestellten Anforderungen ausreichend an Ziel und Zweck der Prüfung ausgerichtet gewesen seien; sie sei niemals allein ausreichend, um den Schluß darauf zu gestatten, die Prüfer hätten sachfremde Erwägungen angestellt.

Diese Rechtsprechung des Senats beruht auf der Erwägung, daß die Mißerfolgsquote in einer Prüfung u.a. von der Zusammensetzung der Bewerber, d.h. ihrer Begabung und ihrem Werdegang, der Qualität ihrer Ausbildung, der Intensität ihrer Vorbereitung auf die Prüfung und dergleichen, ferner den von den jeweiligen Prüfern angewandten Bewertungsmaßstäben, die sich ―in den vorgenannten Grenzen― einer rechtlichen Überprüfung entziehen, und nicht zuletzt von Zufälligkeiten abhängt. Da nicht auszuschließen ist, daß die Zusammensetzung der Prüflingsgruppe in einzelnen Prüfungsterminen starken Schwankungen unterliegt, da ferner die Bildung der Bewertungsmaßstäbe und ihre Anwendung im Prüfungsverfahren von höchstpersönlichen Einschätzungen abhängt, so daß insofern u.U. ausgeprägte Unterschiede bei den einzelnen Prüfern festzustellen sind, kein Prüfer jedoch, wie erwähnt, von Rechts wegen gehalten ist, sich an den Anforderungen bestimmter anderer Prüfer, weder an den "milden" oder den "strengen" noch an dem "Durchschnitt" ―statt an seinem fachlich fundierten Urteil über die Anforderungen des Berufes des Steuerberaters― zu orientieren, gestattet eine hohe Mißerfolgsquote in einem Prüfungstermin keinen Rückschluß darauf, daß die Prüfungsanforderungen überspannt waren. Sie gibt allenfalls dazu Anlaß, nach konkreten Anhaltspunkten dafür im Rahmen der gerichtlichen Sachaufklärung zu forschen.

Diese Rechtsprechung des Senats bedarf keiner Überprüfung, weil sie zu den sich aus Art. 19 Abs. 4 GG ergebenden Anforderungen, so wie sie die neuere Rechtsprechung des BVerfG in den vorgenannten Entscheidungen konkretisiert hat, in keinem Widerspruch steht. Sie stimmt auch mit der Rechtsprechung des BVerwG überein, das unter Hinweis u.a. auf die unterschiedliche Persönlichkeit der einzelnen Prüfer, deren "Gleichschaltung" nicht möglich und rechtlich auch nicht geboten sei, in unterschiedlichen Mißerfolgsquoten kein Indiz für Prüfungsfehler sieht (BVerwG-Beschluß vom 6. November 1987 7 B 198.87, Buchholz, Sammel- und Nachschlagewerk der Rechtsprechung des Bundesverwaltungsgerichts, 421.0 Prüfungswesen Nr. 245) und davon, soweit ersichtlich, auch in seiner neueren Rechtsprechung nicht abgerückt ist; es hat vielmehr in den Entscheidungen vom 21. Oktober 1993 6 C 12.92 (Buchholz, a.a.O., 421.0 Prüfungswesen Nr. 320) und vom 10. Oktober 1994 6 B 73.94 (Buchholz, a.a.O., 421.0 Prüfungswesen Nr. 338) betont, unbeschadet der Rechtsprechung des BVerfG in BVerfGE 84, 34 sei daran festzuhalten, daß komplexe prüfungsspezifische Bewertungen ―z.B. die Gewichtung verschiedener Aufgaben untereinander, die Einordnung des Schwierigkeitsgrades der Aufgabenstellung und die Würdigung der Qualität der Prüfungsleistung― im Gesamtzusammenhang des Prüfungsverfahrens von den Prüfern getroffen werden müßten und daß diesen nach wie vor ein entsprechender Bewertungsspielraum zuzubilligen ist; insofern könnten die Gerichte nur in der bisher üblichen Weise darüber befinden, ob die Grenzen dieses Bewertungsspielraums verletzt worden sind.

Dieser höchstpersönliche Bewertungsspielraum, der jedem einzelnen Prüfer zusteht, würde indes unangemessen und in einer vom Gesetz nicht vorgesehenen Weise eingeschränkt, wenn die Prüfer bei Prüfungen wie der Steuerberaterprüfung eine bestimmte Mißerfolgsquote nicht überschreiten dürften oder sogar, wie das FG offenbar annimmt, sich an den in anderen Ländern von anderen Prüfungsbehörden eingehaltenen Mißerfolgsquoten orientieren müßten. Überdies läßt eine hohe Mißerfolgsquote bei einem bestimmten Prüfer, einer bestimmten Prüfungskommission oder einem bestimmten Prüfungsamt aufgrund der komplexen Ursachen, auf denen ein solches Ergebnis einer Prüfung beruhen kann, kaum zuverlässige Rückschlüsse darauf zu, daß dort besonders hohe, geschweige denn überspannte Prüfungsanforderungen gestellt worden sind.

Fundstellen

Haufe-Index 302347

BFH/NV 1999, 1517

Dieser Inhalt ist unter anderem im Finance Office Professional enthalten. Sie wollen mehr?

Jetzt kostenlos 4 Wochen testen

Anmelden und Beitrag in meinem Produkt lesen