Leitsatz (amtlich)
Eine etwaige Überspannung der Prüfungsanforderungen ist von den Gerichten nur im Rahmen der Prüfung der Frage zu berücksichtigen, ob die Prüfer sachfremde Erwägungen angestellt oder allgemeingültige Bewertungsmaßstäbe verletzt haben. Besonders hohe Durchfallquoten reichen für sich allein nicht aus, diese Frage zu bejahen (Änderung der Rechtsprechung).
Normenkette
StBerG § 33; DVStBerG § 19 Abs. 2
Tatbestand
Der Kläger und Revisionskläger (Kläger) unterzog sich der Steuerberaterprüfung 1976. Der Prüfungsausschuß I für Steuerberater der Beklagten und Revisionsbeklagten (Finanzbehörde) benotete sämtliche drei Klausurarbeiten des Klägers mit der Note mangelhaft. Die Arbeiten wurden jeweils von drei Mitgliedern des Prüfungsausschusses begutachtet. Den Prüfern lag eine Musterlösung vor. Am 11. Januar 1977 teilte die Finanzbehörde dem Kläger mit, daß er die Prüfung nicht bestanden habe.
Mit seiner Klage rügte der Kläger, die Anforderungen, die aufgrund der Klausurarbeiten an die Kandidaten der Steuerberaterprüfung 1976 gestellt worden seien, seien überspannt gewesen. Von den 98 Bewerbern seien 20 zurückgetreten. Weitere 25 Bewerber hätten infolge unzureichender schriftlicher Arbeiten die Prüfung nicht bestanden. Die Noten 3 und besser seien nur in wenigen Ausnahmefällen erreicht worden; hierin liege ein Verstoß gegen § 19 Abs. 2 der Verordnung zur Durchführung des Steuerberatungsgesetzes (DVStBerG), der Noten von 1 bis 6 vorsehe. Der Prüfungsausschuß habe seine, des Klägers, Arbeiten ermessensfehlerhaft beurteilt, indem er bei erheblichen Benotungsdifferenzen zwischen den Gutachtern seiner Bewertung nicht jeweils die höchste vergebene Gesamtounktzahl zugrunde gelegt habe. Der Prüfungsausschuß müsse die von ihm abgelegte Steuerberaterprüfung 1976 für bestanden erklären. Der Kläger stellte vor dem Finanzgericht (FG) den Antrag, die Prüfungsentscheidung vom 11. Januar 1977 aufzuheben und den Prüfungsausschuß bei der Finanzbehörde zu verpflichten, die von ihm, dem Kläger, abgelegte Steuerberaterprüfung für bestanden zu erklären. Hilfsweise stellte der Kläger einige Anträge, die auf eine Neubewertung der einzelnen Arbeiten ausgingen, sowie den Antrag, die Finanzbehörde zu verpflichten, ihn so zu stellen, als habe er an der Prüfung aus einem von ihm nicht zu vertretenden Grund nicht teilgenommen.
Im Tatbestand seines Urteils hielt das FG die Ergebnisse der Prüfungen 1974 bis 1976 durch die Prüfungsausschüsse für Steuerberater bei der Finanzbehörde im einzelnen fest.
Das FG wies die Klage ab. Zur Begründung führte es im wesentlichen aus:
Prüfungsentscheidungen seien u. a. nur daraufhin gerichtlich nachprüfbar, ob die Prüfungsanforderungen vornehmlich in bezug auf Aufgabenstellung und auf Bewertung der Arbeiten überspannt worden seien. Diese Voraussetzungen seien hier nicht gegeben. Der Bundesfinanzhof (BFH) habe im Urteil vom 26. September 1967 VII 89/65 (BFHE 89, 504 BStBl III 1967, 712) angenommen, die Grenzen zu einer Überspannung der Prüfungsanforderungen müßten noch nicht überschritten sein, wenn in einer Prüfung etwa 45 % der Bewerber die Prüfung nicht bestanden hätten. Anders liege es, wenn sich dieser Prozentsatz nachhaltig mehrere Jahre hindurch ergeben habe. Wenn weniger als 50 % der Erstbewerber die Prüfung bestanden haben sollten, so müßten die Prüfungsanforderungen entweder hinsichtlich der Aufgaben oder ihrer Bewertung als überspannt angesehen werden. Dieser Rechtsprechung des BFH sei zu folgen. Das FG habe aufgrund der von der Finanzbehörde vorgelegten Statistiken festgestellt, daß die Grenzen zu einer Überspannung im Ergebnis nicht überschritten worden seien.
Für das Prüfungsjahr 1976 ergebe sich zwar - gehe man von der vom Kläger gewünschten Ausgangszahl der Teilnehmer an der schriftlichen Prüfung aus - eine Überspannung der Prüfungsanforderungen. Unter Zugrundelegung dieser Zahl hätten 1976 46,99 % der Bewerber die Steuerberaterprüfung nicht bestanden. Diese Überspannung sei jedoch nicht nachhaltig gewesen. 1975 habe der Prozentsatz 38,71 und 1974 39,81 % betragen. Die Prüfungsanforderungen könnten auch nicht deswegen als überspannt angesehen werden, weil die Zahl der Erstbewerber, die die Prüfungen bestanden hätten, unter 50 % gelegen hätte. 1976 hätten 55,38 %, 1975 64,10 % und 1974 59,79 % der Erstbewerber bestanden.
Das Vorbringen des Klägers, die meisten Kandidaten hätten in der Steuerberaterprüfung entweder die Note 4 oder 5 erhalten, während bessere Noten kaum vergeben worden seien, könne eine Überspannung der Prüfungsanforderungen nicht begründen. Es komme nach der Rechtsprechung des BFH lediglich darauf an, daß ein gut durchschnittlich befähigter Bewerber in der Lage sei, die Aufgaben vollständig oder annähernd vollständig mit positivem Erfolg zu bewältigen. Unter positivem Erfolg verstehe der BFH in seinem Urteil vom 20. April 1971 VII R 95/68 (BFHE 102, 187, BStBl II 1971, 499) "ausreichend oder besser". Selbst wenn man über diese Rechtsprechung hinaus fordern wolle, daß auch die Noten "befriedigend" und besser in einer vernünftigen Streubreite vorkämen, ließe sich aus der aufgeschlüsselten Bewertung der schriftlichen Arbeiten anläßlich der Steuerberaterprüfung 1976 durch die Prüfungsausschüsse bei der Finanzbehörde keine Überspannung herleiten. Zwar falle auf, daß die Klausurarbeit "Verfahrensrecht und andere Steuerrechtsgebiete" ungewöhnlich schlecht ausgefallen sei (64,1 % erhielten die Note mangelhaft und schlechter, 28,2 % erhielten die Note ausreichend). Dieses Ergebnis werde jedoch durch die Noten für die Klausurarbeiten "Ertragsteuern" und "Buchführung und Bilanzwesen", ausgeglichen; hier lasse sich eine gewisse Streubreite der Noten zwischen "mangelhaft" und "gut" feststellen.
Mit seiner Revision rügt der Kläger, die Art. 3 und 12 des Grundgesetzes (GG) und des § 158 des Steuerberatungsgesetzes (StBerG)i. V. m. § 19 Abs. 1 DVStBerG seien verletzt und die Anforderungen bei der Steuerberaterprüfung seien überspannt gewesen.
Entscheidungsgründe
Die Revision ist nicht begründet.
Der erkennende Senat hat in ständiger Rechtsprechung entschieden, daß Prüfungsentscheidungen höchstpersönliche Werturteile sind, die sich einer vollen gerichtlichen Nachprüfung entziehen, und daher die Gerichte nur prüfen können, ob allgemeingültige Bewertungsmaßstäbe außer acht gelassen worden sind oder sachfremden Erwägungen Raum gegeben worden ist, ob ferner die Prüfungsanforderungen in bezug auf Aufgabenstellung und Bewertung der Arbeiten überspannt worden sind, ob von unzutreffenden Tatsachen ausgegangen worden ist und die für die Prüfung maßgebenden Verfahrensbestimmungen eingehalten worden sind (vgl. z. B. Urteil vom 24. August 1976 VII R 17/74, BFHE 120, 106, BStBl II 1976, 797, mit weiteren Nachweisen). Die Finanzbehörde ist der Auffassung, daß diese Rechtsprechung der Überprüfung bedürfe, soweit sie die gerichtliche Kontrolle von Prüfungsentscheidungen auf eine etwaige Überspannung der Prüfungsanforderungen bejahe.
Mit seiner Einfügung in den Katalog der von den Gerichten überprüfbaren Umstände bei Prüfungsentscheidungen hat der erkennende Senat dem Merkmal der Überspannung der Prüfungsanforderungen keinen eigenständigen Wert beigemessen. Wie sich aus der Rechtsprechung des Senats ableiten läßt, handelt es sich dabei vielmehr lediglich um einen Unterfall der Fälle, in denen sachfremde Erwägungen angestellt oder allgemeingültige Bewertungsmaßstäbe nicht beachtet worden sind. Die Rechtsprechung des Senats steht daher im Einklang mit der feststehenden Rechtsprechung des Bundesverwaltungsgerichts (BVerwG) zu der Frage der gerichtlichen Nachprüfbarkeit von Prüfungsentscheidungen. Nach dieser ist die inhaltliche Überprüfung von Prüfungsentscheidungen durch die Gerichte darauf beschränkt, ob der Prüfer von falschen Tatsachen ausgegangen ist, allgemeingültige Bewertungsmaßstäbe nicht beachtet hat oder sich von sachfremden Erwägungen hat leiten lassen (Urteile vom 24. April 1959 VII C 104.58, BVerwGE 8, 272, 273; vom 14. Juli 1961 VII C 25.61, BVerwGE 12, 359, 363, und vom 14. Juni 1963 VII C 68.62, BVerwGE 16, 154; vgl. auch Ossenbühl, Schule im Rechtsstaat, Die Öffentliche Verwaltung 1977 S. 801, 810 - DÖV 1977, 801, 810 -). Die Überspannung der Prüfungsanforderungen ist als eigenes Tatbestandsmerkmal in diesem Katalog nicht enthalten.
Bereits in seinen ersten Urteilen zur richterlichen Beurteilung von Prüfungsentscheidungen hat der erkennende Senat entschieden, daß nachprüfbar u. a. die Frage ist, ob "die Prüfungsaufgaben überspannt waren, so daß eine versteckte Bedürfnisprüfung anzunehmen wäre" (Urteile vom 25. Juni 1963 VII 18/62, Höchstrichterliche Finanzrechtsprechung 1963 S. 375 - HFR 1963, 375 -, und vom 4. Februar 1964 VII 35/63, HFR 1964, 467). Der Senat ging demnach damals davon aus, daß eine Überspannung der Prüfungsanforderungen jedenfalls dann als gegeben anzusehen ist, wenn diese Anforderungen allein zur Schaffung einer Art von Zugangsbeschränkung zu den steuerberatenden Berufen so hoch angesetzt worden sind. Wenn ein Prüfer aber den Schwierigkeitsgrad von Prüfungsarbeiten oder von Fragen in der mündlichen Prüfung danach ausrichtete, würde er sich von sachfremden Erwägungen leiten lassen. Denn Sinn der Prüfung kann nur sein festzustellen, ob ein Bewerber in der Lage ist, den Beruf eines Steuerberaters oder Steuerbevollmächtigten, wie er näher in § 33 StBerG umschrieben ist, angemessen auszuüben. Die Prüfung kann also nicht den Zweck verfolgen, einer etwaigen Überbesetzung der steuerberatenden Berufe vorzubeugen.
Die Frage, ob die Prüfungsanforderungen überspannt worden sind, ist auch nicht zu trennen von den angelegten Bewertungsmaßstäben. Sind etwa die Anforderungen in einer schriftlichen Arbeit besonders hoch gewesen - was in der Praxis nie völlig vermieden werden kann -, so wird und muß das der Prüfer durch die Wahl des entsprechenden Bewertungsmaßstabes bis zu einem gewissen Grade ausgleichen.
Aus dieser systematischen Einordnung des Merkmals der Überspannung der Prüfungsanforderungen ergibt sich, daß die dagegen vorgebrachten grundsätzlichen Einwendungen der Finanzbehörde nicht begründet sind. Es ist zwar richtig, daß die Rechtsprechung sowohl des erkennenden Senats als auch die des BVerwG von der Prämisse ausgeht, daß Prüfungsentscheidungen höchstpersönliche Werturteile sind, die nur einer beschränkten gerichtlichen Überprüfung zugänglich sind. Daraus ergibt sich, daß die fachlich-wissenschaftlichen und pädagogischen Bewertungsmaßstäbe der richterlichen Kontrolle nicht unterworfen sind. So ist es den Gerichten beispielsweise versagt, schriftliche Prüfungsarbeiten auf Grund eigenen Sachverstandes erneut zu bewerten (Urteil des erkennenden Senats VII R 17/74). In Anwendung dieses Grundsatzes kann die (im genannten Rahmen zulässige) gerichtliche Überprüfung, ob die Prüfungsanforderungen überspannt worden sind, auch nicht dazu führen, daß die Gerichte, die bei bestimmten Prüfungen zu stellenden Anforderungen inhaltlich festlegen. Damit würden sie in der Tat in den der gerichtlichen Überprüfung entzogenen fachlich-wissenschaftlichen und pädagogischen Entscheidungsbereich eingreifen. Dieser ist aber den nach dem Gesetz zur Entscheidung über die Prüfungsleistungen berufenen Sachverständigen mit letztverbindlicher Wirkung anvertraut.
Diese Einschränkung des gerichtlichen Prüfungsrechts hat jedoch die aus der Rechtsprechung des erkennenden Senats und des BVerwG ersichtlichen Grenzen. Die Gerichte sind danach befugt und verpflichtet. u. a. zu prüfen, ob die Prüfer allgemeingültige Bewertungsmaßstäbe außer acht gelassen haben oder sich von sachfremden Erwägungen haben leiten lassen. Eine etwaige Überspannung der Prüfungsanforderungen ist bei der Prüfung, ob diese Tatbestandsmerkmale erfüllt sind, in Betracht zu ziehen, ist aber nicht als solche - isoliert betrachtet - der gerichtlichen Überprüfung zugänglich.
Von sachfremden Erwägungen würden sich, wie sich aus den obigen Ausführungen ergibt, die Prüfer dann leiten lassen, wenn sie die in der Steuerberaterprüfung zu stellenden Anforderungen nicht an Ziel und Zweck der Prüfung (vgl. § 33 StBerG) ausrichteten, sondern damit die Absicht verfolgten, den Zugang zum Beruf des Steuerberaters zahlenmäßig zu beschränken. Im Rahmen der richterlichen Prüfung, ob sachfremde Erwägungen angestellt worden sind, kann die Höhe der Quote der Bewerber, die die Prüfung nicht bestanden haben (Durchfallquote), als Indiz herangezogen werden. Weil jedoch die Zusammensetzung der Bewerber einer Prüfung oder eines Prüfungsjahrgangs zwangsläufig Unterschiede aufweist und weil auch Zufälligkeiten und besondere Umstände für das Gesamtergebnis einer Prüfung stets eine gewisse Rolle spielen, läßt die Höhe der Durchfallquote allein noch nicht den Schluß zu, es seien sachfremde Erwägungen angestellt worden. Es müssen vielmehr daneben noch andere Anhaltspunkte vorliegen, die die Annahme rechtfertigen, die Prüfer hätten sachfremde Erwägungen angestellt.
Auch im Rahmen der Prüfung, ob allgemeingültige Bewertungsmaßstäbe verletzt worden sind, spielen die gestellten Prüfungsanforderungen eine Rolle, da Prüfungsanforderungen und Beurteilungsmaßstäbe in einem untrennbaren Zusammenhang stehen. Es fehlt allerdings an einer für den Einzelfall aussagekräftigen Bestimmung des Begriffs "allgemeingültiger Bewertungsmaßtab". Weder der Rechtsprechung des erkennenden Senats noch jener des BVerwG kann sie ohne weiteres entnommen werden. Aus dieser Rechtsprechung ergibt sich aber, daß darunter jedenfalls alle aus Rechtsnormen ableitbaren Bewertungsmaßstäbe fallen. Das sind im wesentlichen die Maßstäbe, die sich aus den Prinzipien des Verfassungsrechts vor allem aus dem Gleichheitssatz, ergeben (vgl. BVerwG-Urteil VII C 68.62) und die aus den rechtlich umrissenen Zielen der jeweils in Betracht kommenden Prüfung (hier § 33 StBerG) zu entnehmen sind (vgl. auch Urteil des Oberverwaltungsgerichts - OVG - Münster vom 13. Juli 1965 II A 1243/64, Entscheidungen der OVG Münster und Lüneburg, Bd. 21, S. 288, 293 f.). Es ist zweifelhaft, ob damit bereits die Grenze der gerichtlichen Überprüfung von Prüfungsentscheidungen daraufhin, ob die Prüfer allgemeingültige Bewertungsmaßstäbe verletzt haben, aufgezeigt ist (so das OVG Münster, a. a. O., mit Bezug auf die Rechtsprechung des BVerwG) oder ob die Gerichte in ihre Prüfung nicht nur die Verletzung rechtlicher Bewertungsmaßstäbe (insbesondere Gleichheitssatz, Willkürverbot) einbeziehen können, sondern darüber hinaus auch prüfen können, ob der Prüfling Opfer eklatanter für die Bewertung ursächlicher Korrekturfehler geworden ist oder ob die Bewertung des Prüfers den ihm zustehenden Beurteilungsspielraum offenkundig sprengt, d. h. unvertretbar ist. Im vorliegenden Fall braucht auf diese Frage nicht näher eingegangen zu werden, da sich aus den Feststellungen des FG keine Anhaltspunkte für das Vorliegen eklatanter Korrekturfehler oder einer unvertretbaren Bewertung ergeben und der Kläger entsprechendes auch nicht behauptet hat.
Aus diesen Ausführungen zum Begriff der allgemeingültigen Bewertungsmaßstäbe ergibt sich, daß hohe Ausfallquoten allein nicht geeignet sind, die Verletzung solcher Maßstäbe bei der Beurteilung der Leistungen eines bestimmten Prüflings zu belegen. Denn auch eine sehr hohe Durchfallquote besagt noch nicht mit einer jeden anderen Schluß ausschließenden Deutlichkeit, daß in dem richterlich zu überprüfenden Einzelfall die angegriffene Beurteilung nicht doch gerechtfertigt war. Hohe Durchfallquoten können allenfalls als Indiz für eine Verletzung allgemeingültiger Bewertungsmaßstäbe angesehen werden. Im Hinblick auf die bei jeder Prüfung jeweils vorliegenden Besonderheiten, von denen bereits oben die Rede war, muß es sich dabei jedoch um Durchfallquoten handeln, die offensichtlich den Rahmen des Normalen sprengen. Und selbst wenn diese gegeben sind, genügen sie allein noch nicht für die Annahme, es seien allgemeingültige Bewertungsmaßstäbe verletzt worden. Es müssen weitere Anhaltspunkte hinzukommen, die dafür sprechen, daß gerade in dem zu entscheidenden Einzelfall solche Maßstäbe verletzt worden sind.
Aus diesen Ausführungen ergibt sich auch, daß die Durchfallquote bei einer einzelnen Klausur kein Anhaltspunkt dafür sein kann, daß die genannten Grundsätze verletzt worden sind. Gegenstand der gerichtlichen Beurteilung kann nur das Ergebnis der gesamten Prüfung sein. Diese setzt sich aber aus der Beurteilung nicht nur der Leistungen in einer einzigen schriftlichen Arbeit zusammen. Es kann z. B. die besonders ungünstige Durchfallquote in einer Klausur - die wegen der Schwierigkeit, den Ausfall einer Arbeit bei ihrer Abfassung vorauszusehen, praktisch nicht immer verhindert werden kann - durch andere Umstände ausgeglichen werden.
Soweit der erkennende Senat in seiner bisherigen Rechtsprechung zur Frage, inwieweit Durchfallquoten eine Rolle bei der gerichtlichen Überprüfung von Prüfungsentscheidungen spielen, eine andere Auffassung vertreten hat, hält er daran nicht mehr fest (vgl. die vom FG zitierten Urteile VII 89/65 und VII R 95/68, sowie die Urteile vom 26. September 1967 VII R 51/66, BFHE 89, 559, 561, BStBl III 1967, 714, und vom 15. März 1977 VII R 15/76, BFHE 122, 214, 216, BStBl II 1977, 447).
Bei Anwendung dieser Grundsätze auf den vorliegenden Fall ergibt sich, daß das FG die Klage zu Recht abgewiesen hat.
Mit der Frage, ob sich die Prüfer etwa von sachfremden Erwägungen haben leiten lassen, hat sich das FG zu Recht nicht befaßt. Daß mit der Prüfung und den dabei angelegten Bewertungsmaßstäben eine versteckte Zugangsbeschränkung zum Beruf des Steuerberaters beabsichtigt gewesen sei, hat der Kläger nicht behauptet. Die Ausfallquoten in den Jahren 1974 bis 1976, die das FG festgestellt hat, genügen allein nicht, das Vorliegen sachfremder Erwägungen zu belegen. Der Vergleich der Ausfallquoten in der Prüfung, an der der Kläger teilgenommen hat, mit jenen der zweiten Juristischen Staatsprüfung läßt erst recht keine entsprechenden Schlüsse zu.
Es sind auch keine allgemeingültigen Bewertungsmaßstäbe im oben genannten Sinn verletzt worden. Zu Recht hat das FG erkannt, daß die statistischen Durchfallquoten keine genügenden Anhaltspunkte dafür bieten. Das FG ist dabei zwar - in Anlehnung an die bisherige Rechtsprechung des Senats - von der Auffassung ausgegangen, mehrjährige übermäßig hohe Durchfallquoten genügten für sich allein schon, eine Überspannung der Prüfungsanforderungen (und damit eine Verletzung allgemeingültiger Bewertungsmaßtäbe) als gegeben anzusehen, während nach den obigen Ausführungen darin allenfalls ein - für sich allein noch nicht genügendes - Indiz dafür gesehen werden kann. Diese - sich zugunsten des Klägers auswirkende - unrichtige Auffassung des FG hatte jedoch im Ergebnis auf die Vorentscheidung keinen Einfluß. Denn das FG hat jedenfalls zu Recht die festgestellten Ausfallquoten dahin bewertet, daß sie nicht offensichtlich den Rahmen des Normalen gesprengt haben. Auch den besonders ungünstigen Ausfall der Klausur aus dem Verfahrensrecht - für die 64,1 % der Bewerber die Note "mangelhaft" und schlechter erhielten - hat das FG, wie sich aus den obigen Ausführungen ergibt, zu Recht nicht beanstandet.
Zu folgen ist dem FG auch darin, daß es keine Verletzung allgemeingültiger Bewertungsmaßstäbe darstellt, wenn bei der Benotung schriftlicher Arbeiten die Noten zwischen 1 und 6 nicht einigermaßen gleichmäßig gestreut worden sind. Es gibt keinen entsprechenden allgemeingültigen Bewertungsmaßstab. Auch aus § 19 Abs. 1 DVStBerG ergibt sich nichts Gegenteiliges. Diese Bestimmung legt nur fest, im Rahmen welcher Notenskala sich die Bewertung der Prüfer zu vollziehen hat, ohne damit die Prüfer zu verpflichten, im Rahmen einer Prüfung diese Notenskala gleichmäßig auszuschöpfen. Hinzu kommt, daß aus einer nichtgleichmäßigen Streubreite der Noten hinsichtlich der Notenskala ohnehin keine Schlüsse daraufhin gezogen werden könnten, daß gerade die Noten, mit denen die Leistungen des Klägers bewertet worden sind, falsch waren und berichtigt werden müßten.
Fundstellen
Haufe-Index 73110 |
BStBl II 1979, 417 |
BFHE 1979, 290 |