Prof. Dr. Christian Schwarz, Dr. Stefan Stein
Beim externen Fremdvergleich werden auf Basis öffentlich zugänglicher Datenbanken Renditekennziffern auf Basis von Vergleichbarkeitsfaktoren (Referenzwerte) identifiziert, die mit den Renditekennziffern der zu verprobenden gruppeninternen Geschäftsbeziehung ("Tested Party") verglichen werden.
3.1 Suche- und Auswahlprozess bei Datenbankstudien
Die Identifikation dieser Referenzwerte erfolgt im Rahmen eines strukturierten Such- und Auswahlprozesses. Hierbei kommen quantitative Filterschritte (z. B. bestimmte Umsatzschwellen), aber auch qualitative Auswahlschritte zur Anwendung. Gerade die "manuell" durchgeführten Schritte unterliegen – soweit dies auch durch gewisse etablierte "Best-Practice" Methoden eingeschränkt werden kann – einer gewissen Subjektivität. Diese Subjektivität kann z. B. durch die systematische Überprüfung mittels alternativer Such- und Auswahlentscheidungen reduziert werden. Wie in Schwarz et al. dargestellt, helfen hierbei insbesondere Vergleiche mit – unabhängig vom individuellen Sachverhalt – erstellten indikativen Referenzwerten. Diese bieten einen robusten Anhaltspunkt, welche Renditekennziffern bzw. Renditebandbreiten grundsätzlich bei einer sehr großen Anzahl an Vergleichsunternehmen zu erwarten wären.
3.2 Konsistenzabgleich von Fremdvergleichswerten
Es gibt verschiedenste etablierte Methoden zum Konsistenzabgleich der Fremdvergleichswerte. Schwarz et al. führen neben dem Abgleich mit indikativen Bandbreiten auch Analysen aus Altjahren und eine Verprobung mittels der Gesamtprofitabilität der zu validierenden gruppeninternen Geschäftsbeziehung für einen zielführenden Konsistenzabgleich an.
Mit einer zunehmenden Erfahrung auch von Seiten der Finanzverwaltung in der Datenanalyse werden aber statistische Testverfahren an Bedeutung gewinnen. Da die Interquartilsbandbreite sensitiv auf die Auswahl dieser zuletzt verbleibenden Referenzwerte reagiert, werden diese Referenzwerte besonders kontrovers zwischen Finanzverwaltung und Steuerpflichtigen diskutiert. Es existieren statistische Verfahren, die Aussagen darüber treffen, ob einzelne Referenzwerte mit einer gewissen (hinreichend hohen) Wahrscheinlichkeit aus einer gemeinsamen Verteilung "gezogen" wurden.
Ökonomisch intuitiv bedeutet dies schlicht, ob die Referenzergebnisse der Vergleichsunternehmen untereinander hinreichend vergleichbar sind oder ob einzelne Referenzwerte besondere Ausreißer darstellen. Hierfür lässt sich z. B. der Kruskal-Wallis-Test als sogenanntes nicht-parametrisches Verfahren anwenden, der ggf. Ausreißer – aus einer rein statistischen Perspektive – identifizieren kann. Wird ein solches Verfahren angewendet und zeigt der Kruskal-Wallis-Test mit hinreichender Wahrscheinlichkeit an, dass alle Referenzwerte aus einer "gemeinsamen" Verteilung stammen, so spricht dies für die Robustheit und Konsistenz einer Benchmarkstudie. Durch die Vorgabe einer standardisierten Vorgehensweise sowie statistischer Methoden zur Selbstauditierung könnte die Vergleichbarkeit der ermittelten Datensets unternehmensübergreifend erhöht werden.
3.3 Anpassungsrechnungen
Sachgerechte Anpassungsrechnungen (z. B. Working Capital Adjustments) können in Abhängigkeit des Einzelfalls Unterschiede in den Vergleichbarkeitsfaktoren beseitigen und die Vergleichbarkeit erhöht werden, § 1 Abs. 3a S. 2 AStG. Die gesamte Bandbreite an Werten ist anzuwenden, wenn aufgrund zuverlässiger (Datenqualität) und vollständiger Informationen feststeht, dass eine uneingeschränkte Vergleichbarkeit der Referenzwerte besteht, mithin wenn etwaige preisbeeinflussende Unterschiede mittels Anpassungsrechnungen sachgerecht eliminiert werden können.
Als ein klassisches Anwendungsbeispiel sind Anpassungsrechnungen im Kontext der Covid-19 Pandemie zu nennen. In Bezug auf die Gewinnung von Referenzdaten für die Bestimmung der Verrechnungspreise bestand die Problemstellung, dass Referenzwerte für den externen Fremdvergleich deutlich zeitverzögert (rund 2 Jahre) Eingang in die Datenbanken finden. Folglich standen Unternehmensgruppen vor der Herausforderung, welche Margen sie der Verrechnungspreisbestimmung in Krisenzeiten zugrunde legen sollten, zumal Vorjahreswerte als "Nicht-Krisenjahre" ein zu positives Bild der tatsächlichen Verhältnisse zeichnen würden. Daher wurden neue Methoden der KI erprobt, um einen möglichen Abschwung (z. B. der EBIT Margen von Vertriebsgesellschaften) zu prognostizieren.
Schwarz et al. vergleichen unterschiedliche methodische Ansätze wie neuronale Netze, Random Forst und Support Vector Machines und illustrieren, dass diese Ansätze zu deutlich realistischeren Prognosen kommen als klassische Verfahren, wie z. B. ein reines "historisches Backdating" oder lineare Regressionsmodelle.