Prof. Dr. Christian Schwarz, Dr. Stefan Stein
Was ist ein Random Forest und wie ist dieser konzeptionell im Bereich KI einzuordnen? Unter KI werden Algorithmen verstanden, die menschliche Entscheidungsregeln "nachahmen". Dabei werden statistische Methoden kombiniert, um u. a. in sehr großen Datensätzen Muster zu erkennen bzw. komplexe (nicht-lineare) Zusammenhänge zu identifizieren.
Als Teilbereich der KI ist das sogenannte "Maschinelle Lernen" (engl.: Machine Learning) sehr prominent. Hierbei "lernen" die Algorithmen der KI auf sogenannten Trainingsdatensätzen Entscheidungsregeln und wenden diese dann auf Validierungsdatensätzen an. In der Anwendungspraxis hat sich gezeigt, dass neben "künstlichen neuronalen Netzen" auch der "Random Forest" sehr gute Resultate (z. B. im Sinne der Prognosegenauigkeit) liefern kann. Der Random Forest Algorithmus wird im Folgenden kurz intuitiv vorgestellt.
Random Forests gehören zur Klasse der Entscheidungsbaum-Algorithmen. Entscheidungsbäume lassen sich intuitiv als hierarchische Top-Down Baumstruktur interpretieren. Hierbei repräsentiert
- jeder "Knoten" des Entscheidungsbaums ein Merkmal der einzelnen Transaktion (z. B. Umsatz, Maschinentyp, Zeitpunkt der Transaktion jeder abhängiger oder unabhängiger Transaktionen),
- jede "Verzweigung" eine Entscheidung des Algorithmus (hier zur Diskriminierung zwischen abhängiger oder unabhängiger Transaktionen) und
- jedes "Blatt" am Ende einer Verzweigung den entsprechenden Ausgabewert (hier Wahrscheinlichkeit-Zuordnung abhängiger oder unabhängiger Transaktionen).
Vergleichbar zu anderen Methoden des maschinellen Lernens wird beim Random Forest der Entscheidungsbaum über einen Lernprozess unter Verwendung von Trainingsdaten erstellt und optimiert. Der Entscheidungsbaum wird Schritt für Schritt entsprechend der Bedeutung der Merkmale durchlaufen. Für jede Teilmenge (Baumverästelung) wird das zweitwichtigste Merkmal identifiziert und eine neue Aufteilung erstellt. Der Vorgang wird so lange wiederholt, bis jedem Blatt am Ende des Entscheidungsbaums ein Zweig eindeutig zugeordnet ist.
Im Gegensatz zu einem einzelnen Entscheidungsbaum ist ein Random Forest eine Gruppe von Einzelbäumen. Jeder Entscheidungsbaum ist verschieden und zunächst individuell zu optimieren, aber alle einzelnen Entscheidungsbäume zusammen bilden einen "Entscheidungs-Wald". Dieser Analogie folgend erstellt der Random Forest-Algorithmus verschiedene Entscheidungsbäume auf Basis derselben Trainingsdatenquelle. Durch diese Vorgehensweise erhöht sich die Prognosegenauigkeit im Vergleich zu reinen Entscheidungsbäumen deutlich.
Zur Beurteilung der Prognosegenauigkeit eines Random Forests können in Abhängigkeit der Problemstellung unterschiedliche Kennziffern herangezogen werden. Hierzu wird üblicherweise eine sogenannte Konfusionsmatrix erstellt. Diese gibt an, in welchen Fällen der Random Forest Algorithmus die Zuordnung verbundener gegenüber unverbundener Transaktionen korrekt vorausgesagt hat und in welchen Fällen es eine Falschklassifikation gab.
Auf Basis dieser Konfusionsmatrix kann z. B. im Rahmen der Fremdvergleichsanalyse abgeleitet werden, in wieviel Prozent der Fälle der Random Forest Algorithmus auf Basis der determinierenden Eingabedaten (Vergleichbarkeitsfaktoren) korrekt feststellen konnte, ob die Transaktionen (Geschäftsbeziehungen) mit einem verbundenen oder einem unverbundenen Unternehmen erfolgte.
Diese Kennziffer wird als Prognosegenauigkeit bezeichnet. Hierbei ist festzustellen, dass der Algorithmus bei zunehmenden Unterschieden in den Bedingungen einer Geschäftsbeziehung zwischen verbundenen und unverbundenen Unternehmen eine erheblich höhere Prognosegenauigkeit aufweisen wird.
Gelingt es dem Random Forest Modell mit einer hohen Prognosegenauigkeit zwischen den beiden Transaktionsarten zu unterscheiden, so liegen wesentliche Unterschiede zwischen den Verrechnungspreisen und dem internen Fremdvergleich vor. Gründen diese Unterschiede auf Unterschieden in den realisierten Margen im Rahmen der Preissetzung, so wäre der Fremdvergleichsgrundsatz in diesem Fall nicht eingehalten.
Falls der Random Forest allerdings aufgrund anderer Faktoren (z. B. Umsatzvolumen, Produkttyp) diskriminiert, können Unterschiede in den realisierten Margen auf andere Vergleichbarkeitsfaktoren zurückgeführt werden. Der Fremdvergleichsgrundsatz kann so mittels des internen Fremdvergleichs untermauert werden.