Wie maschinelles Lernen die Finanzindustrie seit Jahrzehnten prägt

Die Finanzindustrie entdeckt Künstliche Intelligenz nicht, sie kehrt zu ihr zurück. Während KI in der öffentlichen Wahrnehmung als Phänomen der letzten Jahre gilt, arbeiten Risikoabteilungen, Handelsdesks und Kreditinstitute seit Jahrzehnten mit lernenden Systemen. Der Unterschied zwischen einem Kreditscoring-Modell der 1990er Jahre und einem modernen Sprachmodell ist real aber er ist graduell, nicht fundamental. Dieser Artikel skizziert eine Auswahl zentraler Entwicklungsschritte.

Die Wurzeln: Statistik als Entscheidungswerkzeug

Der Ursprung liegt nicht in einem Silicon-Valley-Moment, sondern in der angewandten Statistik der 1980er Jahre. Banken begannen damals, Kreditrisiken mit mathematischen Modellen zu quantifizieren: Historische Merkmale eines Kreditnehmers — Einkommen, Beschäftigungsstatus, Zahlungshistorie — fließen in eine Gleichung ein, die eine Ausfallwahrscheinlichkeit ausgibt. Das Modell lernt nicht sondern es rechnet. Es war der erste Schritt weg von rein subjektiver Kreditentscheidung hin zu reproduzierbaren, skalierbaren Urteilen.

Diese frühen Modelle hatten eine klare Stärke: Transparenz. Jeder Eingangsparameter ließ sich gewichten und erklären. Regulatoren konnten nachvollziehen, warum ein Kreditnehmer abgelehnt wurde. Diese Eigenschaft der Erklärbarkeit wird später, im Zeitalter komplexer Sprachmodelle, zu einem der zentralen regulatorischen Streitpunkte.

Mehr Informationen zur Regulierung von KI- Systemen:

In den 1990ern entstanden komplexere Verfahren, die Muster in Daten erkennen konnten, die für Menschen nicht mehr direkt sichtbar waren. Der entscheidende Unterschied zu klassischer Statistik: Diese Modelle wurden nicht mit festen Regeln programmiert, sondern lernten ihre Regeln aus Beispieldaten. Ein Betrugserkennung-System musste nicht mehr wissen wie Betrug aussieht, es lernte es aus Tausenden dokumentierter Fälle. Das war konzeptuell neu, auch wenn die Rechenleistung der damaligen Hardware die Komplexität dieser Modelle noch stark begrenzte.

Drei Anwendungsfelder, die die Branche prägten

Die folgende Auswahl ist nicht vollständig. Maschinelles Lernen durchdringt die Finanzindustrie in weit mehr Bereichen, als ein einzelner Artikel abbilden kann. Drei Felder illustrieren jedoch besonders klar, wie tief diese Technologien bereits verankert sind, lange bevor der Begriff KI salonfähig wurde.

Credit Scoring: Das älteste skalierbare ML-Feld

Credit Scoring ist das älteste und meistgenutzte Anwendungsfeld. Modelle bewerten die Kreditwürdigkeit eines Antragstellers automatisch, indem sie Muster aus historischen Kreditdaten erkennen. Das Ergebnis ist eine Zahl — ein Score — der Banken und Kreditkartenanbietern als Entscheidungsgrundlage dient.

Was in den 1980ern als einfache statistische Gleichung begann, entwickelte sich über Jahrzehnte zu komplexeren lernenden Systemen. Der entscheidende Vorteil blieb dabei konstant: Einmal trainiert, können diese Modelle Millionen von Kreditanträgen konsistent und ohne menschliche Ermüdung bewerten. Die Herausforderung blieb dabei ebenfalls konstant: Historische Daten spiegeln historische Ungleichheiten wider. Ein Modell, das auf Vergangenheitsdaten trainiert wurde, kann systematisch bestimmte Bevölkerungsgruppen benachteiligen — ein Problem, das regulatorisch bis heute nicht vollständig gelöst ist.

Algorithmischer Handel: Vom Regelwerk zum lernenden System

Algorithmischer Handel nutzt seit den frühen 2000ern lernende Systeme, um Preismuster an Märkten zu identifizieren und automatisch darauf zu reagieren. Die frühen Systeme waren regelbasiert: Wenn Preis X unter Schwelle Y fällt, kaufe. Diese Regeln wurden von Menschen formuliert und von Computern ausgeführt.

Der Schritt zu maschinellem Lernen veränderte die Logik grundlegend. Statt Regeln vorzugeben, lernen Modelle selbst, welche Muster in historischen Marktdaten Vorhersagekraft haben. Lopez de Prado dokumentiert, wie sich diese Systeme von manuell programmierten Regelwerken zu Modellen entwickelt haben, die Marktmuster kontinuierlich neu kalibrieren — schneller und konsistenter als jeder menschliche Händler (Lopez de Prado, 2018, S. 1-23). Diese Entwicklung hat die Marktstruktur fundamental verändert: An großen Börsen werden heute erhebliche Anteile des Handelsvolumens von algorithmischen Systemen ausgeführt.

Die Kehrseite ist bekannt: Algorithmische Systeme können Marktinstabilitäten verstärken. Der sogenannte Flash Crash vom 6. Mai 2010, bei dem der Dow Jones innerhalb von Minuten um fast 1.000 Punkte einbrach und sich ebenso schnell erholte, wurde maßgeblich durch das Zusammenspiel automatisierter Handelssysteme verursacht.

Sprachanalyse in der Finanzforschung: Früher als erwartet

Sprachanalyse in der Finanzforschung ist älter als die aktuellen Sprachmodelle. Analysten wollten schon früh wissen: Was sagen Unternehmensberichte wirklich aus — jenseits der offiziellen Kennzahlen? Automatisierte Textanalyse schien eine Antwort zu bieten.

Das Problem: Die damals verfügbaren Werkzeuge zur Sprachanalyse waren für allgemeinen Sprachgebrauch entwickelt worden, nicht für Finanztexte. Loughran und McDonald zeigen, dass generische Analyseansätze für Finanztexte systematisch versagen. Das Wort „liability" wird in allgemeinen Sprachmodellen neutral oder sogar positiv bewertet — in einem SEC-Filing ist es eindeutig negativ konnotiert. Dasselbe gilt für Begriffe wie „cancer", „mine" oder „capital" — je nach Kontext vollständig unterschiedliche Bedeutungen. Ihr finanzspezifisches Analyse-Lexikon legte die methodische Grundlage für automatisierte Auswertungen von Unternehmensberichten und Earnings Calls (Loughran & McDonald, 2011, S. 35-65).

Diese Erkenntnis hat weitreichende Konsequenzen: Domänenspezifität ist kein Luxus, sondern eine Voraussetzung für verlässliche Ergebnisse. Ein allgemeines Modell, das auf Finanztexte angewendet wird, produziert systematisch verzerrte Outputs — unabhängig davon, wie leistungsfähig es in anderen Kontexten ist.

Der Sprung zur modernen KI

2017 veränderte eine Publikation die Richtung grundlegend. Vaswani et al. stellten eine neue Modellarchitektur vor, die das bis dahin dominierende Prinzip der sequentiellen Sprachverarbeitung ersetzte (Vaswani et al., 2017).

Was ist ein Transformer? Ältere Sprachmodelle verarbeiteten Text Wort für Wort — wie ein Mensch, der einen Satz von links nach rechts liest. Der Transformer analysiert stattdessen alle Wörter eines Textes gleichzeitig und bewertet, welche Wörter füreinander relevant sind. Das Wort „Bank" bedeutet etwas anderes in „Ich sitze auf der Bank" als in „Die Bank vergibt Kredite" — ein Transformer erkennt diesen Unterschied anhand des umgebenden Kontexts. Das erlaubt es, auch in langen Texten komplexe Zusammenhänge zu erkennen, und macht das Training deutlich schneller und skalierbarer als alle Vorgängerarchitekturen.

Die Konsequenz war eine Skalierungswette: Mehr Parameter, mehr Trainingsdaten, mehr Rechenleistung — und Fähigkeiten, die kleinere Modelle strukturell nicht zeigen. Was zunächst nach einem ingenieurwissenschaftlichen Optimierungsproblem aussah, entpuppte sich als qualitativer Sprung: Ab einer bestimmten Modellgröße entstehen Fähigkeiten, die nicht explizit trainiert wurden wie Übersetzung, logisches Schlussfolgern, Codegenerierung.

Für die Finanzindustrie konkretisierte sich das 2023 mit BloombergGPT: ein Sprachmodell, trainiert auf 363 Milliarden Einheiten aus Finanzdaten — Bloomberg-Nachrichten, SEC-Filings, Earnings Transcripts, Finanznachrichten aus vier Jahrzehnten. Es übertrifft generische Modelle auf finanzspezifischen Aufgaben deutlich und bestätigt damit die Erkenntnis von Loughran und McDonald auf einer neuen technologischen Ebene: Domänenspezifität entscheidet über Qualität (Wu et al., 2023, S. 1-8).

BloombergGPT ist kein Produkt, das Endnutzer direkt verwenden — es ist ein Forschungsergebnis, das zeigt, was möglich ist, wenn Trainingsdaten und Modellarchitektur konsequent auf eine Branche ausgerichtet werden. Die praktischen Konsequenzen reichen von automatisierter Nachrichtenauswertung über Sentiment-Analyse in Echtzeit bis hin zu strukturierter Extraktion aus regulatorischen Dokumenten.

Parallel dazu etablierten sich zwei Techniken als zentrale Bausteine für den produktiven Einsatz moderner Sprachmodelle in der Finanzindustrie. Fine-Tuning bezeichnet die Anpassung eines bereits vortrainierten Modells auf spezifische Aufgaben mit einem begrenzten, domänenspezifischen Datensatz — vergleichbar mit einem Generalisten, der eine Spezialisierung durchläuft. Retrieval-Augmented Generation (RAG) beschreibt einen anderen Ansatz: Das Modell greift zur Laufzeit auf externe, aktuelle Wissensquellen zu, statt alle Information im Modell selbst zu speichern. Für Compliance- und Research-Anwendungen ist RAG besonders relevant, weil Quellenangaben nachvollziehbar bleiben und das Modell nicht auf veralteten Trainingsdaten operiert.

Einordnung: Was sich verändert hat und was nicht

Die Entwicklungslinie ist kohärent, aber der qualitative Sprung bringt strukturell neue Probleme mit sich.

Ältere Modelle in der Risikomodellierung sind erklärbar: Es lässt sich nachvollziehen, welche Eingabedaten zu welchem Ergebnis geführt haben, und dieser Pfad lässt sich einem Regulator gegenüber begründen. Moderne Sprachmodelle mit Milliarden von Parametern sind das strukturell nicht. Die interne Logik, die zu einem bestimmten Output führt, ist selbst für die Entwickler nicht vollständig rekonstruierbar.

Das ist kein akademisches Problem. Der EU AI Act klassifiziert KI-Systeme in regulierten Entscheidungsprozessen — etwa Kreditvergabe oder Risikobeurteilung — als hochriskant und stellt explizite Anforderungen an Transparenz, Nachvollziehbarkeit und menschliche Aufsicht. Basel IV erhöht parallel dazu die Anforderungen an Modellvalidierung und Dokumentation im Risikomanagement. Wer moderne Sprachmodelle in diese Prozesse integriert, steht vor der Frage, wie er Anforderungen erfüllt, die für interpretierbare Modelle konzipiert wurden, gegenüber Systemen, die strukturell anders funktionieren.

Hinzu kommt das Halluzinationsproblem: Sprachmodelle generieren plausibel klingende Aussagen, die faktisch falsch sind — nicht weil das Modell lügt, sondern weil es statistisch wahrscheinliche Fortsetzungen produziert, ohne Wahrheitsgehalt zu prüfen. In einem Research-Tool ist das ärgerlich und korrigierbar. In einem Risikomodell, dessen Output direkt in Entscheidungen einfließt, ist es ein systemisches Problem.

Die Finanzindustrie hat jahrzehntelange Erfahrung darin, Modelle zu hinterfragen, zu validieren und regulatorisch zu rechtfertigen. Quantitative Analysten wissen, dass kein Modell die Realität vollständig abbildet — die Frage ist immer, welche Vereinfachungen akzeptabel sind und welche nicht. Dieses institutionelle Wissen ist kein Hindernis für die Adoption moderner KI. Es ist die Voraussetzung dafür, sie sinnvoll einzusetzen.

Quellen

Loughran, T. & McDonald, B. (2011). When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks. Journal of Finance, 66(1), S. 35–65.

Lopez de Prado, M. (2018). Advances in Financial Machine Learning. Wiley.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30.

Wu, S., Irsoy, O., Lu, S., Dabravolski, V., Dredze, M., Gehrmann, S., Kambadur, P., Rosenberg, D. & Mann, G. (2023). BloombergGPT: A Large Language Model for Finance. arXiv preprint, arXiv:2303.17564.