Die strategische KI-Frage in der Finanzindustrie hat sich verschoben. 2023 dominierte ein einzelnes Thema die Diskussion: Kosten. GPU-Engpässe, teure API-Calls und Inference-Rechnungen, die Hochvolumen-Anwendungen wirtschaftlich unattraktiv machten. Diese Beschränkung löst sich schneller auf, als die meisten Institutionen registriert haben. Die Kosten für GPT-4-äquivalente Performance sind von rund 20 US-Dollar pro Million Token Ende 2022 auf unter einen Dollar im Jahr 2025 gefallen — wobei das genaue Ausmaß des Rückgangs stark vom jeweiligen Aufgabentyp abhängt. Die Implikationen für das Asset Management gehen dabei weit über eine günstigere API-Rechnung hinaus.

Werde kostenlos Mitglied, um nichts mehr zu verpassen!

Werde Mitglied


Was Inference-Kosten sind — und warum sie zählen

Inference-Kosten sind die operativen Kosten, die entstehen, wenn ein trainiertes KI-Modell eine Eingabe verarbeitet und eine Antwort generiert. Training ist ein einmaliger Kapitaleinsatz — der Aufbau des Modells. Inference ist der laufende Betrieb: gemessen in Rechenzeit, Speicherbandbreite und Energieverbrauch pro Anfrage.

Bei Large Language Models werden diese Kosten typischerweise pro Token abgerechnet — der grundlegenden Texteinheit, die das Modell verarbeitet. Für Enterprise-Anwendungen bedeutet das einen konkreten Stückpreis pro Anfrage oder Dokument, der direkt mit dem Nutzungsvolumen skaliert.

Zur Einordnung: Ein Token entspricht grob 0,75 Wörtern im Englischen. Ein durchschnittlicher Earnings Transcript umfasst rund 30.000–50.000 Token — also Eingangs- und Ausgabematerial kombiniert.

Das macht Inference-Kosten zur operativ relevanten Größe — nicht Trainingskosten. Wer entscheidet, ob ein KI-System in der Praxis wirtschaftlich tragfähig ist, rechnet nicht mit dem einmaligen Modellentwicklungsbudget, sondern mit dem Token-Preis multipliziert mit dem erwarteten Volumen.


Die Kostenkurve: Was in zwei Jahren passiert ist

Der Rückgang ist keine Geschichte über Skaleneffekte allein — er ist das Ergebnis algorithmischer Effizienzgewinne, die sich mit Hardware-Verbesserungen überlagern.

Epoch AI dokumentiert, dass die Inference-Kosten für Frontier-Modelle seit Ende 2022 dramatisch gefallen sind: von rund 20 US-Dollar pro Million Token für GPT-4-äquivalente Performance auf unter einen Dollar im Jahr 2025. Dabei variiert das Ausmaß des Rückgangs stark je nach Aufgabentyp — für einfache Wissensaufgaben fällt der Preis schneller als für komplexe Reasoning-Aufgaben auf PhD-Niveau. Die Kostenkurve ist kein einheitlicher Trend, sondern ein aufgabenabhängiges Gefälle.

Der DeepSeek-R1-Technical-Report vom Januar 2025 liefert einen ergänzenden Datenpunkt: Das Modell erreicht GPT-4-Niveau-Performance zu einem Bruchteil der bisher angenommenen Trainingskosten — ein Beleg dafür, dass Frontier-Fähigkeit keine Frontier-Infrastruktur mehr voraussetzt. Die daraus resultierenden Effizienzgewinne wirken sich auch auf die Inference-Kosten aus, sind im Report selbst aber primär auf den Trainingsaufwand bezogen.

Struktureller Treiber beider Entwicklungen sind QuantisierungDestillation und Architekturverbesserungen, die den Rechenaufwand pro Inference-Schritt reduzieren. Artificial Analysis (2025) zeigt, dass die Preisstreuung zwischen Anbietern für äquivalente Modellqualität mittlerweile einen Faktor zehn überschreitet — Beschaffungsentscheidungen sind damit selbst zu einem relevanten Kostenhebel geworden.

ThinkBeyondAi | LinkedIn
ThinkBeyondAi | 3 followers on LinkedIn. thinkbeyondai: Midjourney-Mentalität – kritisch auf AI blicken, Berufe im Wandel verstehen, Zukunft denken. | thinkbeyondai ist eine Plattform für Reflexion, Analyse und Debatte im Zeitalter von Künstlicher Intelligenz. Wir beleuchten, wie AI Berufe, Karrieren und ganze Branchen verändert – von der Anwaltskanzlei über die Unternehmensberatung bis hin zu M&A und Corporate Finance. Kern unseres Ansatzes ist die Midjourney-Mentalität: eine kritische Haltung gegenüber oberflächlicher AI-Nutzung.


Drei Use-Cases, die erst jetzt wirtschaftlich werden

Systematische Dokumentenanalyse im großen Maßstab

Regulatorische Einreichungen, Earnings Transcripts, Kreditverträge: hochvolumige, textdichte Inputs, bei denen die dokumentenweise KI-Verarbeitung bis vor Kurzem nur für Institute mit entsprechender Infrastruktur wirtschaftlich darstellbar war. Zu aktuellen Token-Preisen ist die systematische Verarbeitung großer Dokumentenbestände auch für mittelgroße Asset Manager operativ umsetzbar.

Automatisierte Research-Pipelines auf Einzeltitelebene

Strukturierter Research-Output — Sentiment-Scoring, Extraktion von Kennzahlen, Identifikation von Risikohinweisen — über ein breites Coverage-Universum erfordert Inference-Volumen, das 2023 prohibitiv teuer war. Die Stückkosten-Logik hat sich umgekehrt.

Kontinuierliches Compliance-Monitoring

Stichprobenprüfungen werden in Risiko- und Compliance-Workflows zunehmend durch kontinuierliches Monitoring ersetzt. Das setzt dauerhaften Inference-Durchsatz voraus. Zu 2023er Preisen bedeutete das erhebliche laufende Kosten; zu 2025er Preisen konkurriert es direkt mit den Personalkosten manueller Review-Zyklen.

Login • Instagram
Welcome back to Instagram. Sign in to check out what your friends, family & interests have been capturing & sharing around the world.


Welche Geschäftsmodelle strukturell möglich werden

Sinkende Inference-Kosten machen nicht nur bestehende Workflows günstiger — sie ermöglichen Produktarchitekturen, die zuvor nicht tragfähig waren.

KI-native Due-Diligence-Plattformen, die bei einer M&A-Transaktion den vollständigen Dokumentenbestand verarbeiten — nicht eine Auswahl — werden wirtschaftlich vertretbar. Personalisiertes Portfolio-Reporting im großen Maßstab, bei dem jeder Mandant eine individuell generierte Analyse erhält statt templatisierter Ausgaben, verschiebt sich von einem Premium-Service zu einem Standardangebot.

Die Kehrseite zeigt sich bereits in der Praxis: Goldman Sachs dokumentiert, dass Unternehmen ihre initialen Inference-Budgets um Größenordnungen überschreiten. Als konkreter Anhaltspunkt gilt ein Branchendatenpunkt, den Goldman in einem aktuellen Report zitiert: In einzelnen Engineering-Teams nähern sich Inference-Kosten bereits rund 10 % der Personalkosten — mit der Projektion, innerhalb weniger Quartale auf Augenhöhe mit dem Gesamtgehaltsbudget zu steigen. Günstigere Token-Preise senken die Einstiegshürde, aber steigende Nutzungsvolumina treiben die Gesamtausgaben dennoch nach oben.

McKinseys Global Banking Annual Review (Oktober 2025) differenziert den Befund auf Sektorebene: KI kann in einzelnen Kostenkategorien brutto bis zu 70 % einsparen — auf die Gesamtkostenbasis eines Instituts übertragen jedoch nur netto 15–20 %, da steigende Technologiekosten die Bruttoeinsparungen teilweise aufzehren. Auch diese Gewinne sind strukturell nicht dauerhaft: Wettbewerb erodiert die Einsparungen, und der Großteil der Vorteile wird langfristig an Kunden weitergegeben.


Kritische Perspektive: Was Kostensenkung nicht löst

Die Goldman-Sachs-Analyse vom Juni 2024 bleibt methodisch präzise: Kostensenkung übersetzt sich nicht automatisch in ROI. Enterprise-KI-Adoption im Finanzsektor bleibt durch Integrationsaufwand, Datengouvernanz-Anforderungen und die Schwierigkeit der Qualitätsmessung bei Wissensarbeit gebremst.

Diesen Befund schärft Goldman-Sachs-Chefökonom Jan Hatzius auf makroökonomischer Ebene: In einem Interview mit dem Atlantic Council im Februar 2026 erklärte Hatzius, dass die massiven AI-Infrastrukturinvestitionen der vergangenen Jahre praktisch keinen messbaren Beitrag zum US-BIP-Wachstum 2025 geleistet haben — primär weil der Großteil der Hardware aus Taiwan und Südkorea importiert wird und damit das BIP anderer Volkswirtschaften stützt, nicht das amerikanische. Die 700 Milliarden Dollar, die Tech-Unternehmen für 2026 an AI-Infrastrukturausgaben projizieren, verschärfen dieses strukturelle Problem eher als dass sie es lösen.

Zur Einordnung: Dass 70 % der Unternehmen KI nutzen, aber 80 % keine messbaren Produktivitätsgewinne berichten, ist ein Befund, der in mehreren Branchenerhebungen auftaucht — darunter eine Umfrage unter rund 6.000 Führungskräften in den USA, Europa und Australien, die Goldman Sachs in diesem Kontext zitiert. Die Zahlen sind nicht originär Goldman-Sachs-Primärforschung.

Für regulierte Finanzinstitutionen entstehen zusätzliche strukturelle Grenzen. Viele Institute sind aufsichtsrechtlich oder vertraglich verpflichtet, sensible Kundendaten ausschließlich auf eigener Hardware zu verarbeiten — sogenannte On-Premise-Deployments. Das bedeutet konkret: Statt eine Anfrage an die API eines externen Anbieters zu senden, muss das KI-Modell vollständig innerhalb der eigenen IT-Infrastruktur betrieben werden.

Diese Anforderung ergibt sich aus drei Quellen:

  • der DSGVO als datenschutzrechtliche Grundlage
  • den operationellen Resilienzanforderungen unter DORA — der seit Januar 2025 verbindlichen EU-Verordnung zur digitalen Betriebsstabilität im Finanzsektor
  • mandantenseitigen Vertraulichkeitsvereinbarungen

Das Resultat: Der Preiswettbewerb zwischen Cloud-Anbietern — der maßgebliche Treiber des Inference-Kosten-Kollaps — ist für diese Institute nur begrenzt relevant. Sie tragen stattdessen die vollen Betriebskosten eigener GPU-Infrastruktur, unabhängig davon, wie günstig externe Inference-Dienste werden.

Der Token-Preis verschwindet als Barriere. Die verbleibenden Barrieren sind organisationaler, regulatorischer und — entscheidend — datenqualitativer Natur. Ein günstigeres Modell, das auf qualitativ schwachen internen Daten läuft, erzeugt keinen besseren Output.


Fazit

Sinkende Inference-Kosten sind notwendige, aber keine hinreichende Bedingung für KI-Adoption im Asset Management. Die Kostenfrage ist weitgehend beantwortet — aber Goldman-Sachs-CIO Marco Argenti prognostiziert für 2026 den nächsten Engpass: den Token Sticker Shock, wenn Unternehmen KI-Piloten in den Vollbetrieb überführen und das tatsächliche Inference-Volumen die initialen Budgetannahmen überschreitet.

Token-Optimierung, nicht Token-Beschaffung, wird zur zentralen strategischen Frage. Die verbleibenden Barrieren sind datenqualitativ, regulatorisch und organisational. Der Engpass hat sich verschoben. Die meisten Institutionen sind ihm noch nicht gefolgt.


Quellen: Epoch AI (Inference-Kosten-Tracking, 2025) · Artificial Analysis (Anbieter-Benchmarks, 2025) · DeepSeek-R1 Technical Report (Januar 2025) · Goldman Sachs Inference Budget Report (2025) · Goldman Sachs „Gen AI — Too Much Spend, Too Little Benefit?" (Juni 2024) · Jan Hatzius, Goldman Sachs, Interview mit dem Atlantic Council (Februar 2026) · Goldman Sachs CIO Marco Argenti, AI Outlook 2026 (Dezember 2025) · McKinsey Global Banking Annual Review (Oktober 2025) · Sequoia „AI's $600B Question" (2024)

The link has been copied!