Inference Economics: Warum günstigere Token nicht ausreichen

Günstiger pro Token, teurer insgesamt. Das ist die Paradoxie, mit der KI-Verantwortliche im Finanzsektor gerade konfrontiert sind. Die Kosten pro Verarbeitungseinheit sinken kontinuierlich, aber die Gesamtrechnung steigt. Das klingt widersprüchlich, ist aber erklärbar — und wer den Mechanismus dahinter versteht, trifft bessere Architekturentscheidungen.

Was Inference überhaupt bedeutet

Bevor es um Kosten geht, lohnt sich ein kurzer Schritt zurück: Was ist Inference eigentlich?

Wenn ein KI-Modell trainiert wird, lernt es aus riesigen Datenmengen, Muster zu erkennen und Zusammenhänge zu verstehen. Dieser Prozess ist einmalig und kostspielig. Inference ist das Gegenstück dazu: der Moment, in dem das fertig trainierte Modell tatsächlich benutzt wird. Jede Anfrage, jede Analyse, jede generierte Zusammenfassung ist ein Inference-Vorgang.

Für Unternehmen ist das der operativ relevante Teil. Training ist Kapitalaufwand, der einmal anfällt. Inference ist laufender Betrieb, der mit jedem Nutzungsvorgang Kosten erzeugt, gemessen in Rechenzeit, Speicherbandbreite und Energieverbrauch. Bei Large Language Models wird dieser Betrieb typischerweise pro Token abgerechnet, also pro verarbeiteter Texteinheit. Ein Token entspricht grob 0,75 englischen Wörtern. Ein einzelner Earnings Transcript umfasst typischerweise zwischen 30.000 und 50.000 Token, Eingabe und Ausgabe zusammengerechnet.

Die relevante Frage für einen Asset Manager oder einen Compliance-Verantwortlichen ist damit nicht, was das Modell in der Entwicklung gekostet hat, sondern was es kostet, es täglich im großen Maßstab zu betreiben. Genau hier liegt das strukturelle Problem, das dieser Artikel aufarbeitet.

Die Kostenkurve trügt

GPT-4-äquivalente Performance kostet Ende 2025 rund 0,40 US-Dollar pro Million Token, verglichen mit 20 US-Dollar Ende 2022 [1]. Auf den ersten Blick eine klare Erfolgsmeldung. Auf den zweiten Blick eine Falle, die sich erst beim Skalieren zeigt.

Bis 2030 werden Inference-Kosten für Trillion-Parameter-Modelle laut Gartner um über 90 % gegenüber 2025 fallen, getrieben durch spezialisierte Inference-Chips, effizientere Modellarchitekturen und höhere Hardware-Auslastung [2]. Die Preisprognose ist plausibel. Das eigentliche Problem liegt aber nicht im Stückpreis, sondern darin, wie viele dieser Einheiten tatsächlich verbraucht werden.

Das Token-Paradox

Um das zu verstehen, hilft ein kurzer Blick auf die neuere Modellgeneration.

Was sind Reasoning-Modelle?
Anders als ältere Sprachmodelle, die direkt eine Antwort generieren, arbeiten Reasoning-Modelle mit einem internen „Denkprozess". Sie erzeugen zunächst eine lange Kette von Zwischenschritten, bevor sie zum eigentlichen Ergebnis kommen. Das verbessert die Qualität bei komplexen Aufgaben, verbraucht aber deutlich mehr Token pro Anfrage.

Genau hier entsteht das Paradox. Reasoning-Modelle generieren vor jeder Antwort ausgedehnte interne Zwischenschritte, die Tausende von Token verbrauchen, bevor das eigentliche Ergebnis produziert wird [3]. Die Situation ähnelt effizienteren Motoren, die für immer größere Fahrzeuge eingesetzt werden: weniger Verbrauch pro Kilometer, aber ein Vielfaches der Gesamtstrecke [3].

Für Enterprise-Deployments bedeutet das konkret: Günstigere Token-Preise haben die Gesamtkosten nicht gesenkt, weil Reasoning-Modelle exponentiell mehr Token pro Aufgabe verbrauchen [3]. Wer seinen KI-Stack auf Basis der Stückkosten kalkuliert, unterschätzt das tatsächliche Inference-Budget systematisch.

Ein konkretes Beispiel aus der Finanzpraxis: Ein Earnings-Transcript-Analyse-Workflow, der 2023 mit einem einfachen Completion-Modell lief, läuft 2026 möglicherweise über ein Reasoning-Modell mit zehnfachem Token-Output pro Dokument. Bei halbem Stückpreis ergibt sich so die fünffache Gesamtrechnung.

Was Gartner sagt und was das bedeutet

Die Gartner-Prognose ist in ihrer Hardware-Logik belastbar: Günstigere Chips, effizientere Architekturen und höhere Auslastung werden Inference-Kosten weiter senken [2]. Gartner weist aber gleichzeitig darauf hin, dass dieser Rückgang bei Commodity-Token-Preisen nicht mit günstigerem Frontier-Reasoning gleichzusetzen ist. Die Kosten für komplexe, rechenintensive Aufgaben bleiben hoch und werden es vorerst bleiben [2].

Das ist kein Widerspruch zur Prognose, sondern ihre entscheidende Einschränkung: Standardaufgaben werden billiger. Aber der Anteil komplexer Aufgaben wächst, weil Nutzer und Produktteams systematisch zum leistungsfähigsten verfügbaren Modell tendieren, auch wenn die Aufgabe das gar nicht erfordern würde. Günstigere Token auf der einen Seite, mehr verbrauchte Token auf der anderen. Unter dem Strich steigt die Gesamtrechnung.

Token-Optimierung als strategische Kompetenz

Die Antwort darauf ist keine Budgetkürzung, sondern eine Architekturentscheidung, die sich früh lohnt. Drei Hebel sind dabei besonders relevant:

Modell-Routing nach Aufgabenkomplexität. Nicht jede Anfrage braucht das teuerste Modell. Strukturierte Datenextraktion, Sentiment-Klassifikation oder Compliance-Keyword-Matching lassen sich mit kleineren, günstigeren Modellen auf vergleichbarem Qualitätsniveau abbilden. Ein günstigeres Modell für 70 % der Routineaufgaben und das leistungsstärkste Modell reserviert für 30 % komplexer Reasoning-Tasks ergibt besseren ROI als ein einheitlicher Frontier-Stack [1].

Prompt-Kompression und Context-Management. Token-Volumen entsteht nicht nur durch Modell-Output, sondern durch unkontrollierten Aufbau des Eingabe-Kontexts, besonders in mehrstufigen Pipelines. Redundante Instruktionen, zu große Retrieval-Chunks und unkomprimierte Gesprächshistorien treiben das Volumen, ohne die Qualität zu verbessern.

Caching für repetitive Strukturen. Systemanweisungen, regulatorische Standardtexte und feste Prompt-Rahmen wiederholen sich in Finanz-Workflows tausendfach. Prompt-Caching, von mehreren Anbietern unterstützt, reduziert die abrechenbare Token-Menge für identische Eingabe-Segmente erheblich, ohne dass sich am Output etwas ändert.

Kritische Perspektive

Token-Optimierung löst das strukturelle Problem nur teilweise. Der nächste Eskalationsschritt sind agentische Systeme, bei denen Modelle autonom mehrere Aufgaben sequenzieren und dabei bei jedem Schritt neue Token verbrauchen. Wer architektonische Ineffizienzen heute mit günstigen Commodity-Token überdeckt, wird bei agentischer Skalierung auf eine Kostenwand treffen [2].

Für regulierte Finanzinstitutionen kommt eine weitere Dimension hinzu: Wer aus Datenschutz- oder Compliance-Gründen auf On-Premise-Deployments angewiesen ist, partizipiert nicht am Cloud-Preiswettbewerb. Diese Institute tragen die vollen Hardware-Betriebskosten, unabhängig davon, wie günstig externe Inference-Dienste werden, und haben damit einen besonders starken Anreiz, Token-Effizienz strukturell zu verankern.

Fazit

Der Token-Preis ist nicht das Problem. Das Token-Volumen ist das Problem. Solange Nutzer zum leistungsstärksten Modell tendieren und agentische Workflows das Verbrauchsvolumen multiplizieren, werden Gesamtkosten steigen, egal wie günstig der Stückpreis wird [1, 2, 3]. Token-Optimierung ist deshalb keine Sparmaßnahme, sondern eine Grundvoraussetzung für KI-Architekturen, die sich tatsächlich skalieren lassen.

Quellen

[1] Introl, Inference Unit Economics: The True Cost Per Million Tokens, Dezember 2025 — introl.com/blog/inference-unit-economics-true-cost-per-million-tokens-guide [2] Gartner, Navigating the Commoditization Trap as Token Costs Fall by Over 90% Through 2030, März 2026 — gartner.com/en/newsroom/press-releases/2026-03-25-gartner-predicts... [3] ikangai, The LLM Cost Paradox: How Cheaper AI Models Are Breaking Budgets, August 2025 — ikangai.com/the-llm-cost-paradox-how-cheaper-ai-models-are-breaking-budgets