Wer ein KI-Modell auswählt, verlässt sich auf eine einfache Annahme: Das Modell mit der höchsten Accuracy auf dem Testset ist das beste Modell für den Produktionseinsatz. Eine Studie vom MIT zeigt, dass diese Annahme systematisch falsch sein kann — und zwar nicht aufgrund von Overfitting oder schlechter Architektur, sondern wegen eines Problems, das weit früher in der Pipeline liegt: fehlerhafte Labels im Testset selbst.
Der blinde Fleck im ML-Prozess
In der Diskussion um Datenqualität liegt der Fokus fast immer auf Trainingsdaten. Testsets gelten als verlässliche Grundlage — sie sind schließlich der Maßstab, an dem Modelle gemessen werden. Northcutt, Athalye und Mueller haben 2021 in einer NeurIPS-Studie systematisch geprüft, ob diese Annahme trägt. Das Ergebnis: Sie tut es nicht.
Die Autoren untersuchten zehn der meistgenutzten ML-Benchmarks aus den Bereichen Computer Vision, NLP und Audio — darunter ImageNet, CIFAR-10, CIFAR-100 und Amazon Reviews. Mit einem algorithmischen Framework namens Confident Learning identifizierten sie zunächst Fehlerkandidaten, die anschließend von menschlichen Reviewern über Amazon Mechanical Turk validiert wurden. Das Resultat: Im Durchschnitt enthielten die Testsets mindestens 3,3 % fehlerhafte Labels. Beim ImageNet-Validierungsset — dem Goldstandard der Bildklassifikation — liegt die bereinigte Schätzung nach ergänzender Expertenprüfung bei rund 20 %.
Werde kostenlos Mitglied, um nichts mehr zu verpassen!
Was ist Confident Learning? Ein algorithmisches Framework, das Labelfehler in Datensätzen identifiziert, indem es Fälle markiert, bei denen ein Modell mit hoher Konfidenz eine andere Klasse vorhersagt als das vergebene Label. Vereinfacht: Das Modell ist sicherer als der Annotator.
Das kontraintuitive Hauptergebnis
Die Fehlerrate allein wäre bereits ein Problem. Gravierender ist jedoch, was diese Fehler mit der Modellauswahl machen. Northcutt et al. zeigen, dass auf bereinigten Testdaten das Ranking etablierter Modelle teilweise vollständig invertiert wird.
Auf dem korrigierten ImageNet-Testset fällt NASNet-large von Rang 1 auf Rang 29 von 34 getesteten Modellen. ResNet-18 — deutlich kleiner und nach konventioneller Metrik unterlegen — steigt von Rang 34 auf Rang 1. Dasselbe Muster zeigt sich bei CIFAR-10: VGG-11 übertrifft VGG-19 auf den korrigierten Labels, obwohl es auf den Originaldaten schlechter abschneidet. Entscheidend ist dabei die Schwelle: Auf ImageNet reicht eine Erhöhung der Fehlerrate um nur 6 Prozentpunkte, damit ResNet-18 ResNet-50 überholt.
Der Mechanismus dahinter ist keine klassische Überanpassung. Große Modelle haben genug Kapazität, um auch subtile statistische Muster zu lernen — einschließlich der systematischen Fehlerstruktur der Annotatoren. Sie optimieren auf den Benchmark, nicht auf die Realität. Kleinere Modelle können diese Fehlerstrukturen schlicht nicht vollständig memorieren und sind deshalb auf korrekten Daten robuster. Es ist ein Overfitting auf die Fehler des Datensatzes, nicht auf die Daten selbst.
Warum das in der Praxis kaum auffällt
Das Problem bleibt aus einem einfachen Grund verborgen: Man sieht immer nur die original accuracy — die Genauigkeit auf den fehlerhaften Originallabels. Die corrected accuracy — die Genauigkeit auf dem, was tatsächlich wahr ist — ist ohne aufwendige manuelle Bereinigung nicht messbar. Wer Modelle auf Basis konventioneller Benchmark-Metriken auswählt, trifft seine Entscheidung auf Basis eines verzerrten Maßstabs, ohne es zu wissen.
Hinzu kommt: Real-World-Datensätze sind in der Regel erheblich fehlerbehafteter als die sorgfältig kuratierten Benchmarks der Studie. Die dort gemessenen 3,3 % sind eine Untergrenze. In domänenspezifischen Anwendungen — mit weniger Annotationsressourcen, subjektiveren Labelingentscheidungen und schnelleren Erhebungszyklen — sind deutlich höhere Fehlerquoten realistisch.
Die Implikation für Finance
Im Finanzsektor ist das Labelingproblem strukturell verankert. Historische Kreditentscheidungen, die als Ground Truth für Scoring-Modelle dienen, spiegeln häufig nicht eine objektive Ausfallwahrscheinlichkeit wider, sondern die subjektive Einschätzung einzelner Sachbearbeiter zu einem bestimmten Zeitpunkt — beeinflusst durch Marktregime, interne Richtlinien und individuelle Risikoaversion. Wer auf dieser Datenbasis ein komplexes Modell trainiert und evaluiert, optimiert möglicherweise auf die Fehler vergangener Entscheidungen, nicht auf zukunftsrobuste Muster.
Dasselbe gilt für Sentiment-Classifier auf Earnings-Call-Transkripten: Wenn die Trainingslabels von Analysten mit unterschiedlichem Erfahrungshintergrund vergeben wurden, enthält das Testset mit hoher Wahrscheinlichkeit systematische Inkonsistenzen — und das Modell mit der höchsten gemessenen Accuracy ist nicht zwingend das praxistauglichste.

Fazit
Die Studie von Northcutt et al. macht ein unbequemes Argument empirisch wasserdicht: Benchmark-Accuracy ist kein zuverlässiger Indikator für reale Modellqualität, solange die Testsets selbst fehlerbehaftet sind. Wer Modelle auf Basis konventioneller Metriken auswählt, trifft unter Umständen die falsche Entscheidung — und wird es nie erfahren. Der erste Schritt zu besserer Modellauswahl ist deshalb nicht ein größeres Modell, sondern ein saubereres Testset.