Bias, Metriken, Benchmarks, Performance-Tests – verständlich erklärt (Stand: 28.02.2026)
KI-Modelle wirken in Demos oft beeindruckend: ein hoher Score, ein paar gute Beispiele – fertig. In der Praxis zeigt sich aber schnell: Ein Modell kann auf dem Papier stark sein und trotzdem im Alltag schwächeln. Gründe sind neue Daten, verändertes Nutzerverhalten oder schlicht die Tatsache, dass ein Modell immer nur so gut ist wie die Bedingungen, unter denen es getestet wurde.
Dieser Artikel erklärt, wie KI-Modelle sinnvoll bewertet werden – ohne dass Sie selbst Modelle entwickeln müssen. Ziel ist, dass Sie Ergebnisse (Scores, Benchmarks, „Fairness“-Aussagen) besser einordnen können und verstehen, warum Unternehmen so viel Aufwand in Tests, laufende Überwachung und Dokumentation stecken (NIST, 2023; Sculley et al., 2015).
Weiterführende Lektüre und Einordnung
Dieses Thema ist deutlich umfangreicher, als es ein einzelner Artikel abdecken kann. Der Text soll Ihnen deshalb vor allem Orientierung geben: Welche Fragen sind wichtig, welche Zahlen sind häufig missverständlich – und woran erkennt man seriöse Evaluation im Unternehmenskontext?
Wenn Sie tiefer einsteigen möchten, finden Sie in den Quellen sehr gute Einstiege je nach Blickwinkel: Für einen „Big Picture“-Rahmen eignet sich das AI Risk Management Framework (AI RMF) des NIST (NIST, 2023). Wer verstehen will, warum KI-Qualität oft am Zusammenspiel aus Daten, Prozessen und Betrieb hängt, findet dafür eine prägende Perspektive bei Sculley et al. (2015) sowie in der Praxisstudie von Amershi et al. (2019). Methodisch hilfreich sind die Grundlagen zu Cross-Validation (Refaeilzadeh, Tang, Liu, 2009) sowie die Warnungen zu Data Leakage (Kapoor & Narayanan, 2023). Für ein solides Verständnis von Metriken und ihrer Interpretation sind insbesondere Saito & Rehmsmeier (2015) (Imbalance/Precision-Recall) und Hyndman & Koehler (2006) (Forecast-Metriken) empfehlenswert. Wenn Sie sich speziell für generative Modelle interessieren, bietet Holtzman et al. (2020) einen guten Blick darauf, warum einzelne Kennzahlen bei Textqualität in die Irre führen können.
Sie wünschen sich Vertiefungsartikel?
Wenn Sie zu einzelnen Bereichen (z. B. „Metriken bei Fraud & Kreditrisiko“, „Bias & Fairness verständlich erklärt“, „LLM-Benchmarks und Halluzinationen“ oder „Wie Unternehmen KI im Betrieb überwachen“) einen Vertiefungsartikel wünschen, können Sie sich gerne hier an unser Team wenden. Wir greifen Themenwünsche auf und bereiten sie als eigene Beiträge auf – je nach Zielgruppe mit Fokus auf Praxis, Beispiele und verständliche Einordnung.
1) Warum „ein Score“ fast nie reicht
Viele Berichte zur KI-Qualität nennen eine Zahl wie „Accuracy“ (Trefferquote). Das Problem: KI ist fast immer Teil eines größeren Systems – sie hängt von Datenquellen, Prozessen und dem Nutzungskontext ab. Wenn sich dort etwas ändert, kann die Leistung sinken, selbst wenn das Modell unverändert bleibt. Dieser Gedanke ist zentral in Hidden Technical Debt in Machine Learning Systems (Sculley et al., 2015). Auch große Industrie-Fallstudien zeigen: „KI-Qualität“ ist in der Praxis immer auch „Systemqualität“ (Amershi et al., 2019).
Merksatz: Ein Modell ist selten „plötzlich schlecht“. Häufig ändern sich die Bedingungen, unter denen es gut funktioniert hat (Sculley et al., 2015).
Werde kostenlos Mitglied, um nichts mehr zu verpassen!
2) Der Rahmen: Was NIST mit KI-Tests zu tun hat
Damit KI in Unternehmen verantwortungsvoll eingesetzt wird, brauchen Organisationen Standards und Leitplanken. Ein wichtiges Beispiel ist das NIST AI Risk Management Framework – kurz AI RMF („AI Risk Management Framework“) vom US-Standardisierungsinstitut NIST (NIST, 2023). Dieses Framework hilft, Risiken rund um KI systematisch zu managen – nicht nur beim Start, sondern während des gesamten Lebenszyklus.
Was bedeutet das für die Evaluation?
- Unternehmen sollen nicht nur messen, wie gut ein Modell ist, sondern auch, wo es scheitern kann.
- Sie sollen festlegen, welche Folgen Fehler haben (z. B. falsche Ablehnung eines Kredits vs. falsche Freigabe).
- Sie sollen im Betrieb beobachten, ob sich Leistung und Risiken verändern (NIST, 2023).
Ein zweiter, eher „sprachlicher“ Baustein ist ISO/IEC 22989:2023. Dieser Standard liefert definierte Begriffe rund um KI („Was meint Training, Validierung, Test? Was ist ein KI-System?“). Auch wenn er nicht frei zugänglich ist, ist die Idee wichtig: ein gemeinsames Vokabular, damit Berichte und Audits nicht an Begriffschaos scheitern (ISO/IEC, 2023).
3) Wie faire Tests grundsätzlich aufgebaut sind (ohne Technikdetails)
Damit ein Ergebnis glaubwürdig ist, müssen Tests so gestaltet sein, dass sie die Realität möglichst gut abbilden.
Trainingsdaten, Validierungsdaten, Testdaten – einfach erklärt
In der Praxis wird oft mit drei Datentöpfen gearbeitet:
- Trainingsdaten: Hier „lernt“ das Modell Muster.
- Validierungsdaten: Hier werden Varianten verglichen und Einstellungen gewählt.
- Testdaten: Hier wird am Ende geprüft, wie gut das Modell voraussichtlich in der Realität funktioniert.
Das ist nicht nur Formalität: Wenn man zu oft auf die Testdaten schaut und danach „nachbessert“, ist das Ergebnis nicht mehr neutral. Für den methodischen Unterbau wird dieses Prinzip in der Literatur zu Kreuzvalidierung (engl. cross-validation) sauber beschrieben (Refaeilzadeh, Tang, Liu, 2009). Ein leicht verständlicher Einstieg zum Thema Datensplitting findet sich auch in praxisorientierten Erklärartikeln (Kili Technology, 2023).
Warum Wiederholungen wichtig sind
Eine oft unterschätzte Erkenntnis: Messergebnisse schwanken – manchmal deutlich. Studien zeigen, dass scheinbar kleine Unterschiede zwischen Modellen oder Versionen reine Zufallseffekte sein können (Bouthillier et al., 2021). Deshalb sind seriöse Evaluationsberichte meist vorsichtig: Sie zeigen, ob ein Ergebnis stabil ist, statt nur „den besten Wert“ zu präsentieren.
4) Data Leakage: Wenn Tests „zu gut“ sind
Ein besonders wichtiger Begriff ist Data Leakage („Datenleck“ im Testdesign). Gemeint ist: Das Modell bekommt im Training (direkt oder indirekt) Informationen, die es im echten Einsatz nicht hätte – und wirkt deshalb im Test viel besser, als es real wäre. Kapoor & Narayanan beschreiben, wie verbreitet solche Lecks sind und wie stark sie Evaluation verfälschen können (Kapoor & Narayanan, 2023).
Typische Beispiele (ohne Code):
- Ein Merkmal enthält indirekt schon die spätere Entscheidung.
- Zeitliche Daten werden so gemischt, dass Informationen aus der „Zukunft“ in das Training gelangen.
- Sehr ähnliche Fälle tauchen in Training und Test auf (Duplikate, wiederkehrende Vorlagen).
Für Leserinnen und Leser:
Wenn ein Score „zu gut“ wirkt, ist es legitim zu fragen: Wie wurde verhindert, dass Testwissen ins Training gelangt?(Kapoor & Narayanan, 2023)
5) Metriken: Was eine Zahl wirklich bedeutet
„Metrik“ heißt: eine messbare Kennzahl, die Modellleistung zusammenfasst. Wichtig ist: Jede Metrik ist eine Vereinfachung. Deshalb ist nicht nur relevant welche Zahl berichtet wird, sondern wie sie zu interpretieren ist.
Seltene Ereignisse: Warum ROC-AUC oft missverstanden wird
Wenn ein Ereignis selten ist (z. B. Betrug), kann eine Kennzahl namens ROC-AUC (kurz für „Area Under the Receiver Operating Characteristic Curve“) sehr gut aussehen, obwohl das Modell in der Praxis zu viele Fehlalarme produziert. Saito & Rehmsmeier zeigen, dass in solchen Fällen die Precision-Recall-Kurve oft aussagekräftiger ist (Saito & Rehmsmeier, 2015). Ergänzend wird häufig der MCC („Matthews Correlation Coefficient“) empfohlen, weil er bei unausgeglichenen Daten stabiler sein kann als Accuracy oder F1 (Chicco & Jurman, 2020).
Praktisch heißt das:
Ein Modell kann auf dem Papier „stark“ sein, aber im Alltag unbrauchbar, wenn es zu viele Fehlalarme auslöst.
Prognosen: Warum MAPE nicht immer „fair“ ist
Bei Forecasts (z. B. Umsatz, Nachfrage) sind Kennzahlen wie MAE, RMSE oder MAPE verbreitet. Hyndman & Koehler zeigen, dass diese Maße unterschiedliche Vor- und Nachteile haben und je nach Situation zu unterschiedlichen „fairen“ Bewertungen führen (Hyndman & Koehler, 2006). Das ist wichtig, weil Unternehmen oft Fehlkosten haben (Unterprognose vs. Überprognose) – und eine Metrik diese Kosten nicht automatisch richtig abbildet.
Generative KI: Warum „Perplexity“ nicht gleich Qualität ist
Bei Text-KI taucht oft Perplexity auf – eine Kennzahl, die vereinfacht sagt, wie „wahrscheinlich“ ein Modell Text fortsetzen kann. Holtzman et al. zeigen jedoch, dass gute Perplexity-Werte nicht automatisch zu gutem Text führen – Modelle können „degenerierten“ Text erzeugen, obwohl die Zahl besser wird (Holtzman et al., 2020).
Für Text werden deshalb häufig Referenzmetriken verwendet:
- BLEU (Papineni et al., 2002) und ROUGE (Lin, 2004) – messen grob, wie stark sich Text mit Referenztexten überschneidet.
- BERTScore (Zhang et al., 2020) – versucht Ähnlichkeit semantischer zu messen.
Wichtig bleibt: Bei generativer KI ist eine menschliche Bewertung (z. B. fachliche Korrektheit, Nützlichkeit, Tonalität) in vielen Anwendungen unverzichtbar.

6) Benchmarks: Orientierung, aber kein Realitätsbeweis
Ein Benchmark ist ein standardisierter Test, der Modelle vergleichbar machen soll. Für moderne Sprachmodelle (Large Language Models, kurz LLMs) sind Benchmarks wie MMLU, BIG-bench oder HELM bekannt (Hendrycks et al., 2021; Srivastava et al., 2022; Liang et al., 2023). Für spezielle Fähigkeiten gibt es weitere Tests wie GSM8K (Mathe), HumanEval (Code) oder SWE-bench (Software-Aufgaben) (Cobbe et al., 2021; Chen et al., 2021; Kocetkov et al., 2023). MMMU erweitert die Perspektive auf multimodale Fähigkeiten (Yue et al., 2024).
HELM ist besonders interessant, weil es Evaluation breiter denkt: nicht nur „richtig/falsch“, sondern auch Robustheit, Fairness oder Effizienz (Liang et al., 2023). Trotzdem gilt: Benchmarks sind eine Orientierung – sie ersetzen nicht den Test im eigenen Anwendungskontext.
7) Bias & Fairness: Messbar, aber nicht „perfekt lösbar“
„Bias“ meint systematische Verzerrungen, etwa weil Daten bestimmte Gruppen schlechter abbilden. „Fairness“ versucht, solche Verzerrungen mess- und diskutierbar zu machen. Eine sehr zugängliche, fundierte Grundlage ist Fairness and Machine Learning (Barocas, Hardt, Narayanan, 2019).
Ein zentraler Punkt kommt aus Kleinberg et al. (2017): Bestimmte Fairness-Ziele können sich widersprechen. Das heißt: Es gibt nicht immer eine Lösung, die bei allen Fairness-Kriterien gleichzeitig optimal ist (Kleinberg et al., 2017). Genau deshalb sind Transparenz und Dokumentation wichtig – hier sind Model Cards ein bewährtes Format, um Grenzen, Zielgruppen und Risiken eines Modells strukturiert offenzulegen (Mitchell et al., 2019).
Auch NIST liefert mit SP 1270 einen gut zitierfähigen Überblick über Bias-Arten und Managementansätze (NIST, 2022). Tools wie AIF360 und Fairlearn werden oft zur praktischen Messung genutzt (Bellamy et al., 2019; Bird et al., 2020) – aber für das Verständnis reicht: Fairness ist eine Kombination aus Messung und bewusster Entscheidung, was in einem Kontext „fair“ heißen soll.
Werde kostenlos Mitglied, um nichts mehr zu verpassen!
8) Robustheit & Halluzinationen: Was passiert in Grenzfällen?
Robustheit bedeutet: Ein Modell bleibt brauchbar, wenn Eingaben anders aussehen als erwartet (neue Formate, Störungen, veränderte Fragen). Hendrycks & Dietterich zeigen das Prinzip über systematische Robustheitstests (Hendrycks & Dietterich, 2019). Ovadia et al. diskutieren, wie man prüfen kann, ob Unsicherheitsangaben eines Modells unter veränderten Bedingungen noch verlässlich sind (Ovadia et al., 2019).
Bei Sprachmodellen kommt ein weiteres Thema dazu: Halluzinationen – überzeugend klingende, aber falsche Aussagen. Ji et al. ordnen Arten und Messansätze (Ji et al., 2023). TruthfulQA ist ein Benchmark, der genau dieses „überzeugend falsch“ gezielt testet (Lin et al., 2022).
9) Warum Unternehmen auch Latenz, Kosten und laufende Überwachung betrachten
Für den Geschäftseinsatz zählen neben „Qualität“ auch operative Fragen: Wie schnell antwortet das System? Wie stabil ist es? Was kostet es? Nishtala et al. zeigen, warum Echtzeit-ML mehr ist als „ein gutes Modell“ (Nishtala et al., 2019). Google fasst Best Practices zu Iteration, Monitoring und Vergleichstests (A/B-Tests) praxisnah zusammen (Google, Rules of Machine Learning). Der ML Test Score ist wiederum eine Checkliste, um „Produktionsreife“ greifbarer zu machen (Breck et al., 2017).
Fazit
KI-Evaluation bedeutet vor allem: Zahlen richtig einordnen. Ein Benchmark ist Orientierung, keine Garantie. Eine einzelne Metrik ist selten ausreichend. Seriöse Tests achten auf saubere Datenaufteilung, vermeiden Data Leakage, prüfen Stabilität und dokumentieren Grenzen. Und im Betrieb wird weiter beobachtet, weil sich die Welt verändert (NIST, 2023; Sculley et al., 2015; Breck et al., 2017).
Quellenliste (mit Links)
- NIST (2023). AI Risk Management Framework (AI RMF 1.0).https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf
- ISO/IEC (2023). ISO/IEC 22989:2023 Artificial intelligence – Concepts and terminology.(ISO-Seite, Paywall)
- Sculley, D. et al. (2015). Hidden Technical Debt in Machine Learning Systems.https://papers.nips.cc/paper_files/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf
- Amershi, S. et al. (2019). Software Engineering for Machine Learning: A Case Study.https://www.microsoft.com/en-us/research/uploads/prod/2019/03/amershi-icse-2019_SE4ML.pdf
- Refaeilzadeh, P.; Tang, L.; Liu, H. (2009). Cross-Validation.https://link.springer.com/referenceworkentry/10.1007/978-0-387-39940-9_565
- Kili Technology (2023). Training, Validation and Test Sets: How to Split Machine Learning Data.https://kili-technology.com/blog/training-validation-and-test-sets-how-to-split-machine-learning-data
- Bouthillier, X. et al. (2021). Accounting for Variance in Machine Learning Benchmarks.https://www.jmlr.org/papers/v22/20-729.html
- Kapoor, S.; Narayanan, A. (2023). Leakage and the Reproducibility Crisis in Machine Learning-based Science.https://www.cell.com/patterns/fulltext/S2666-3899(22)00213-6
- Braiek, H. B.; Khomh, F. (2020). On Testing Machine Learning Programs.https://www.sciencedirect.com/science/article/pii/S0164121220300993
- IEEE (2022). IEEE 29119-11:2022 – Testing of AI-based systems.(IEEE-Seite, meist Paywall)
- Breck, E. et al. (2017). The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction.https://storage.googleapis.com/pub-tools-public-publication-data/pdf/45742.pdf
- Saito, T.; Rehmsmeier, M. (2015). Precision-Recall Plot vs ROC Plot on Imbalanced Datasets.https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0118432
- Chicco, D.; Jurman, G. (2020). Advantages of MCC over F1 and Accuracy.https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7
- Hyndman, R. J.; Koehler, A. B. (2006). Measures of Forecast Accuracy.https://www.sciencedirect.com/science/article/pii/S0169207006000239
- Holtzman, A. et al. (2020). Neural Text Degeneration.https://openreview.net/forum?id=rygGQyrFvH
- Papineni, K. et al. (2002). BLEU.https://aclanthology.org/P02-1040/
- Lin, C.-Y. (2004). ROUGE.https://aclanthology.org/W04-1013/
- Zhang, T. et al. (2020). BERTScore.https://openreview.net/forum?id=SkeHuCVFDr
- Hendrycks, D. et al. (2021). MMLU.https://arxiv.org/abs/2009.03300
- Srivastava, A. et al. (2022). BIG-bench.https://arxiv.org/abs/2206.04615
- Liang, P. et al. (2023). HELM.https://arxiv.org/abs/2211.09110
- Cobbe, K. et al. (2021). GSM8K.https://arxiv.org/abs/2110.14168
- Chen, M. et al. (2021). HumanEval.https://arxiv.org/abs/2107.03374
- Kocetkov, D. et al. (2023). SWE-bench.https://arxiv.org/abs/2310.06770
- Yue, X. et al. (2024). MMMU.https://arxiv.org/abs/2311.16502
- Barocas, S.; Hardt, M.; Narayanan, A. (2019). Fairness and Machine Learning.https://fairmlbook.org
- Kleinberg, J. et al. (2017). Trade-Offs in Fair Risk Scores.https://www.pnas.org/doi/10.1073/pnas.1702251114
- Mitchell, M. et al. (2019). Model Cards.https://proceedings.mlr.press/v97/mitchell19a.html
- Bellamy, R. K. E. et al. (2019). AI Fairness 360 (AIF360).https://arxiv.org/abs/1810.01943
- Bird, S. et al. (2020). Fairlearn.https://arxiv.org/abs/1905.12843
- NIST (2022). SP 1270 – Managing Bias in AI.https://nvlpubs.nist.gov/nistpubs/specialpublications/nist.sp.1270.pdf
- Hendrycks, D.; Dietterich, T. (2019). Robustness to Common Corruptions.https://arxiv.org/abs/1903.12261
- Ovadia, Y. et al. (2019). Trusting Uncertainty under Dataset Shift.https://arxiv.org/abs/1906.02530
- Ji, Z. et al. (2023). Hallucination Survey.https://arxiv.org/abs/2301.05225
- Lin, S. et al. (2022). TruthfulQA.https://arxiv.org/abs/2109.07958
- Wang, X. et al. (2023). Robustness of ChatGPT (Survey).https://arxiv.org/abs/2302.11382
- Nishtala, R. et al. (2019). Real-Time Machine Learning.https://www.vldb.org/pvldb/vol12/p1780-nishtala.pdf
- Google (laufend gepflegt). Rules of Machine Learning.https://developers.google.com/machine-learning/guides/rules-of-ml