Wie funktionieren eigentlich Large Language Models?

Disclaimer:

In diesem Artikel versuche ich das Thema Large Language Models (LLMs) und ihre Funktionsweise kurz und möglichst intuitiv zu erklären. Hierbei dient das phänomenale Video vom Youtube Kanal "3Blue1Brown" als Hauptquelle.

Generell kann ich diesen Kanal für mathematische Konzepte sehr empfehlen. Zu jeder Formel und jedem Theorem existieren anschauliche und intuitive Erklärungen, untermauert von wunderschönen Animationen.

Selbst in meinem Physikstudium wurde uns dieser Kanal von unseren Mathematikprofessoren mehrfach empfohlen, da die Erklärungen simpel, gut und intuitiv sind. Mathematik interessierte, mit oder vor allem auch ohne Vorkenntnisse, finden den Kanal und eines der Videos zu LLMs hier:

Large Language Models (LLMs) wie GPT haben in den letzten Jahren die Art und Weise revolutioniert, wie Maschinen Sprache verstehen und erzeugen. Doch obwohl ihre Ergebnisse oft erstaunlich „intelligent“ wirken, beruhen sie nicht auf echtem Verständnis, sondern auf statistischer Wahrscheinlichkeitsberechnung.

Im Kern ist ein LLM eine mathematische Funktion, die berechnet, welches Wort mit welcher Wahrscheinlichkeit als nächstes folgen sollte. Wenn wir mit einem Chatbot interagieren, passiert genau das: Der eingegebene Text dient als Kontext, das Modell wählt das nächste Wort aus – und wiederholt diesen Vorgang, bis eine vollständige Antwort entsteht.

Die Basis: Training auf gigantischen Textmengen

Damit ein LLM Sprache „lernen“ kann, wird es auf enormen Mengen von Textdaten trainiert – Büchern, Artikeln, Webseiten und Forenbeiträgen. Die Größenordnung ist kaum fassbar:
Würde ein Mensch ununterbrochen lesen, würde er über 2.600 Jahre benötigen, um die Textmenge zu erfassen, die etwa im Training von GPT-3 verarbeitet wurde.

Im Training lernt das Modell, Vorhersagen über das nächste Wort zu treffen. Dies wird wie folgt umgesetzt:

Es liest Textbeispiele und betrachtet jeweils alle Wörter bis auf das letzte.
Anschließend sagt es voraus, welches Wort am Ende stehen müsste.
Ein Algorithmus (Backpropagation) passt dann die internen Parameter oder Gewichte so an, dass die Wahrscheinlichkeit für die richtige Vorhersage steigt.

Dieser Vorgang wird Milliarden Mal wiederholt – und genau dadurch entstehen statistische Muster, die es dem Modell ermöglichen, auch auf neue, nie zuvor gesehene Texte plausibel zu reagieren.

Worte als Zahlen: Wie Bedeutung kodiert wird

Damit Maschinen mit Sprache umgehen können, müssen sie Wörter in eine numerische Form übersetzen.
Jedes Wort erhält dafür einen Vektor – eine Liste von Zahlen, die verschiedene Dimensionen (Anzahl der Parameter) von Bedeutung und Kontext repräsentieren.

Grafik Vektoren in einem LLM — Quelle: https://www.youtube.com/watch?v=LPZh9BOjkQs&t=307s

Diese Vektoren sind keine starren Definitionen. Sie verändern sich je nach Kontext, in dem das Wort vorkommt.
So wird das Wort „Bank“ in einem Satz über Finanzen durch andere Zahlen beschrieben als in einem Satz über einen Fluss.

Diese Vektoren sind das Herzstück moderner Sprachmodelle:

Sie erlauben es, Ähnlichkeiten zwischen Bedeutungen zu messen.
Sie bilden semantische Beziehungen (z. B. König – Mann + Frau ≈ Königin).
Und sie ermöglichen es, dass ein Modell nicht nur Grammatik, sondern auch Zusammenhänge und implizite Bedeutung erkennt.

Im Prinzip ist ein LLM also ein vergleichsbasiertes System, das fortlaufend überprüft, welche Wort- und Satzmuster in ähnlichen Kontexten bereits aufgetreten sind.
Es „versteht“ Sprache nicht – es erkennt Muster von Wahrscheinlichkeiten, die sich aus früheren Sprachbeispielen ergeben.

Rechenleistung und Architektur: Der Transformer

Der Durchbruch gelang 2017 mit der Transformer-Architektur, entwickelt von Google.
Vorherige Modelle lasen Text Wort für Wort, während Transformer alle Wörter und somit Vektoren einer Sequenz parallel betrachten können.

Zwei zentrale Komponenten ermöglichen das:

Self-Attention (Aufmerksamkeit):
Diese Mechanik erlaubt es dem Modell, zu „erkennen“, welche Wörter in einem Satz sich gegenseitig beeinflussen.
So kann das Modell unterscheiden, ob sich ein Pronomen auf „Lisa“ oder „ihr Buch“ bezieht.
Feedforward-Netzwerke:
Sie verarbeiten die durch Aufmerksamkeit angereicherten Informationen und speichern die erkannten Muster.

Durch viele Schichten dieser Prozesse entstehen hochkomplexe Repräsentationen, die semantische, syntaktische und sogar stilistische Nuancen abbilden.

Noch kein Mitglied?
Verpasse keine neuen Artikel!

Kostenlos Mitglied werden

Von Wahrscheinlichkeiten zu nützlichen Antworten

Das Training eines LLM – das sogenannte Vortraining – optimiert das Modell für Textvervollständigung.
Um daraus einen hilfreichen Assistenten zu machen, folgt eine zweite Phase:
das Reinforcement Learning mit menschlichem Feedback (RLHF).
Hier bewerten Menschen die Antworten des LLMs, inwiefern diese hilfreich, neutral oder problematisch sind.
Das Modell lernt daraus, Antworten zu bevorzugen, die informativ, wahrheitsgemäß und sozial akzeptabel sind.

Fazit: Muster statt Verständnis

Ein Large Language Model ist kein denkendes System – es ist eine hochdimensionale Wahrscheinlichkeitsmaschine.
Es:

vergleicht bekannte Wortstrukturen,
schätzt, welche Fortsetzung statistisch plausibel ist,
und erzeugt daraus scheinbar sinnvolle Antworten.

Die scheinbare Intelligenz entsteht also nicht aus Bewusstsein, sondern aus der Präzision und Tiefe mathematischer Mustererkennung.
Was wir als „Verstehen“ wahrnehmen, ist letztlich das Produkt von Statistik, Vektorräumen und Wahrscheinlichkeiten – in einer Größenordnung, die das menschliche Gehirn kaum intuitiv erfassen kann. So sind meiner Meinung nach LLMs nicht intelligent, sie sind eine riesige Datenbank mit welcher man gezielt Informationen abgleichen kann.