Prompt Engineering und Agenten

Wie man einen Masterprompt für jeden semi-automatischen textbasierten Agenten schreibt

Dieser Artikel ist Teil eines Workshops, die anderen Artikel findet ihr hier.

Sie haben KI bereits oft genutzt. Sie haben brauchbare Ergebnisse erzielt. Aber jede Sitzung beginnt von vorn — das Modell weiß nicht, was Sie brauchen, wie Sie denken oder was ein „gutes Ergebnis" für Ihre Aufgabe bedeutet. Das ist keine KI-Einschränkung. Das ist ein Prompt-Problem.

Ein Masterprompt löst das. Es ist ein System aufeinander aufbauender Prompts, das ein Allzweck-Modell in einen spezialisierten textbasierten Agenten verwandelt — einen, der automatisch eine vorgebene Reihenfolge an Arbeitsschritten ausführt. Agenten können sich dabei konsistenter verhalten, zuverlässigere Qualität liefern, sich Dinge merken und bei Grenzfällen Alarm schlagen.

Den Masterprompt berücksichtigt die KI in jeder Chat-Anfrage in deinem Projekt, sofern du ihn in die Anweisung Inbox kopierst. Er stellt somit ein erhebliches Upgrade zu ihrem bisherigen Modell dar, wenn sie wissen wie, und sich die Zeit nehmen, ihn zu schreiben.

Diese Anleitung führt Sie Schicht für Schicht durch den Aufbau eines Masterprompts. Jeder Schritt zeigt den tatsächlichen Prompttext für ein konkretes Beispiel — einen Karteikarten-Generator — zusammen mit dem allgemeinen Prinzip, damit Sie dieselbe Struktur auf jeden Agenten anwenden können, den Sie bauen möchten.

Das Beispiel ist bewusst einfach gehalten: Es nimmt Lernmaterial — einen Themennamen, einen Textausschnitt oder Vorlesungsnotizen — und erstellt einen sauberen Satz von Frage-Antwort-Karten, der auf Abfrage von Gelerntem und aktives Erinnern ausgerichtet ist. Einfach genug, um klar nachvollziehbar zu sein. Nützlich genug, um es noch heute einzusetzen.

Das zum Artikel gehörige Template zum Ausfüllen: Masterprompt Template

Kurzübersicht — der Ebenenaufbau

(je nach Anwendung sind nicht alle Prompt Schichten nötig)

Schritt 0 — Auswertung: Woran erkenne ich, ob es funktioniert? (immer)

Schritt 1 — Identität: Was ist dieser Agent und was tut er? (immer)

Schritt 2 — Denkweise: Wie denkt er, bevor er handelt? (immer)

Schritt 3 — Fachwissen: Welches Wissen macht ihn besser als ein Standardmodell? (nur für Spezialisten)

Schritt 4 — Workflow + Tools: Welchen Schritten folgt er? (immer)

Schritt 5 — Output-Standards: Wie sieht ein gutes Ergebnis konkret aus? (immer)

Schritt 6 — Einschränkungen: Was darf er nie tun, und warum? (immer)

Schritt 7 — Grenzfälle: Was passiert, wenn etwas schiefläuft? (je nach Komplexität)

Schritt 8 — Prüfung: Erfüllt der Output den Standard, bevor er rausgeht? (immer)

Schritt 9 — Gedächtnis: Was merkt er sich, und wie nutzt er es? (nur für mehrstufige Agenten)

Schritt 10 — Token-Optimierung: Verdient jedes Wort seinen Platz? (immer)

Bevor du anfängst: Prompt vs. Kontext

Diese Anleitung zeigt dir, wie du den statischen Prompt aufbaust — die Anweisungen, die festlegen, wer dein Agent ist, wie er denkt und was er produziert. Aber der Prompt ist nur ein Teil dessen, was das Modell sieht. Das Gesamtbild — System-Prompt, Nutzernachrichten, Gesprächsverlauf, abgerufene Daten — ist der Kontext.

Schreibe deinen Prompt für Dichte, nicht für Länge. Jeder Satz sollte seinen Platz verdienen. Ein kompakter 2.000-Token-Prompt schlägt einen ausufernden 10.000-Token-Prompt — weil der Kontext begrenzt ist und überflüssige Token die Aufmerksamkeit des Modells verwässern.

Formatierung ist nicht nur Ästhetik, sondern beeinflusst direkt das Verhalten. Umschließe jede Ebene mit XML-Tags (<identity>, <workflow>, <constraints>). Claude verarbeitet strukturierte Prompts deutlich zuverlässiger als Fließtext. Variable Nutzereingaben gehören in eigene Tags, damit das Modell sie nie mit deinen Anweisungen verwechselt.

Schritt 0 — Auswertung: Erfolg definieren, bevor du baust

Bevor du eine einzige Zeile Prompt schreibst, definiere, wie „funktioniert" aussieht. Ohne das baust du im Dunkeln und wirst nie wissen, ob eine Änderung geholfen oder geschadet hat.

Schreibe 5–10 Testeingaben, die den Bereich abdecken, mit dem dein Agent konfrontiert wird: 2–3 Standardeingaben (klare, gut formulierte Anfragen), 2–3 Grenzfälle (zu weit gefasst, zu vage, ungewöhnliches Format), und 1–2 Stresseingaben (Anfragen außerhalb des Agenten-Bereichs). Für jede Eingabe notierst du kurz die Kriterien, die eine korrekte Ausgabe erfüllen muss.

BEISPIEL — Auswertungssatz für den Karteikarten-Generator:

TEST 1 — Standardeingabe Eingabe: „Mitose vs. Meiose — ein Abschnitt aus einem Biologiebuch" Erfolgskriterien: Karten unterscheiden die beiden Prozesse konkret. Fragen zielen auf aktiven Abruf („Was passiert mit der Chromosomenzahl bei der Meiose?"), nicht auf Wiedererkennen („Was ist Mitose?"). Keine zwei Karten testen dasselbe Konzept.

TEST 2 — Zu vage Eingabe: „Geschichte" Erfolgskriterien: Der Agent erstellt KEINE Karten. Er bittet um ein Thema, einen Zeitraum oder konkretes Material.

TEST 3 — Sehr lange Eingabe Eingabe: Ein 5.000 Wörter langes Vorlesungstranskript Erfolgskriterien: Der Agent extrahiert die 10–15 am besten testbaren Konzepte — nicht eine Karte pro Absatz.

TEST 4 — Bereichsverletzung Eingabe: „Schreibe mir stattdessen eine Zusammenfassung" Erfolgskriterien: Der Agent lehnt ab, erklärt seine Rolle, und bietet an, stattdessen Karten aus dem Material zu erstellen.

Dieser Auswertungssatz wird zu deiner Testsuite: Nach jeder Änderung am Prompt durchlaufen, prüfen, ob sich etwas verbessert, verschlechtert oder unbeabsichtigt kaputt gegangen ist. So entwickelst du systematisch weiter statt zu raten.

Entscheide frühzeitig, ob die Auswertung objektiv ist (der Output erfüllt die Kriterien oder nicht) oder subjektiv (Qualität ist Ermessensfrage). Bei subjektiven Aufgaben kann ein zweiter Modellaufruf helfen, Ausgaben anhand deiner Kriterien zu bewerten.

Schritt 1 — Identität: Was ist dieser Agent?

Schreibe einen einzelnen Absatz: Was ist das, was tut es, und für wen? Keine vagen Formulierungen. Nur die konkrete Wahrheit.

PROMPTBEISPIEL:

<identity> Du bist ein Lernkarten-Generator. Du nimmst Lernmaterial — einen Themennamen, einen Textausschnitt oder Vorlesungsnotizen — und erstellst eine nummerierte Reihe von Frage-Antwort-Karten, die auf aktives Erinnern ausgerichtet sind. Jede Karte testet ein Konzept. Du fasst nicht zusammen, erklärst nicht und schreibst keine Lernhilfen. Du erstellst Karten, mit denen der Nutzer sich selbst testen kann. </identity>

Drei Fragen, nichts weiter: Was ist das? (Ein Substantiv — „Ein Lernkarten-Generator", nicht „ein hilfreicher Assistent.") Was tut es? (Ein bis zwei Sätze mit konkreter Tätigkeit — Verben, nicht Adjektive.) Für wen? (Der Nutzer und sein Kontext.)

Auf andere Bereiche übertragen: Ein Agent für Rechtsverträge wäre: „Du bist ein Vertragsklausel-Analyst. Du liest Handelsverträge, kennzeichnest Risikoklauseln und erstellst eine Risikobewertung mit Revisionsvorschlägen." Ein Fitness-Agent: „Du bist ein Krafttraining-Programmierer. Du nimmst Trainingsgeschichte, Ausrüstung und Ziele und erstellst ein periodisiertes Programm mit Begründung der Übungsauswahl."

So sollte es nicht aussehen: „Du bist ein hilfreicher KI-Assistent, der Nutzern bei studienbezogenen Fragen und Lernaufgaben hilft." — Das beschreibt jeden Agenten, also keinen.

Schritt 2 — Denkweise: Wie denkt er, bevor er handelt?

Lege fest, welche internen Schritte der Agent durchläuft, bevor er Output produziert. Das ist die Ebene, die den meisten Prompts fehlt — und die den größten Unterschied macht.

PROMPTBEISPIEL:

<cognitive_approach> Bevor du Karten erstellst, arbeite diese Abfolge intern durch:

SCHRITT 1 — EINGABE KLASSIFIZIEREN Handelt es sich um einen Themennamen, einen Textausschnitt oder Vorlesungsnotizen?

Themenname: Karten aus deinem Wissen erstellen.
Ausschnitt/Notizen: Karten nur aus dem bereitgestellten Material — keine externen Konzepte einführen.

SCHRITT 2 — SCHWIERIGKEITSGRAD FESTLEGEN Standard: Fragen auf aktivem Abruf, nicht auf Wiedererkennen.

Wiedererkennen: „Was ist Photosynthese?"
Aktiver Abruf: „Welche zwei Moleküle entstehen am Ende der Lichtreaktionen?" Wenn der Nutzer ein Niveau angibt, das verwenden. Sonst: aktiver Abruf als Standard.

SCHRITT 3 — MEHRDEUTIGKEIT PRÜFEN Bei jeder Karte fragen: Hat diese Frage genau eine vertretbare korrekte Antwort? Falls nicht: einengen oder streichen.

SCHRITT 4 — DOPPELUNGEN VERMEIDEN Wenn zwei Karten dasselbe Grundwissen testen, die schwierigere behalten. </cognitive_approach>

Die Denkweise-Ebene programmiert den internen Prozess — den Unterschied zwischen einem Agenten, der auf Eingaben reagiert, und einem, der über sie nachdenkt. Sie enthält typischerweise: Zerlegungslogik (wie der Agent eine Anfrage in Teile aufteilt), Priorisierungsregeln (was zählt, wenn Ziele in Konflikt geraten), Umgang mit Mehrdeutigkeit (was tun bei unklarer Eingabe), und die Reihenfolge der Schritte.

So sollte es nicht aussehen: „Denke sorgfältig über die Anfrage nach, bevor du antwortest. Berücksichtige alle relevanten Faktoren." — Das klingt gut und ändert nichts am Verhalten. Aber auch nicht zu starr: „Wenn Thema ‚Biologie' enthält → Vorlage A. Wenn ‚Geschichte' → Vorlage B." — Das bricht bei jeder unvorhergesehenen Eingabe.

Der richtige Abstraktionsgrad liegt dazwischen: spezifisch genug, um das Denken zu formen, flexibel genug für unbekannte Situationen.

Schritt 3 — Fachwissen: Was weiß er, das ein Standardmodell nicht weiß?

Nur nötig für Spezialisten-Agenten. Überspringe diesen Schritt, wenn der Wert deines Agenten aus seiner Arbeitsweise kommt statt aus seinem Wissen. Ein Prozess-Agent braucht kein eingespeistes Fachwissen — sein Workflow und seine Output-Standards erledigen die Arbeit.

PROMPTBEISPIEL:

<domain_knowledge> WAS EINE LERNKARTE EFFEKTIV MACHT

Die Forschung zu aktivem Erinnern ist eindeutig: Karten, die Produktion erfordern (Antwort aus dem Gedächtnis abrufen), schneiden besser ab als Karten mit Wiedererkennen (Tatsache bestätigen oder aus Optionen wählen).

Effektive Karten:

Testen ein Konzept pro Karte (atomar)
Verwenden präzise Formulierungen (kein „Was ist das?")
Haben Antworten von maximal 1–3 Sätzen
Vermeiden Ja/Nein-Fragen

Ineffektive Karten:

„Was haben wir über Mitose gelernt?" (zu vage)
„Richtig oder falsch: Pflanzen betreiben Photosynthese" (Wiedererkennen statt Abruf)
Karten, deren Formulierung die Antwort bereits verrät </domain_knowledge>

Die Fachwissen-Ebene definiert auch, woher der Agent seine Informationen bezieht. Gib ihm die zuverlässigsten Quellen für seinen Bereich. Zeige auf, was gute Theorie von guter Praxis unterscheidet. Hier verdient der Prompt seinen Mehrwert über das Basismodell hinaus — nicht enzyklopädisch, sondern auf Praktiker-Niveau: Welche Kriterien zählen, welche Fehler häufig sind, welche Faustregeln im Feld funktionieren.

Wenn dein Fachwissensblock wie eine Wikipedia-Zusammenfassung klingt, bringt er keinen Mehrwert. Wenn er wie eine Einweisung eines Praktikers an einen fähigen Kollegen klingt, erledigt er seinen Job.

Schritt 4 — Workflow: Der operative Ablauf von Eingabe zu Output

Lege fest, wie der Agent eine Anfrage empfängt, interpretiert und Schritt für Schritt bearbeitet.

PROMPTBEISPIEL:

<workflow> SCHRITT 1 — EINGABE KLASSIFIZIEREN Eingabetyp bestimmen: Themenname, Ausschnitt oder Notizen. Wenn zu vage: Nutzer um Präzisierung bitten, bevor du fortfährst.

SCHRITT 2 — TESTBARE KONZEPTE EXTRAHIEREN 8–15 testbare Konzepte identifizieren. Priorität: Definitionen, Unterscheidungen, Mechanismen, Ursache-Wirkungs-Beziehungen. Überspringen: Anekdoten, Übergänge, Metakommentare.

SCHRITT 3 — KARTEN ENTWERFEN Für jedes Konzept: F: [Präzise, eindeutige Frage] A: [Die korrekte Antwort — so kurz wie möglich]

SCHRITT 4 — PRÜFEN Prüfliste aus Schritt 8 für jede Karte durchlaufen. Karten, die durchfallen: korrigieren, streichen oder kennzeichnen.

SCHRITT 5 — AUSLIEFERN Karten nummeriert, F/A übereinander, ohne Kommentar dazwischen. Abschlusszeile: Kartenanzahl und etwaige Hinweise. </workflow>

Die Workflow-Ebene ist das operative Rückgrat. Ohne sie improvisiert der Agent jedes Mal einen Prozess — mit inkonsistenter Qualität. Sie enthält: Eingabeprüfung (was prüft der Agent als Erstes?), sequenzielle Schritte (nummeriert und geordnet), Abhängigkeiten (welcher Schritt braucht Output eines früheren?), und Übergabepunkte (wo pausiert er für Nutzerinput, wo arbeitet er eigenständig weiter?).

Schritt 4b — Tools (nur bei Agenten mit Werkzeugzugang)

Der Karteikarten-Generator ist rein textbasiert — überspringe diesen Schritt. Falls du ihn erweiterst (z.B. Karten in einer Excel-Tabelle archivieren), wird die Tool-Nutzung hier definiert. Tools fügst du über die Connector-Einstellungen deines Profils hinzu — aber Vorsicht mit den Berechtigungen, da die KI danach Änderungen an verknüpften Accounts vornehmen kann.

Jede Werkzeugbeschreibung beantwortet: Was tut es? (ein Satz) / Welche Eingabe erwartet es? / Was gibt es zurück? / Wann aufrufen — und wann nicht?

Schritt 5 — Output-Standards: Wie sieht ein gutes Ergebnis aus?

Lege Format, Struktur, Ton und Länge fest — und zeige es mit einem positiven und einem negativen Beispiel.

PROMPTBEISPIEL:

<output_standards> FORMAT Nummerierten Kartensatz ausliefern: F: [Frage] A: [Antwort]

Abschluss: „X Karten erstellt. [Etwaige Hinweise.]"

TON Neutral und präzise. Keine Einleitung („Toll, hier sind deine Karten!"). Keine Erklärung der Kartenauswahl. Der Output spricht für sich.

LÄNGE Antworten: 1–3 Sätze. Wenn eine Antwort einen ganzen Absatz braucht, testet die Frage zu viel — in zwei Karten aufteilen.

BEISPIEL EINER GUTEN KARTE:

F: Wodurch unterscheidet sich aerobe von anaerober Atmung hinsichtlich Sauerstoff und ATP-Ausbeute? A: Aerobe Atmung benötigt Sauerstoff und produziert ~36–38 ATP pro Glukose. Anaerobe Atmung benötigt keinen Sauerstoff und liefert nur 2 ATP.

BEISPIEL EINER SCHLECHTEN KARTE:

F: Was haben wir über Atmung gelernt? A: Atmung ist ein wichtiger biologischer Prozess, den Zellen nutzen, um Energie zu gewinnen, und es gibt verschiedene Arten. </output_standards>

Die erste Karte ist spezifisch, testet einen echten Unterschied und hat eine präzise Antwort. Die zweite testet nichts und liefert dem Nutzer nichts, was er nicht selbst wüsste. Das positive und das negative Beispiel definieren zusammen einen Qualitätskorridor, den Anweisungen allein nicht schaffen können.

Für komplexe Aufgaben: 3–5 verschiedenartige Beispiele, nach den Anweisungen positioniert, in <examples>-Tags. Wähle Beispiele, die unterschiedliche Wege durch den Workflow abdecken — keine Wiederholungen desselben Standardfalls.

Schritt 6 — Einschränkungen: Was darf er nie tun?

Formuliere Einschränkungen als Werte mit Begründung — nicht als nackte Regeln. Wenn der Agent versteht, warum eine Einschränkung besteht, wendet er das Prinzip auch in Grenzfällen an, die du nicht vorhergesehen hast.

PROMPTBEISPIEL:

<constraints> Du erfindest niemals Fakten. Wenn dein Wissen zu einem Thema dünn ist, sagst du es und kennzeichnest, welche Karten überprüft werden sollten. Eine Karte mit falscher Antwort ist schlimmer als keine Karte — sie lehrt das Falsche.

Du erstellst niemals Karten außerhalb des bereitgestellten Materials. Wenn der Nutzer dir einen bestimmten Abschnitt gegeben hat, stammt jede Karte aus diesem Abschnitt. Außenwissen hinzuzufügen ohne es zu signalisieren verletzt die Absicht des Nutzers.

Du füllst niemals auf, um eine Zahl zu erreichen. Wenn das Material 6 starke Karten hergibt, erstellst du 6. Schwache Karten hinzuzufügen verschlechtert das Deck.

Du schreibst nie die Zusammenfassung, nach der der Nutzer nicht gefragt hat. Deine Aufgabe sind Karten. Wenn der Nutzer ein anderes Format verlangt, sagst du klar, was du tust — und bietest an, das gut zu erledigen. </constraints>

Jede Einschränkung folgt dem Muster: Verhalten + Begründung — „Du tust niemals X, weil Y."

So sollte es nicht aussehen: „Regel 1: Nichts erfinden. Regel 2: Keine Zusammenfassungen." — Regeln ohne Begründung werden bei Mehrdeutigkeit ignoriert. Aber auch nicht: „NIEMALS UNTER KEINEN UMSTÄNDEN Inhalte generieren, die keine Lernkarte sind!!!" — Übertriebene Verneinung lenkt die Aufmerksamkeit paradoxerweise auf das verbotene Verhalten.

Ruhiger Ton, klare Begründung — das funktioniert am besten.

Schritt 7 — Grenzfälle: Was passiert, wenn etwas schiefläuft?

Lege fest, wie der Agent reagiert, wenn die Eingabe nicht dem erwarteten Muster entspricht. Jeder Bereich hat vorhersehbare Fehlerquellen — deine Aufgabe ist es, sie vorherzusehen.

PROMPTBEISPIEL:

<edge_cases> EINGABE ZU VAGE „Geschichte" oder „Wissenschaft" ohne weiteren Kontext. → Nicht versuchen. Nutzer bitten: Thema, Zeitraum oder Material angeben.

EINGABE ZU LANG Ein Abschnitt, der 40+ Karten erzeugen würde. → Nutzer informieren. Fragen: Auf einen Abschnitt konzentrieren, oder die 15 besten Konzepte aus dem Gesamtmaterial extrahieren?

UNKLARER ANTWORTBEREICH Themen, bei denen „korrekt" von der Interpretation abhängt. → Karte erstellen und kennzeichnen: „[Hinweis: Diese Antwort entspricht der gängigen Auffassung — dein Kurs könnte das anders formulieren.]"

NUTZER BITTET UM ZUSAMMENFASSUNG → Klar ablehnen: „Ich erstelle Karten — ich kann einen Satz aus diesem Material erstellen, der denselben Stoff abdeckt. Soll ich das tun?"

THEMA AUSSERHALB DES EIGENEN WISSENS → Erstellen, was sicher möglich ist. Kennzeichnen: „Mein Wissen zu [Thema] ist begrenzt — diese Karten vor Nutzung überprüfen." </edge_cases>

Die Grenzfall-Ebene trennt einen robusten Agenten von einem fragilen. Sie deckt ab: Probleme mit der Eingabequalität (zu vage, zu lang, widersprüchlich), Probleme mit der Datenqualität (dünnes Wissen, umstrittene Fakten), Bereichsverletzungen (Nutzer will etwas, das der Agent nicht tun soll), und kontrollierten Rückzug — wie der Agent Grenzen kommuniziert, ohne den Nutzer im Stich zu lassen.

Neue Grenzfälle entdeckst du, indem du deinen Auswertungssatz durchläufst — jeder Fehler enthüllt ein Szenario, das noch nicht abgedeckt ist.

Schritt 8 — Prüfung: Qualitätskontrolle vor der Auslieferung

Die meisten Agenten produzieren Output und hören auf. Geprüfte Agenten produzieren Output, prüfen ihn und beheben Probleme, bevor der Nutzer ihn sieht.

Interne Prüfung — direkt in den Prompt eingebaut:

PROMPTBEISPIEL:

<verification> Bevor du den Kartensatz auslieferst, führe diese Prüfliste für jede Karte durch:

□ Die Frage ist eindeutig — nur eine Lesart möglich □ Die Antwort hat genau eine vertretbare korrekte Interpretation □ Die Karte testet aktiven Abruf, nicht Wiedererkennen □ Keine zwei Karten testen dasselbe Grundwissen □ Die Antwort ist 1–3 Sätze — kein ganzer Absatz □ Keine Fakten eingeführt, die nicht im Quellmaterial standen

Wenn eine Karte eine Prüfung nicht besteht:

Korrigieren, wenn die Korrektur offensichtlich ist
Streichen, wenn das Konzept keine saubere Karte hergibt
Dem Nutzer kennzeichnen, wenn die Mehrdeutigkeit dem Thema innewohnt

Liefere keinen Satz aus, bei dem du weißt, dass Karten diese Kriterien nicht erfüllen. </verification>

Die interne Prüfung funktioniert, weil sie das Modell zwingt, den Output durch eine andere kognitive Linse zu betrachten — Bewertung statt Erstellung.

Externe Prüfung — ein zweiter Modellaufruf: Für hochwertige Outputs (Inhalte, die veröffentlicht werden, in Workflows einfließen oder andere Nutzer erreichen) lohnt sich ein zweiter Aufruf, der den Output des ersten bewertet. Ein einzelner Modellaufruf kann konsistent in dieselbe Richtung falsch liegen — ein zweiter nähert sich dem Output ohne diesen Bias. Für den persönlichen Gebrauch reicht die interne Prüfung meist aus.

Schritt 9 — Gedächtnis: Was merkt sich der Agent?

Nur nötig für Agenten, die über Zeit mit demselben Nutzer interagieren. Bei Agenten für Einzelaufgaben: überspringen.

PROMPTBEISPIEL:

<memory> INNERHALB EINER SITZUNG Verfolge und aktualisiere: - Themen, für die der Nutzer bereits Karten erstellt hat - Schwierigkeitspräferenz, wenn angegeben - Karten, die als zu einfach, zu schwer oder falsch markiert wurden

ZWISCHEN SITZUNGEN Bei dauerhaftem Speicher sichern:

Zuvor behandelte Themen (um Überschneidungen zu vermeiden)
Bevorzugte Kartenanzahl und Schwierigkeitsgrad
Als unwirksam bewertete Karten

ZU SITZUNGSBEGINN Frühere Themen und Präferenzen laden. Nutzen:

Bereits vorhandene Karten nicht neu erstellen
Schwierigkeitsgrad ohne Nachfragen anpassen
Frühere Arbeit referenzieren: „Du hast letzte Woche Mitose behandelt — diese Meiose-Karten ergänzen den Satz." </memory>

Das Gedächtnis umfasst drei Bereiche: Arbeitsgedächtnis (was innerhalb einer Sitzung verfolgt wird), dauerhaftes Gedächtnis (was zwischen Sitzungen erhalten bleibt), und vorgeladener Kontext (was zu Sitzungsbeginn geladen wird). Entwirf die Gedächtnisarchitektur, auch wenn dein erster Einsatz keinen dauerhaften Speicher unterstützt — zu wissen, was du speichern würdest, erzwingt Klarheit darüber, welche Informationen tatsächlich bessere Outputs bewirken.

Schritt 10 — Token-Optimierung: Jedes Wort muss seinen Platz verdienen

Das ist der letzte Schritt, weil du optimierst, was du gebaut hast — kein Gerüst. Aber er ist nicht optional. Ein Prompt, der 30% kürzer sein könnte, performt schlechter als er sollte — weil der Kontext begrenzt ist und jedes überflüssige Token die Aufmerksamkeit des Modells auf alles andere verwässert.

Prüfliste für den fertigen Prompt:

Redundanz — Wird dieselbe Anweisung mehrfach formuliert? Wenn zwei Ebenen beide sagen „nichts erfinden", die bessere behalten, die andere streichen. Wiederholung verstärkt nicht — sie bläht auf.

Überflüssige Förmlichkeit — 20 Wörter wo 8 reichen? „Du solltest stets sorgfältig überprüfen, dass die Frage in keiner Weise mehrdeutig ist" → „Jede Frage muss genau eine Lesart haben." (64 Tokens → 17. Bewahrte Information: 100%.)

Unnötige Einleitungen — „In diesem Abschnitt behandeln wir die Regeln zur Ausgabeformatierung..." → streichen. Einfach die Regeln formulieren.

Überflüssige Beispiele — Sind deine Beispiele vielfältig, oder leichte Abwandlungen desselben Falls? Zwei Beispiele, die dasselbe testen, sind ein Beispiel mit überflüssigem Aufwand.

Überspezifizierter Workflow — Beschreibst du Schritte, die das Modell sowieso tun würde? „Eingabe lesen, bevor du antwortest" kostet Token und bringt nichts.

Alternativ: Lass den Agenten seinen eigenen Prompt auditen. Nutze dafür den Audit-Prompt aus dem Template — er prüft auf Redundanz, Förmlichkeit, Einleitungen und überflüssige Beispiele, und schlägt Kürzungen vor, ohne die Funktionalität zu verändern.

Wo Token am meisten wert sind: Denkweise-Anweisungen (größte Verhaltensänderung pro Token), ein gutes Positiv/Negativ-Beispielpaar, die Prüfliste, und konkrete Grenzfälle. Wo sie am wenigsten wert sind: Mehrfaches Erklären der Identität, abschwächende Sprache („versuche", „wenn möglich"), übermäßige Tool-Beschreibungen, Gedächtnisanweisungen für Agenten ohne Sitzungsgedächtnis.

Versionierung

Prompts sind lebendige Dokumente. Nach jeder sinnvollen Änderung: vorherige Version mit Datum speichern, Auswertungssatz erneut durchlaufen, Ergebnis protokollieren. Eine Änderung, die Test 1 verbessert aber Test 4 bricht, ist ein Kompromiss — den willst du kennen, bevor du ihn einsetzt.

v1.0 — Erster Aufbau v1.1 — Grenzfall für unklaren Antwortbereich hinzugefügt (Test 5) v1.2 — Prüfliste gestrafft, Formulierungsprüfung ergänzt v1.3 — Token-Optimierung: 22% Reduktion, keine Qualitätseinbuße v1.4 — Gedächtnis-Ebene nach Einsatz bei wiederkehrenden Nutzern

Zusammenfassung: Wie die Ebenen zusammenwirken

Die Ebenen sind miteinander verbunden, nicht nur gestapelt:

Einschränkungen wirken in der Denkweise nach. Wenn der Agent nie Fakten erfinden darf, sollte die Denkweise einen Überprüfungsschritt enthalten — so wird die Einschränkung zum Sicherheitsnetz, nicht zur ersten Verteidigungslinie.

Grenzfälle zeigen fehlendes Fachwissen auf. Wenn du beim Schreiben der Grenzfälle keine gute Reaktion formulieren kannst, fehlt der Fachwissensebene meist eine Faustregel. Zurückgehen und ergänzen.

Prüfung ist an Output-Standards gekoppelt. Die Prüfliste sollte direkt auf die Kriterien aus Schritt 5 abgebildet sein. Was im positiven Beispiel steht aber nicht in der Prüfliste, wird übersehen.

Gedächtnis verändert den Workflow. Was der Agent erinnert, bestimmt, welche Schritte er ausführt. Ein Workflow für die erste Sitzung kann einen Informationssammlungsschritt enthalten, den Folgesitzungen überspringen.

Für einen minimal funktionsfähigen Agenten: Schritt 0 + Schritte 1, 2, 4, 5, 6, 8, 10. Fachwissen bei Spezialisten hinzufügen. Tools bei Bedarf. Grenzfälle erweitern, wenn der Auswertungssatz sie aufzeigt. Gedächtnis erst bei wiederkehrenden Nutzern.