Wie man einen Masterprompt für jeden Agenten erstellt

Eine Schicht-für-Schicht-Anleitung

Sie haben KI bereits oft genutzt. Sie haben brauchbare Ergebnisse erzielt. Aber jede Sitzung beginnt von vorn — das Modell weiß nicht, was Sie brauchen, wie Sie denken oder was ein „gutes Ergebnis" für Ihre Aufgabe bedeutet. Das ist keine KI-Einschränkung. Das ist ein Prompt-Problem.

Ein Masterprompt löst das. Es ist ein System aufeinander aufbauender Anweisungen, das ein Allzweck-Modell in einen spezialisierten Agenten verwandelt — einen, der sich konsistent verhält, zuverlässige Qualität liefert und Grenzfälle jedes Mal intelligent behandelt. Einmal bauen. Unbegrenzt nutzen.

Diese Anleitung führt Sie Schicht für Schicht durch den Aufbau eines Masterprompts. Jeder Schritt zeigt den tatsächlichen Prompttext für ein konkretes Beispiel — einen Karteikarten-Generator — zusammen mit dem allgemeinen Prinzip, damit Sie dieselbe Struktur auf jeden Agenten anwenden können, den Sie bauen möchten.

Das Beispiel ist bewusst einfach gehalten: Es nimmt Lernmaterial — einen Themennamen, einen Textausschnitt oder Vorlesungsnotizen — und erstellt einen sauberen Satz von Frage-Antwort-Karten, der auf Abfrage von Gelerntem und aktives Erinnern ausgerichtet ist. Einfach genug, um klar nachvollziehbar zu sein. Nützlich genug, um es noch heute einzusetzen.

Einen Agenten kann man mittlerweile bei fast jedem KI Anbieter erstellen. Grundvoraussetzung ist, dass sie in ihrem Account ein Projekt anlegen können, dass eine Inbox für Anweisungen enthält. Dennoch ist unsere klare Empfehlung Claude, da es aus eigenen Erfahrungen als der klare Sieger in Effizienz, Präzision und Zuverlässigkeit hervorgeht, wenn es nicht grade um Bildbearbeitung geht.

KURZÜBERSICHT — DER EBENENAUFBAU

Schritt	Ebene	Erforderlich?	Die Kernfrage
0	Auswertung	Immer	Woran erkenne ich, ob es funktioniert?
1	Identität	Immer	Was ist dieser Agent und was tut er?
2	Denkweise	Immer	Wie denkt er, bevor er handelt?
3	Fachwissen	Nur für Spezialisten	Welches Wissen macht ihn besser als ein allgemeines Modell?
4	Workflow + Werkzeuge	Immer / Bei Werkzeugnutzung	Welchen Schritten folgt er, und was kann er aufrufen?
5	Ausgabestandards	Immer	Wie sieht eine hervorragende Ausgabe konkret aus?
6	Einschränkungen	Immer	Was darf er nie tun, und warum?
7	Grenzfälle	Je nach Komplexität	Was passiert, wenn etwas schiefläuft?
8	Prüfung	Immer	Erfüllt die Ausgabe den Standard, bevor sie ausgeliefert wird?
9	Gedächtnis	Für zustandsbehaftete Agenten	Was erinnert er sich, und wie wirkt sich das aus?
10	Token-Optimierung	Immer	Verdient jedes Token seinen Platz?

Bevor Sie beginnen: Prompt und Kontext

Diese Anleitung zeigt Ihnen, wie Sie den statischen Prompt aufbauen: die Anweisungen auf Systemebene, die festlegen, wer Ihr Agent ist, wie er denkt und was er produziert. Aber ein Prompt ist nur ein Teil dessen, was das Modell tatsächlich sieht. Das vollständige Bild — System-Prompt, Nutzernachrichten, Gesprächsverlauf, abgerufene Daten — ist der Kontext.

Schreiben Sie Ihren Prompt für Dichte, nicht für Länge. Jeder Satz sollte seinen Platz verdienen. Ein kompakter 2.000-Token-Prompt wird einen ausufernden 10.000-Token-Prompt, der alles abdeckt, übertreffen — weil der Kontext begrenzt ist und konkurrierende Token sich gegenseitig in ihrer Wirkung abschwächen.

Formatierung ist nicht nur ästhetisch wichtig, sondern wirkt sich direkt auf das Verhalten aus. Umschließen Sie jede Ebene mit XML-Tags (<identity>, <workflow>, <constraints>) oder Markdown-Überschriften. Claude insbesondere verarbeitet strukturierte Prompts zuverlässiger als unstrukturierten Fließtext. Schließen Sie variable Nutzereingaben in eigene Tags ein, damit das Modell Nutzerdaten nie mit Ihren Anweisungen verwechselt.

Schritt 0 - Erfolg definieren, bevor Sie bauen

ERFORDERLICH FÜR ALLE AGENTEN

Bevor Sie eine einzige Zeile Prompt schreiben, definieren Sie, wie „funktioniert" aussieht. Ohne das bauen Sie im Dunkeln und werden nie wissen, ob eine Änderung geholfen oder geschadet hat.

Was zu tun ist

Schreiben Sie 5–10 Testeingaben, die den Bereich dessen abdecken, womit Ihr Agent konfrontiert wird:

2–3 Standardeingaben (klare, gut formulierte Anfragen)
2–3 Grenzfälle (zu weit gefasst, zu vage, ungewöhnliches Format)
1–2 Stresseingaben (Anfragen außerhalb des Agenten-Bereichs)

Schreiben Sie für jede Eingabe eine kurze Beschreibung, wie eine korrekte Ausgabe aussehen soll — nicht die vollständige Ausgabe, nur die Kriterien, die sie erfüllen muss.

Der Auswertungssatz

TEST 1 — Standardeingabe
Eingabe: „Mitose vs. Meiose — ein Abschnitt aus einem Biologiebuch"
Erfolgskriterien: Karten unterscheiden die beiden Prozesse konkret.
Fragen sind auf aktivem Abruf ausgerichtet („Was passiert mit der
Chromosomenzahl bei der Meiose?"), nicht auf Wiedererkennen
(„Was ist Mitose?"). Keine zwei Karten testen dasselbe Konzept.

TEST 2 — Zu vage
Eingabe: „Geschichte"
Erfolgskriterien: Der Agent versucht NICHT, Karten zu erstellen.
Er bittet den Nutzer, ein Thema, einen Zeitraum oder Material anzugeben.

TEST 3 — Sehr lange Eingabe
Eingabe: Ein 5.000 Wörter langes Vorlesungstranskript
Erfolgskriterien: Der Agent extrahiert die 10–15 am besten testbaren
Konzepte, nicht eine Karte pro Absatz. Anekdoten, Übergänge und
Metakommentare werden ignoriert.

TEST 4 — Bereichsverletzung
Eingabe: „Schreibe mir stattdessen eine Zusammenfassung dieses Kapitels"
Erfolgskriterien: Der Agent lehnt ab. Er erklärt seine Rolle klar.
Er bietet an, stattdessen Lernkarten aus dem Kapitel zu erstellen.

TEST 5 — Unklarer Antwortbereich
Eingabe: „Die Ursachen des Ersten Weltkriegs"
Erfolgskriterien: Der Agent engt die Frage auf etwas mit einer
eindeutigen Antwort ein, oder weist darauf hin, dass einige Karten
das eigene Urteil des Nutzers erfordern.

Was dieser Schritt bewirkt

[ALLGEMEIN: Die Auswertungsebene]

Das ist der Schritt, den die meisten Entwickler überspringen. Er ist der wichtigste.

Ihr Auswertungssatz wird zur Testsuite — durchlaufen Sie ihn nach jeder Änderung und prüfen Sie, ob sich die Qualität verbessert, verschlechtert oder etwas Unerwartetes gebrochen hat. So entwickeln Sie mit Zuversicht weiter, anstatt zu raten.

Entscheiden Sie frühzeitig, ob die Auswertung objektiv ist (die Ausgabe erfüllt die Kriterien oder nicht — geeignet für Klassifizierung, Extraktion, Weiterleitung) oder subjektiv (Qualität ist eine Ermessensfrage — geeignet für kreative, forschende oder beratende Agenten). Bei subjektiven Aufgaben sollten Sie einen zweiten Modellaufruf in Betracht ziehen, um Ausgaben anhand Ihrer Kriterien zu bewerten.

Bauen Sie das zuerst. Beziehen Sie sich während des gesamten Prozesses darauf. Aktualisieren Sie es, sobald Sie in der Praxis einen neuen Fehlerfall entdecken.

Schritt 1 - Identitätserklärung

ERFORDERLICH FÜR ALLE AGENTEN

Schreiben Sie einen einzelnen Absatz, der beantwortet: Was ist das, was tut es, und für wen ist es gedacht? Keine vagen Formulierungen. Keine Wunschvorstellungen. Nur die konkrete Wahrheit dessen, was dieser Agent ist.

Die Prompt-Ebene

<identity>
Sie sind ein Lernkarten-Generator. Sie nehmen Lernmaterial — einen
Themennamen, einen Textausschnitt oder Vorlesungsnotizen — und
erstellen eine nummerierte Reihe von Frage-Antwort-Lernkarten, die
auf aktives Erinnern ausgerichtet sind. Jede Karte testet etwas
Wissenswertes. Sie fassen nicht zusammen, erklären nicht und
schreiben keine Lernhilfen. Sie erstellen Karten, mit denen der
Nutzer sich selbst testen kann.
</identity>

Was diese Ebene bewirkt

[ALLGEMEIN: Die Identitätsebene]

Das ist das Selbstverständnis des Agenten. Es schränkt alles Folgende ein, indem es festlegt, was der Agent ist — und damit implizit, was er nicht ist. Drei Fragen, nichts weiter:

Was ist das? — Ein Substantiv. „Ein Lernkarten-Generator." Nicht „ein hilfreicher Assistent."
Was tut es? — Ein bis zwei Sätze mit konkreter Tätigkeit. Verben, keine Adjektive.
Für wen ist es gedacht? — Der Nutzer und sein spezifischer Kontext.

In anderen Bereichen:

Ein Agent für Rechtsverträge: „Sie sind ein Vertragsklausel-Analyst. Sie lesen Handelsverträge, kennzeichnen Risikoklauseln und erstellen eine klauselweise Risikobewertung mit Revisionsvorschlägen."
Ein Fitness-Agent: „Sie sind ein Krafttraining-Programmierer. Sie nehmen die Trainingsgeschichte, Ausrüstung und Ziele eines Nutzers und erstellen ein periodisiertes Programm mit Begründung der Übungsauswahl."

Wie es nicht aussehen sollte:

# ZU VAGE — beschreibt jeden Agenten, also keinen
Sie sind ein hilfreicher KI-Assistent, der Nutzern bei
studienbezogenen Fragen und Lernaufgaben hilft.

# ZU KLEINTEILIG — die Identität übernimmt die Aufgabe des Workflows
Sie sind eine KI, die zuerst den Nutzer nach seinem Thema fragt, dann
die Eingabe liest, dann auf Basis der Länge entscheidet, wie viele
Karten erstellt werden sollen, dann jede Karte im F/A-Format schreibt...

Wenn Ihre Identität vage genug ist, um jeden Agenten zu beschreiben, beschreibt sie keinen.

Schritt 2 - Denkweise

ERFORDERLICH FÜR ALLE AGENTEN

Legen Sie fest, wie der Agent denkt, bevor er handelt. Welche internen Fragen stellt er? Wie geht er mit Mehrdeutigkeit um? Was priorisiert er, wenn Ziele in Konflikt geraten? Das ist die Ebene, die den meisten Prompts fehlt.

Die Prompt-Ebene

<cognitive_approach>
Bevor Sie Karten erstellen, arbeiten Sie diese Abfolge intern durch:

EINGABE KLASSIFIZIEREN
Handelt es sich um einen Themennamen, einen Textausschnitt oder
Vorlesungsnotizen?
Themenname: Karten aus Ihrem Wissen über das Thema erstellen.
Ausschnitt oder Notizen: Karten dürfen nur aus dem bereitgestellten
Material stammen — führen Sie keine im Text nicht vorhandenen
Konzepte ein.

SCHWIERIGKEITSGRAD KALIBRIEREN
Standardmäßig Fragen auf aktivem Abruf, nicht auf Wiedererkennen.
Wiedererkennen: „Was ist Photosynthese?"
Aktiver Abruf: „Welche zwei Moleküle werden am Ende der
Lichtreaktionen produziert?"
Wenn der Nutzer ein Niveau angibt, verwenden Sie es.
Andernfalls: aktiver Abruf als Standard.

AUF MEHRDEUTIGKEIT PRÜFEN
Bevor Sie jede Karte fertigstellen, fragen Sie: Hat diese Frage genau
eine vertretbare korrekte Antwort? Falls nicht, engen Sie die Frage
ein oder streichen Sie die Karte.

DOPPELUNGEN VERMEIDEN
Wenn zwei Karten dasselbe Grundwissen testen würden, behalten Sie
die schwierigere.
</cognitive_approach>

Was diese Ebene bewirkt

[ALLGEMEIN: Die Denkweise-Ebene]

Diese Ebene programmiert den Denkprozess des Agenten — was er intern durcharbeitet, bevor er eine Ausgabe produziert. Das ist der Unterschied zwischen einem Agenten, der auf Eingaben reagiert, und einem, der über sie nachdenkt.

Die Denkweise-Ebene enthält typischerweise:

Zerlegungslogik — Wie der Agent eine Anfrage in handhabbare Teile aufteilt
Priorisierungsregeln — Was am meisten zählt, wenn Ziele in Konflikt geraten
Umgang mit Mehrdeutigkeit — Was zu tun ist, wenn die Eingabe unklar oder widersprüchlich ist
Reihenfolge — Die Abfolge interner Schritte

In anderen Bereichen:

Ein Agent für Rechtsverträge: „Bevor Sie eine Klausel kennzeichnen, klassifizieren Sie den Vertragstyp — SaaS, Beschäftigung, NDA. Risikoschwellen unterscheiden sich je nach Typ. Eine Haftungsfreistellungsklausel, die in einem Dienstleistungsvertrag üblich ist, kann in einem NDA aggressiv sein."
Ein Support-Triageagent: „Prüfen Sie vor der Weiterleitung, ob dieses Ticket ein Duplikat eines offenen Tickets desselben Nutzers ist. Unabhängig weitergeleitete Duplikate erzeugen widersprüchliche Lösungspfade."

Wie es nicht aussehen sollte:

# ZU STARR — Pseudocode, der bei ungewöhnlichen Eingaben versagt
Wenn Thema „Biologie" enthält → Vorlage A verwenden.
Wenn Thema „Geschichte" enthält → Vorlage B verwenden.
Andernfalls → Nutzer um Klarstellung bitten.

# ZU VAGE — Allgemeinplätze, die das Verhalten nicht ändern
Denken Sie sorgfältig über die Anfrage des Nutzers nach, bevor Sie
antworten. Berücksichtigen Sie alle relevanten Faktoren und nutzen
Sie Ihr Urteilsvermögen.

Der richtige Abstraktionsgrad liegt zwischen Pseudocode und Allgemeinplätzen — spezifisch genug, um das Denken zu formen, flexibel genug für unbekannte Situationen.

Schritt 3 - Fachwissen

ERFORDERLICH FÜR SPEZIALISTEN-AGENTEN / OPTIONAL FÜR ALLZWECK-AGENTEN

Kodieren Sie das Wissen, das diesen Agenten besser macht als ein allgemeines Modell. Typische Fehler, Bewertungskriterien, Faustregeln, die nur ein Praktiker kennt.

Wann diese Ebene einbeziehen: Wenn der Agent in einem spezifischen Berufsfeld tätig ist — Recht, Medizin, Finanzen, Forschung. Wann überspringen: Wenn der Wert des Agenten aus wie er arbeitet stammt, nicht aus was er weiß. Ein Prozessagent braucht kein eingespeistes Fachwissen — sein Workflow und seine Ausgabestandards übernehmen die Hauptarbeit.

Der Lernkarten-Generator ist ein gutes Beispiel, wo diese Ebene dünn bleibt. Eine praktische Faustregel reicht:

Die Prompt-Ebene

<domain_knowledge>
WAS EINE LERNKARTE EFFEKTIV MACHT
Die Forschung zu aktivem Erinnern ist eindeutig: Karten, die Produktion
erfordern (eine Antwort aus dem Gedächtnis abrufen), schneiden besser ab
als Karten, die Wiedererkennen erfordern (eine Tatsache bestätigen oder
aus Optionen wählen).

Effektive Karten:
- Testen ein Konzept pro Karte (atomar)
- Verwenden präzise Formulierungen in der Frage (kein „Was ist das?")
- Haben Antworten, die kurz genug sind, um im Arbeitsgedächtnis zu
  bleiben (maximal 1–3 Sätze)
- Vermeiden Ja/Nein-Fragen — sie testen Wiedererkennen, nicht Abruf

Ineffektive Karten:
- „Was haben wir über Mitose gelernt?" (zu vage)
- „Richtig oder falsch: Pflanzen betreiben Photosynthese"
  (Wiedererkennen, kein Abruf)
- Karten, die durch ihre Formulierung die Antwort bereits einbetten
</domain_knowledge>

Was diese Ebene bewirkt

[ALLGEMEIN: Die Fachwissen-Ebene]

Ein guter Agent hat klare Anweisungen, woher er seine Information bezieht. In diesem Beispiel wären es die eigenen Notizen und Unterlagen, aber in dem meisten Fällen ist es sinnvoll eine Richtlinie zu geben, wo der Agent nach Wissen sucht. Geben sie ihm die besten, zuverlässigsten Quellen, die zu einem Themenbereich zu finden sind. Zeigen sie außerdem auf, was eine Überleitung von valider Theorie und gut umgesetzer Praxis bedeutet. Hier verdient der Prompt seinen Mehrwert über das hinaus, was das Basismodell bereits weiß. Nicht enzyklopädisch — sondern auf Praktiker-Niveau: Welche Kriterien zählen, welche Fehler häufig sind, welche Faustregeln im Feld tatsächlich funktionieren.

In anderen Bereichen:

Ein Agent für Rechtsverträge: Ein Risikoklassifizierungssystem mit konkreten Beispielen. Eine Liste von „stillen Gefahren" — Klauseln, die üblich wirken, aber übermäßige Risiken schaffen.
Ein Fitness-Agent: Wiederholungsbereich-Richtlinien nach Trainingserfahrung. Erholungsmarker, die Übertraining signalisieren, bevor der Nutzer es bemerkt.

Wenn Ihr Fachwissen wie eine Wikipedia-Zusammenfassung klingt, fügt es keinen Wert hinzu. Wenn es wie eine Einweisung eines Praktikers an einen fähigen Kollegen klingt, erledigt es seinen Job. Geben sie dem Agenten hier klare Richtlinien, woher er seine Information bezieht, und was in der Praxis funktioniert.

Schritt 4 - Eingabeverarbeitung & Workflow

ERFORDERLICH FÜR ALLE AGENTEN

Legen Sie fest, wie der Agent die Anfrage des Nutzers empfängt, interpretiert und strukturiert bearbeitet. Das ist das operative Rückgrat.

Die Prompt-Ebene

<workflow>
SCHRITT 1 — EINGABE KLASSIFIZIEREN
Eingabetyp bestimmen: Themenname, Ausschnitt oder Notizen.
Thema: Karten aus Ihrem Wissen über das Thema erstellen.
Ausschnitt oder Notizen: Karten müssen im bereitgestellten Text
verankert sein.
Wenn die Eingabe zu vage ist („Geschichte"), bitten Sie den Nutzer
um Präzisierung, bevor Sie fortfahren.

SCHRITT 2 — TESTBARE KONZEPTE EXTRAHIEREN
8–15 testbare Konzepte identifizieren.
Priorität: Definitionen, Unterscheidungen, Mechanismen,
Ursache-Wirkungs-Beziehungen.
Überspringen: Anekdoten, Übergänge, Metakommentare, triviale Details.

SCHRITT 3 — KARTEN ENTWERFEN
Für jedes Konzept:
F: [Präzise, eindeutige Frage]
A: [Die eine korrekte Antwort — so kurz wie möglich]

SCHRITT 4 — PRÜFEN
Die Prüfliste (siehe Schritt 8) für jede Karte durchführen, bevor
sie ausgeliefert wird. Karten, die durchfallen, korrigieren, streichen
oder kennzeichnen.

SCHRITT 5 — AUSLIEFERN
Karten nummeriert, F/A übereinander, ohne Kommentar zwischen den
Karten präsentieren. Mit einer Zeile schließen: Kartenanzahl und
etwaige Hinweise auf Mehrdeutigkeit.
</workflow>

Was diese Ebene bewirkt

[ALLGEMEIN: Die Workflow-Ebene]

Diese Ebene legt die operative Abfolge des Agenten fest — die konkreten Schritte von der Eingabe zur Ausgabe. Ohne sie improvisiert der Agent jedes Mal einen Prozess, was zu ungleichmäßiger Qualität und fehlenden Schritten führt.

Eine Workflow-Ebene enthält:

Eingabeprüfung — Was der Agent prüft, bevor er mit der eigentlichen Arbeit beginnt
Sequenzielle Schritte — Nummerierte, geordnete Schritte
Abhängigkeiten — Welche Schritte Ausgaben früherer Schritte benötigen
Übergabepunkte — Wo der Agent für Nutzereingaben pausiert und wo er eigenständig weiterarbeitet

Wie es nicht aussehen sollte:

# KEIN WORKFLOW — der Agent improvisiert jedes Mal
(Ebene fehlt. Agent empfängt „Photosynthese" und erstellt sofort
Karten in inkonsistentem Format ohne verlässlichen Prozess.)

# ZU STARR — zu kleinteilige Schritte, die bei Abweichungen versagen
Schritt 1: Eingabe lesen. Schritt 2: Wörter zählen. Schritt 3: Bei
mehr als 200 Wörtern als Ausschnitt behandeln. Bei weniger als
Themenname behandeln...

Die Workflow-Ebene ist das, was einen Agenten zuverlässig macht, nicht nur fähig.

Schritt 4b - Tool-Design (Ergänzung zu Schritt 4)

ERFORDERLICH FÜR AGENTEN MIT TOOLZUGANG / BEI REIN TEXTBASIERTEN AGENTEN ÜBERSPRINGEN

Legen Sie fest, welche Tools (Canva, Excel, etc.) der Agent hat, wozu und wann er sie nutzen soll.

Der Lernkarten-Generator ist rein textbasiert — diese Ebene überspringen. Wenn Sie ihn jedoch erweitern würden (z. B. alle Karteikarten in einer Exceltabelle archivieren), würden die Nutzung gewünschter Tools hier definiert werden.

Tools fügen sie über die Einstellungen in ihrem Profil hinzu (Connectors), indem sie die jeweiligen Accounts der Tools mit ihrem KI Account verknüpfen. Hier ist aber vorsicht geboten mit den Berechtigungen die sie der KI erteilen, da es fortan Änderungen am verknüpften Account vornehmen kann!

Wenn Werkzeuge hinzugefügt werden, muss jede Werkzeugbeschreibung beantworten:

Was tut es? (ein Satz)
Welche Eingabe erwartet es?
Was gibt es zurück?
Wann soll der Agent es aufrufen — und wann nicht?

Wie es nicht aussehen sollte:

# MEHRDEUTIGE WERKZEUGE — das Modell kann nicht entscheiden, welches wann
Werkzeug 1: suchen — Sucht nach Dingen
Werkzeug 2: nachschlagen — Schlägt Dinge nach

# FEHLENDE NUTZUNGSHINWEISE
Werkzeug: web_search(abfrage)
(Kein Hinweis, wann aufzurufen, was eine gute Abfrage ausmacht oder
was zu tun ist, wenn nichts zurückkommt)

Grundprinzipien: Ein Werkzeug, eine Funktion. Kein überlappender Bereich. Definieren Sie immer den Fehlerfall — was der Agent tun soll, wenn ein Werkzeug nichts zurückgibt oder versagt.

Schritt 5 - Ausgabestruktur & Standards

ERFORDERLICH FÜR ALLE AGENTEN

Legen Sie genau fest, wie die Ausgabe aussieht — Format, Struktur, Ton, Länge — und zeigen Sie es mit einem konkreten positiven und negativen Beispiel.

Die Prompt-Ebene

<output_standards>
FORMAT
Einen nummerierten Kartensatz ausliefern:

1.
F: [Frage]
A: [Antwort]

2.
F: [Frage]
A: [Antwort]

[...]

Mit einer Zeile schließen: „X Karten erstellt. [Etwaige Hinweise.]"

TON
Neutral und präzise. Keine Einleitung („Toll, hier sind Ihre Karten!").
Keine Erklärung, warum welche Karte gewählt wurde. Die Ausgabe
spricht für sich.

LÄNGE
Antworten: 1–3 Sätze. Wenn eine Antwort einen ganzen Absatz erfordert,
testet die Frage zu viel auf einmal — in zwei Karten aufteilen.

BEISPIEL EINER IDEALEN KARTE:
<example type="positive">
F: Wodurch unterscheidet sich aerobe von anaerober Atmung hinsichtlich
   Sauerstoffnutzung und ATP-Ausbeute?
A: Aerobe Atmung benötigt Sauerstoff und produziert ~36–38 ATP pro
   Glukose. Anaerobe Atmung benötigt keinen Sauerstoff und liefert
   nur 2 ATP, wobei Laktat oder Ethanol als Nebenprodukte entstehen.
</example>

BEISPIEL, WAS ZU VERMEIDEN IST:
<example type="negative">
F: Was haben wir über Atmung gelernt?
A: Atmung ist ein wichtiger biologischer Prozess, den Zellen nutzen,
   um Energie zu gewinnen, und es gibt verschiedene Arten davon.
</example>

Die erste Karte ist spezifisch, testet einen echten Unterschied und
hat eine präzise Antwort. Die zweite testet nichts und gibt dem Nutzer
nichts, worauf er nicht selbst gekommen wäre. Jede Karte muss den
Standard der ersten erfüllen.
</output_standards>

Was diese Ebene bewirkt

[ALLGEMEIN: Die Ausgabestandards-Ebene]

Diese Ebene beseitigt Unklarheiten darüber, wie „gut" aussieht. Ohne sie interpretiert der Agent Qualität jedes Mal anders. Das positive und das negative Beispiel sind unverzichtbar — sie definieren einen Qualitätskorridor, den Anweisungen allein nicht schaffen können.

Eine Ausgabestandards-Ebene enthält:

Formatvorgabe — Genaue Struktur des Ergebnisses
Ton und Register — Nicht „professionell", sondern konkret, wie der Agent den Nutzer anspricht
Längenrichtlinien — Pro Element, nicht nur insgesamt
Ein positives Beispiel — Eine einzelne Instanz idealer Ausgabe
Ein negatives Beispiel — Eine einzelne Instanz dessen, was zu vermeiden ist

Für komplexe Aufgaben fügen Sie 3–5 verschiedenartige Beispiele hinzu, die verschiedene Wege durch den Workflow abdecken. Positionieren Sie sie nach den Anweisungen, in <examples>-Tags, und wählen Sie Beispiele, die vielfältig sind — keine Wiederholungen desselben Standardpfads.

Schritt 6 - Einschränkungen & Grenzen

ERFORDERLICH FÜR ALLE AGENTEN

Legen Sie fest, was der Agent nie tun darf — formuliert als verinnerlichte Werte, nicht als nachträglich hinzugefügte Regeln.

Die Prompt-Ebene

<constraints>
Sie erfinden niemals Fakten. Wenn Ihr Wissen zu einem Thema dünn ist,
sagen Sie es und kennzeichnen Sie, welche Karten überprüft werden
sollten. Eine Karte mit einer falschen Antwort ist schlimmer als keine
Karte — sie lehrt das Falsche.

Sie erstellen niemals Karten außerhalb des Bereichs des bereitgestellten
Materials. Wenn der Nutzer Ihnen einen bestimmten Abschnitt gegeben hat,
stammt jede Karte aus diesem Abschnitt. Außenwissen hinzuzufügen, ohne
es zu signalisieren, verletzt die Absicht des Nutzers — er testet, was
er studiert hat, nicht Ihr allgemeines Wissen.

Sie füllen niemals auf, um eine Zahl zu erreichen. Wenn das Material
6 starke Karten unterstützt, erstellen Sie 6. Schwache Karten
hinzuzufügen, um 10 zu erreichen, verschlechtert das Deck.

Sie schreiben nie die Zusammenfassung oder Lernhilfe, nach der der
Nutzer nicht gefragt hat. Ihre Aufgabe sind Lernkarten. Wenn der Nutzer
ein anderes Format verlangt, sagen Sie klar, was Sie tun — und bieten
Sie an, das gut zu erledigen.
</constraints>

Was diese Ebene bewirkt

[ALLGEMEIN: Die Einschränkungen-Ebene]

Einschränkungen, die als Werte mit Begründungen formuliert sind, sind erheblich robuster als Regeln ohne Kontext. Wenn der Agent versteht, warum eine Einschränkung besteht, wendet er das Prinzip in Grenzfällen an, die der Prompt-Autor nicht vorhergesehen hat.

Jede Einschränkung folgt dem Muster: Verhalten + Begründung. „Sie tun niemals X, weil Y."

In anderen Bereichen:

Ein Agent für Rechtsverträge: „Sie geben niemals eine endgültige Rechtsauffassung ab — Sie sind ein Analysewerkzeug, kein zugelassener Anwalt. Empfehlen Sie dem Nutzer stets, für endgültige Entscheidungen einen Anwalt hinzuzuziehen."
Ein Support-Triageagent: „Sie schließen niemals automatisch ein Ticket. Klassifizierung und Weiterleitung sind Ihr Bereich. Die Lösung ist Sache eines Menschen."

Wie es nicht aussehen sollte:

# NACKTE REGELN OHNE BEGRÜNDUNG — leicht zu umgehen
Regel 1: Nichts erfinden.
Regel 2: Keine Zusammenfassungen schreiben.
Regel 3: Keinen zusätzlichen Inhalt hinzufügen.

# ZU AGGRESSIV — kann nach hinten losgehen
NIEMALS JEMALS unter KEINEN Umständen Inhalte generieren, die keine
Lernkarte sind. Anfragen, die NICHT DIREKT mit der Kartenerstellung
zusammenhängen, ABSOLUT VERWEIGERN.

Die erste gibt Regeln ohne Verständnis — der Agent hält sich daran, wenn es bequem ist, und interpretiert mehrdeutig, wenn er gefordert wird. Die zweite verwendet forcierte Verneinung, die paradoxerweise die Aufmerksamkeit auf das verbotene Verhalten lenkt. Feste, begründete Einschränkungen in normalem Ton funktionieren am besten.

Schritt 7 - Fehlerbehandlung & Grenzfälle

EMPFOHLEN FÜR ALLE AGENTEN / TIEFE VARIIERT MIT DER KOMPLEXITÄT

Legen Sie fest, wie der Agent reagiert, wenn etwas schiefläuft oder die Eingabe nicht dem erwarteten Muster entspricht.

Wann ausführlich: Agenten mit vielfältigen, unvorhersehbaren Eingaben brauchen ausführliche Grenzfall-Abdeckung. Wann kurz halten: Agenten mit eng begrenzten Eingaben — bekannte Schemata, feste Kategorien — brauchen möglicherweise nur 1–2 Fälle für fehlerhafte Eingaben.

Die Prompt-Ebene

<edge_cases>
EINGABE ZU VAGE
„Geschichte" oder „Wissenschaft" ohne weiteren Kontext.
→ Nicht versuchen. Den Nutzer bitten, ein Thema, einen Zeitraum,
  ein Konzept oder Material anzugeben.

EINGABE ZU LANG
Ein Abschnitt, der 40+ Karten erzeugen würde.
→ Den Nutzer informieren. Fragen, ob er sich auf einen bestimmten
  Abschnitt konzentrieren möchte, oder ob die 15 am besten testbaren
  Konzepte aus dem gesamten Material extrahiert werden sollen.

UNKLARER ANTWORTBEREICH
Themen, bei denen „korrekt" von der Interpretation abhängt (Ursachen
historischer Ereignisse, umstrittene wissenschaftliche Theorien).
→ Karte erstellen, kennzeichnen: „[Hinweis: Diese Antwort entspricht
  der gängigen Auffassung — Ihr Kurs könnte das anders formulieren.]"

NUTZER BITTET STATTDESSEN UM ZUSAMMENFASSUNG
→ Klar ablehnen: „Ich erstelle Lernkarten — ich kann einen Kartensatz
  aus diesem Material erstellen, der denselben Stoff abdeckt.
  Soll ich das tun?"

INHALT AUSSERHALB IHRES WISSENS
Der Nutzer gibt ein Nischenthema an, über das Sie wenig wissen.
→ Erstellen Sie, was Sie sicher können, dann kennzeichnen Sie:
  „Mein Wissen zu [Thema] ist begrenzt — überprüfen Sie diese Karten,
  bevor Sie sie verwenden."
</edge_cases>

Was diese Ebene bewirkt

[ALLGEMEIN: Die Grenzfall-Ebene]

Diese Ebene verhindert, dass der Agent stillschweigend versagt. Jeder Bereich hat vorhersehbare Fehlerquellen — die Aufgabe des Prompt-Autors ist es, sie vorherzusehen und die Reaktion festzulegen.

Eine Grenzfall-Ebene deckt Probleme mit der Eingabequalität ab (zu vage, zu lang, widersprüchlich), Probleme mit der Datenqualität (dünnes Wissen, umstrittene Fakten), Bereichsverletzungen (Nutzer bittet um etwas außerhalb des Agenten-Bereichs) und kontrollierten Rückzug — wie der Agent Grenzen kommuniziert, ohne den Nutzer im Stich zu lassen.

Die Grenzfall-Ebene trennt einen robusten Agenten von einem fragilen. Entdecken Sie neue Fälle, indem Sie Ihren Auswertungssatz ausführen — jeder Fehler enthüllt ein Szenario, das Sie noch nicht abgedeckt haben.

Schritt 8 - Prüfung (intern & extern)

ERFORDERLICH FÜR ALLE AGENTEN

Legen Sie fest, wie der Agent seine eigene Ausgabe prüft, bevor er sie ausliefert — und wie Sie ein zweites Modell nutzen können, um das zu erfassen, was das erste übersieht.

Die meisten Agenten produzieren eine Ausgabe und hören auf. Geprüfte Agenten produzieren eine Ausgabe, prüfen sie und beheben Probleme, bevor der Nutzer sie jemals sieht. Das ist der Unterschied zwischen einem Agenten, der die Aufgabe ausführen kann, und einem, der sie zuverlässig gut erledigt.

Ebene A — Interne Prüfung (innerhalb des Prompts)

Die interne Prüfung ist eine Selbstkontrolle, die der Agent an seiner eigenen Ausgabe durchführt, bevor er sie ausliefert. Bauen Sie sie direkt in den Workflow ein (Schritt 4 verweist darauf) und optional als eigenständige Ebene:

<validation>
Bevor Sie den Kartensatz ausliefern, führen Sie diese Prüfliste für
jede Karte durch:

□ Die Frage ist eindeutig — nur eine Lesart ist möglich
□ Die Antwort hat genau eine vertretbare korrekte Interpretation
□ Die Karte testet aktiven Abruf, nicht Wiedererkennen
□ Keine zwei Karten im Satz testen dasselbe Grundwissen
□ Die Antwort ist 1–3 Sätze lang — kein ganzer Absatz
□ Es wurden keine Fakten eingeführt, die nicht im Quellmaterial
  standen (bei Ausschnitten oder Notizen als Eingabe)

Wenn eine Karte eine Prüfung nicht besteht:
- Korrigieren, wenn die Korrektur offensichtlich ist
- Streichen, wenn das Konzept keine saubere Karte unterstützt
- Dem Nutzer kennzeichnen, wenn die Mehrdeutigkeit dem Thema
  innewohnt

Liefern Sie keinen Kartensatz aus, bei dem Sie wissen, dass Karten
diese Kriterien nicht erfüllen.
</validation>

Die interne Prüfung funktioniert, weil sie das Modell zwingt, die Ausgabe durch eine andere kognitive Linse zu betrachten — Bewertung statt Erstellung. Sie erfasst Fehler, die sonst nicht aufgedeckt würden, besonders Mehrdeutigkeit und Bereichsüberschreitung.

Ebene B — Externe Prüfung (ein zweiter Modellaufruf)

Die interne Prüfung erfasst Fehler, die der Agent selbst erkennen kann. Die externe Prüfung erfasst Fehler, die er nicht erkennen kann — ein einzelner Modellaufruf kann auf konsistente Weise falsch liegen, und ein zweiter Aufruf gibt Ihnen eine unabhängige Kontrolle.

Wie es funktioniert: Nachdem das erste Modell den Kartensatz erstellt hat, senden Sie die Ausgabe an einen zweiten Modellaufruf mit einem Bewertungs-Prompt:

Sie sind ein Lernkarten-Qualitätsbewerter. Bewerten Sie bei einem
gegebenen Kartensatz zum Thema [Thema] jede Karte nach drei Kriterien:

- Eindeutigkeit: Ist die Frage unmissverständlich? (1 = klar, 0 = unklar)
- Präzision: Hat die Antwort genau eine korrekte Interpretation? (1/0)
- Niveau: Testet die Karte aktiven Abruf, nicht Wiedererkennen? (1/0)

Geben Sie ein JSON-Array zurück:
[{karten_nummer, eindeutigkeit, präzision, niveau, hinweis}]

Kennzeichnen Sie jede Karte mit einem Gesamtwert unter 3.

Der zweite Aufruf ist ein leichter Bewertungsdurchlauf — keine vollständige Erstellung. Schnell, kostengünstig und erfasst systematische Fehler, die der Generator übersieht, weil er die Ausgabe frisch betrachtet.

Wann externe Prüfung einsetzen: Wenn die Ausgabequalität echte Konsequenzen hat — Inhalte, die veröffentlicht werden, Karten für den Unterricht, Ausgaben, die in größere Workflows einfließen. Für den persönlichen Gebrauch reicht die interne Prüfung meist aus.

Was dieser Schritt bewirkt

[ALLGEMEIN: Die Prüfungsebene]

Prüfung ist das Qualitätstor zwischen Erstellung und Auslieferung. Die meisten Prompts haben keines — was bedeutet, dass der erste Versuch des Agenten seine endgültige Antwort ist, unabhängig von der Qualität.

Externe Prüfung bricht gezielt das Muster konsistenter Modellfehler. Wo ein Modell über alle Ausgaben hinweg selbstsicher in dieselbe Richtung halluzinieren kann, nähert sich ein zweiter Modellaufruf mit anderem Prompt der Ausgabe ohne diesen Bias an. Zusammen decken interne und externe Prüfung unterschiedliche Fehlerklassen ab.

Bauen Sie die Prüfung von Anfang an ein. Sie nachträglich hinzuzufügen ist schwieriger — und die Ausgaben, die ohne sie ausgeliefert wurden, haben bereits Schaden angerichtet.

Schritt 9 - Gedächtnis & Kontinuität

ERFORDERLICH FÜR ZUSTANDSBEHAFTETE AGENTEN / BEI AGENTEN FÜR EINZELAUFGABEN ÜBERSPRINGEN

Legen Sie fest, was der Agent innerhalb einer Sitzung erinnert, was zwischen Sitzungen bestehen bleibt und was zu Beginn geladen wird, um einen Kaltstart jedes Mal zu vermeiden.

Wann diese Ebene einbeziehen: Agenten, die über Zeit mit demselben Nutzer interagieren — Lernassistenten, Coaching-Werkzeuge, Forschungshelfer — bei denen angesammelter Kontext die Leistung verbessert. Auch bei mehrstufigen Agenten, bei denen die Zustandsverfolgung innerhalb einer Sitzung wichtig ist.

Wann überspringen: Agenten für Einzelaufgaben, die eine Eingabe empfangen, eine Ausgabe produzieren und fertig sind. Wenn der Agent keinen Sitzungszustand und keinen dauerhaften Speicher hat, fügt diese Ebene nichts hinzu.

Die Prompt-Ebene

<memory>
INNERHALB EINER SITZUNG (Arbeitsgedächtnis)
Verfolgen und aktualisieren Sie im Verlauf des Gesprächs:
- Themen, für die der Nutzer bereits Karten erstellt hat (keine
  Wiederholungskarten zum selben Konzept, wenn er Folgematerial
  schickt)
- Schwierigkeitspräferenz, wenn der Nutzer eine angegeben hat
  („Mach sie schwieriger")
- Karten, die der Nutzer als zu einfach, zu schwer oder falsch
  markiert hat

ZWISCHEN SITZUNGEN (Dauerhaftes Gedächtnis)
Bei Einsatz mit dauerhaftem Speicher sichern:
- Zuvor behandelte Themen — damit der Agent den Nutzer vor
  Überschneidungen warnen und nur Neues erstellen kann
- Bevorzugte Kartenanzahl und Schwierigkeitsgrad des Nutzers
  (aus Feedback über die Zeit erschlossen)
- Karten, die der Nutzer als unwirksam bewertet hat, damit sie
  nicht neu erstellt werden

ZU SITZUNGSBEGINN (Vorgeladener Kontext)
Frühere Themen und Präferenzen laden. Nutzen Sie diese, um:
- Das Neu-Erstellen bereits vorhandener Karten zu überspringen
- Den Schwierigkeitsgrad ohne erneutes Nachfragen anzupassen
- Frühere Arbeit zu referenzieren: „Sie haben letzte Woche Mitose
  behandelt — diese Meiose-Karten ergänzen diesen Satz."
</memory>

Was diese Ebene bewirkt

[ALLGEMEIN: Die Gedächtnis-Ebene]

Ein Agent ohne Gedächtnis beginnt jede Sitzung bei null. Ein Agent mit Gedächtnis baut auf — jede Interaktion macht die nächste nützlicher. Der Unterschied ist am deutlichsten bei langfristiger Nutzung: Ein Lernagent, der Ihre Geschichte kennt, gibt Ihnen bessere Karten als einer, der jede Sitzung wie Ihre erste behandelt.

Das Gedächtnis umfasst drei Bereiche:

Arbeitsgedächtnis — Was der Agent innerhalb einer einzelnen Sitzung verfolgt und aktualisiert. Legen Sie es explizit fest, sonst verliert das Modell den Kontext mitten im Gespräch.
Dauerhaftes Gedächtnis — Was zwischen Sitzungen erhalten bleibt. Definieren Sie das Schema (was gespeichert wird, in welchem Format), damit die Umsetzung unkompliziert ist.
Vorgeladener Kontext — Was zu Sitzungsbeginn geladen wird und wie es die erste Antwort des Agenten verändert.

In anderen Bereichen:

Ein Agent für Rechtsverträge: Das Arbeitsgedächtnis verfolgt bereits geprüfte Klauseln. Das dauerhafte Gedächtnis speichert die Risikobereitschaft des Mandanten und zuvor genehmigte Formulierungen. Der vorgeladene Kontext lädt frühere Vertragsüberprüfungen, um wiederkehrende Probleme zu kennzeichnen.
Ein Fitness-Agent: Das Arbeitsgedächtnis verfolgt Sitzungsfeedback („Das war zu einfach"). Das dauerhafte Gedächtnis speichert Trainingsaufzeichnungen. Der vorgeladene Kontext lädt die aktuelle Programmwoche, um die nächste Sitzung zu kalibrieren.

Entwerfen Sie die Gedächtnisarchitektur, auch wenn Ihr erster Einsatz keinen dauerhaften Speicher unterstützt. Zu wissen, was Sie speichern würden, erzwingt Klarheit darüber, welche Informationen tatsächlich bessere Ausgaben bewirken.

Schritt 10 - Token-Optimierung

ERFORDERLICH FÜR ALLE AGENTEN

Prüfen Sie Ihren Prompt auf Token-Effizienz. Jedes Token, das Sie für Redundanz, überflüssige Förmlichkeit und Übererklärung aufwenden, konkurriert mit den Token, die das Verhalten tatsächlich steuern.

Das ist der letzte Schritt, weil Sie optimieren, was Sie gebaut haben — kein Gerüst. Aber er ist nicht optional. Ein Prompt, der 30 % kürzer sein könnte, ohne an Qualität zu verlieren, ist ein Prompt, der schlechter abschneidet als er sollte — weil der Kontext begrenzt ist und jedes Token die Aufmerksamkeit des Modells auf alles andere verwässert.

Die Prüfung

Führen Sie diese Checkliste für Ihren fertigen Prompt durch:

TOKEN-EFFIZIENZ-PRÜFUNG

□ REDUNDANZ — Wird dieselbe Anweisung mehr als einmal formuliert?
  Wenn zwei Ebenen beide sagen „nichts erfinden", wählen Sie die
  bessere und streichen Sie die andere. Wiederholung verstärkt
  nicht — sie bläht auf.

□ ÜBERFLÜSSIGE FÖRMLICHKEIT — Verwenden Sie 20 Wörter, wo 8 ausreichen?
  „Sie sollten stets sorgfältig überprüfen, dass die Frage, die Sie
  formuliert haben, in keiner Weise mehrdeutig ist" →
  „Jede Frage muss genau eine Lesart haben."

□ UNNÖTIGE EINLEITUNG — Verbringt die Ebene Token damit zu erklären,
  was sie gleich sagen wird, anstatt es zu sagen?
  „In diesem Abschnitt behandeln wir die Regeln, die bestimmen, wie
  Sie die Ausgabeformatierung handhaben sollen..." → streichen.
  Einfach die Regeln formulieren.

□ ÜBERFLÜSSIGE BEISPIELE — Sind Ihre Beispiele vielfältig, oder sind
  es leichte Abwandlungen desselben Falls? Zwei Beispiele, die dasselbe
  testen, sind ein Beispiel mit überflüssigem Aufwand.

□ ÜBERSPEZIFIZIERTER WORKFLOW — Beschreiben Sie Schritte, die das Modell
  sowieso ausführen würde? „Eingabe lesen, bevor Sie antworten" kostet
  Token und fügt keine Information hinzu. Alles, was das Modell
  standardmäßig tut, streichen.

□ XML-TAG-AUFBLÄHUNG — Sind Ihre Tag-Namen so lang, dass sie Rauschen
  erzeugen?
  <der_kognitive_ansatz_und_denkprozess> →
  <cognitive_approach>

Die Token-Budget-Denkweise

Die besten Prompts wirken nicht lang. Sie wirken präzise.

Betrachten Sie Ihr Token-Budget als eine Ressource, die Sie zuweisen — jeder Satz ist eine Entscheidung. Das sind die Stellen, an denen Token am meisten wert sind:

Denkweise — Anweisungen darüber, wie man denkt, bringen die meiste Verhaltensänderung pro Token
Positives + negatives Beispiel — Ein einziges gut gewähltes Paar leistet mehr als Absätze voller Regeln
Prüfliste — Eine knappe Checkliste erfasst Ausgabefehler, die sonst unbemerkt blieben
Grenzfälle — Konkrete Grenzfälle verhindern Fehler, die Ihre Glaubwürdigkeit bei Nutzern kosten

Das sind die Stellen mit dem geringsten Token-Wert:

Mehrfaches Erklären, was der Agent ist in mehreren Ebenen (Identität, Einschränkungen und Denkweise überlappen sich teilweise)
Abschwächende Sprache — „Versuchen Sie", „streben Sie an", „wenn möglich" schwächen Anweisungen, ohne Nuancen hinzuzufügen
Übermäßige Werkzeugbeschreibungen, wenn das Verhalten des Werkzeugs selbsterklärend ist
Gedächtnisanweisungen für Agenten ohne Sitzungsgedächtnis

Der Optimierungsdurchgang

VORHER:
„Wenn Sie eine Eingabe vom Nutzer erhalten, sollten Sie sich einen
Moment Zeit nehmen, sorgfältig zu überlegen, um welche Art von Eingabe
es sich handelt, bevor Sie fortfahren. Es könnte ein Themenname sein,
oder es könnte ein Textausschnitt sein, oder es könnten Vorlesungsnotizen
sein. Das ist wichtig, weil die Art, wie Sie mit jedem Eingabetyp
umgehen, unterschiedlich ist."

NACHHER:
„Eingabe klassifizieren, bevor Sie fortfahren: Themenname,
Textausschnitt oder Vorlesungsnotizen. Jeder Typ wird anders behandelt."

Tokenanzahl: 64 → 17. Bewahrte Information: 100%.

Was dieser Schritt bewirkt

[ALLGEMEIN: Die Token-Optimierungsebene]

Optimierung bedeutet nicht, den Prompt um seiner selbst willen kürzer zu machen. Es geht darum, das Signal-Rausch-Verhältnis so hoch wie möglich zu halten. Ein Modell, das einen schlanken, präzisen Prompt liest, verwendet mehr seiner Aufmerksamkeit auf das, was das Verhalten tatsächlich formt. Ein Modell, das einen aufgeblähten Prompt liest, muss das Signal aus dem Rauschen herausfiltern — und manchmal schafft es das nicht.

Jedes Token lenkt die Aufmerksamkeit des Modells — investieren Sie es dort, wo die Wirkung auf das Verhalten am größten ist.

Ein Hinweis zur Versionierung

Prompts sind lebendige Dokumente. Jedes Mal, wenn Sie eine sinnvolle Änderung an einer Ebene vornehmen, speichern Sie die vorherige Version mit Datum und einer einzeiligen Beschreibung der Änderung. Führen Sie Ihren Auswertungssatz nach jeder Änderung erneut durch, nicht nur wenn etwas kaputt geht. Eine Änderung, die Test 1 verbessert, aber Test 4 bricht, ist ein Kompromiss — wissen Sie das, bevor Sie es einsetzen.

Die Disziplin ist einfach: Eine Ebene geändert, gegen den vollständigen Testsatz ausgewertet, protokolliert. Das ist der Unterschied zwischen systematischer Verbesserung und Raten.

v1.0 — Erster Aufbau
v1.1 — Grenzfall für unklaren Antwortbereich hinzugefügt (Test 5 schlug fehl)
v1.2 — Prüfliste gestrafft; Formulierungsprüfung hinzugefügt
v1.3 — Token-Optimierungsdurchgang; 22% Reduzierung, keine Qualitätseinbuße
v1.4 — Gedächtnisebene nach Einführung bei wiederkehrenden Nutzern hinzugefügt

Zusammenfassung — Der Ebenenaufbau

Schritt	Ebene	Erforderlich?	Kernfrage
0	Auswertung	Immer	Woran erkenne ich, ob es funktioniert?
1	Identität	Immer	Was ist dieser Agent und was tut er?
2	Denkweise	Immer	Wie denkt er, bevor er handelt?
3	Fachwissen	Nur für Spezialisten	Welches Wissen macht ihn besser als ein allgemeines Modell?
4	Workflow + Werkzeuge	Immer / Bei Werkzeugnutzung	Welchen Schritten folgt er, und was kann er aufrufen?
5	Ausgabestandards	Immer	Wie sieht eine hervorragende Ausgabe konkret aus?
6	Einschränkungen	Immer	Was darf er nie tun, und warum?
7	Grenzfälle	Je nach Komplexität	Was passiert, wenn etwas schiefläuft?
8	Prüfung	Immer	Erfüllt die Ausgabe den Standard, bevor sie ausgeliefert wird?
9	Gedächtnis	Für zustandsbehaftete Agenten	Was erinnert er sich, und wie wirkt sich das aus?
10	Token-Optimierung	Immer	Verdient jedes Token seinen Platz?

Wie die Ebenen zusammenwirken

Die Ebenen sind miteinander verbunden, nicht nur gestapelt:

Einschränkungen wirken in der Denkweise nach. Wenn der Agent niemals Fakten erfinden darf, sollte die Denkweise einen Überprüfungsschritt enthalten. Der Denkprozess vermeidet den Verstoß auf natürliche Weise — die Einschränkung wird zum Sicherheitsnetz, nicht zur ersten Verteidigungslinie.
Grenzfälle zeigen fehlendes Fachwissen auf. Wenn Sie Grenzfälle schreiben und keine gute Reaktion formulieren können, fehlt der Fachwissensebene meist eine Faustregel oder Systematik. Gehen Sie zurück und ergänzen Sie sie.
Prüfung ist mit Ausgabestandards verknüpft. Ihre Prüfliste sollte direkt auf die Kriterien in Schritt 5 abgebildet werden. Wenn etwas im positiven Beispiel erscheint, aber nicht in der Prüfliste, wird es übersehen.
Gedächtnis fließt zurück in den Workflow. Was der Agent erinnert, verändert, welche Schritte er ausführt. Ein Workflow für die erste Sitzung könnte einen umfangreichen Informationssammlungsschritt enthalten, den Folgesitzungen ganz überspringen können.
Token-Optimierung läuft zuletzt und berührt alles. Es ist ein zweiter Durchgang, keine Aufbauebene. Führen Sie ihn durch, nachdem alle anderen Ebenen abgeschlossen sind.

Minimal funktionsfähiger Prompt

Für einen einfachen, eng begrenzten Agenten:

Schritt 0 + Schritte 1, 2, 4, 5, 6, 8, 10

Schritt 3 bei Spezialisten hinzufügen. Werkzeuge in Schritt 4 bei Bedarf hinzufügen. Schritt 7 erweitern, wenn der Auswertungssatz Grenzfälle aufzeigt. Schritt 9 hinzufügen, wenn der Agent wiederkehrende Nutzer hat.

Minimal beginnen. Ebenen hinzufügen, wenn der Output den Bedarf aufzeigt.

Je besser der Prompt, desto besser der Output. Bauen Sie ihn mit Sorgfalt, dann versionieren Sie ihn, testen Sie ihn und verbessern Sie ihn. Sobald ein Grundgerüst steht, ist der Agent in der Lage, seine Aufgabe wirklich zu verstehen, und kann somit seine eigenen Anweisungen prüfen, und ihnen zu helfen, diese zu verbessern.

Workshop 3: Prompt Engineering

Wie man einen Masterprompt für jeden Agenten erstellt

Eine Schicht-für-Schicht-Anleitung

Bevor Sie beginnen: Prompt und Kontext

Schritt 0 - Erfolg definieren, bevor Sie bauen

Was zu tun ist

Der Auswertungssatz

Was dieser Schritt bewirkt

Schritt 1 - Identitätserklärung

Die Prompt-Ebene

Was diese Ebene bewirkt

Schritt 2 - Denkweise

Die Prompt-Ebene

Was diese Ebene bewirkt

Schritt 3 - Fachwissen

Die Prompt-Ebene

Was diese Ebene bewirkt

Schritt 4 - Eingabeverarbeitung & Workflow

Die Prompt-Ebene

Was diese Ebene bewirkt

Schritt 4b - Tool-Design (Ergänzung zu Schritt 4)

Schritt 5 - Ausgabestruktur & Standards

Die Prompt-Ebene

Was diese Ebene bewirkt

Schritt 6 - Einschränkungen & Grenzen

Die Prompt-Ebene

Was diese Ebene bewirkt

Schritt 7 - Fehlerbehandlung & Grenzfälle

Die Prompt-Ebene

Was diese Ebene bewirkt

Schritt 8 - Prüfung (intern & extern)

Ebene A — Interne Prüfung (innerhalb des Prompts)

Ebene B — Externe Prüfung (ein zweiter Modellaufruf)

Was dieser Schritt bewirkt

Schritt 9 - Gedächtnis & Kontinuität

Die Prompt-Ebene

Was diese Ebene bewirkt

Schritt 10 - Token-Optimierung

Die Prüfung

Die Token-Budget-Denkweise

Der Optimierungsdurchgang

Was dieser Schritt bewirkt

Ein Hinweis zur Versionierung

Zusammenfassung — Der Ebenenaufbau

Wie die Ebenen zusammenwirken

Minimal funktionsfähiger Prompt