Was uns ein Experiment an der Oregon State University über gutes Prompting verrät
Am 9. April 2026 fand an der WU Wien mit Ladies that Lead unser erster Prompt Engineering Workshop statt. Im Vorfeld hatte ich die Gelegenheit, erneut mit Prof. Inhwa Kim zu sprechen — der Forscherin, deren Arbeit zu Empathie in der Mensch-KI-Interaktion wir in einem früheren Artikel behandelt haben. Was mich diesmal besonders interessierte: Kim hat ihre Forschung inzwischen an die Oregon State University gebracht und dort ein Experiment durchgeführt, das eine einfache Frage stellt — und eine überraschend klare Antwort liefert.
Die Frage: Was unterscheidet einen Prompt, der brauchbare Ergebnisse liefert, von einem, der es nicht tut?
Das Experiment
Kim gab ihren Studierenden eine feste Zeitspanne und eine klare Aufgabe: Mithilfe generativer KI das beste Retail-Layout für den Laden einer Kleidungsfirma zu erstellen. Keine Einschränkung, welches Tool genutzt werden durfte. Keine Vorlage für den Prompt. Nur das Ziel — und eine Deadline.
Anschließend analysierte Kim systematisch, welche Prompts zu den stärksten und welche zu den schwächsten Ergebnissen geführt hatten. Das Ergebnis war kein Zufall. Die guten Ergebnisse teilten vier Eigenschaften, die bei den schwachen durchgehend fehlten.
Vier Prinzipien, die den Unterschied machten
Erstens: Die Wahl des richtigen Werkzeugs. Die besten Ergebnisse kamen von Studierenden, die nicht einfach das erstbeste Tool öffneten, sondern bewusst abwägten, welcher KI-Anbieter für diese spezifische Aufgabe am geeignetsten ist. Nicht jedes Modell kann alles gleich gut — und wer das versteht, trifft bereits vor dem ersten Prompt eine Entscheidung, die den gesamten Output prägt.
Zweitens: Kontext bis ins Detail. Vage Eingaben erzeugten generische Ergebnisse — Layouts, die für jedes beliebige Geschäft hätten gelten können. Die stärksten Ergebnisse kamen von Studierenden, die Zielgruppe, Markenstil, Ladengröße, Sortimentslogik, gewünschte Atmosphäre und sogar Laufwege der Kunden spezifizierten. Je mehr Kontext der Prompt enthielt, desto weniger musste die KI raten — und desto weniger riet sie falsch.
Drittens: Kritische Prüfung statt blinder Übernahme. Die Studierenden, die den ersten KI-Vorschlag akzeptierten, schnitten durch die Bank schlechter ab. Die stärksten Ergebnisse entstanden dort, wo der Output als Entwurf behandelt wurde — als Ausgangspunkt für Überarbeitung, nicht als fertiges Produkt. Das deckt sich mit einem Befund, den die Forschung zur Prompt Literacy konsistent bestätigt: Iteration, nicht der erste Output, erzeugt Qualität (Hwang et al., 2023).
Viertens: Klare Struktur im Prompt selbst. Die Reihenfolge der Informationen machte einen messbaren Unterschied. Wer Kontext vor Aufgabe vor Formatvorgabe stellte, erhielt bessere Ergebnisse als jene, die alles in einen unstrukturierten Absatz packten. Die KI reagiert auf Struktur — wer strukturiert fragt, bekommt strukturierte Antworten.
Was Kim nicht erwartet hatte
Was Kim im Gespräch besonders betonte: Die Studierenden, die am besten abschnitten, waren nicht die technisch versiertesten. Es waren jene, die am klarsten wussten, was sie wollten, bevor sie den ersten Prompt tippten.
Das bestätigt, was ihre Empathie-Forschung an Retail-Robotern bereits nahelegt: In der Mensch-KI-Interaktion ist nicht die Leistungsfähigkeit des Systems entscheidend, sondern die empathische Qualität der menschlichen Kommunikation, die sich auf die Grenzen einer Maschine anpassen müssen. Wer vage fragt, bekommt vage Antworten — nicht, weil die KI schlecht ist, sondern weil sie nur mit dem arbeiten kann, was sie bekommt.
Von der Forschung in den Vorlesungssaal
In unserem eigenen ersten Workshop, gehostet von Ladies that Lead, am 9.4.2026 an der WU Wien, haben wir Prof. Kim's Forschung in unser Programm für die Teilnehmerinnen einfließen lassen: wie man Schritt für Schritt einen Prompt aufbaut, und am Ende zuverlässig prüft, ob der Output stimmt. Die Motivation und Neugier war für mich persönlich begeisternd, und ich sehe viel Potential bezüglich KI Bildung an Universitäten.
Warum das für jeden KI-Nutzer relevant ist
Kims Experiment fand in einem universitären Kontext statt — Studierende, die ein Retail-Layout generieren sollten. Aber die Prinzipien, die sich daraus ableiten, gelten für jede professionelle KI-Nutzung.
Ein Berater, der eine Marktstrategie promptet, steht vor derselben Herausforderung wie Kims Studierende: Wie viel Kontext gebe ich mit? Welches Modell wähle ich? Nehme ich den ersten Output oder iteriere ich? Und vor allem: Weiß ich selbst, was ich will, bevor ich frage?
Die Forschung zur Prompt Literacy — ein Begriff, der die Fähigkeit beschreibt, KI-Systeme präzise, reflektiert und kritisch zu nutzen (Hwang et al., 2023) — liefert dafür einen Rahmen. Aber Kims Experiment macht diesen Rahmen greifbar. Es zeigt nicht nur, dass bessere Prompts zu besseren Ergebnissen führen. Es zeigt, welche spezifischen Eigenschaften den Unterschied machen — und dass die entscheidende Variable nicht das Tool ist, sondern die bewusste und verantwortungsvolle Herangehensweise des Nutzers.