Warum deine Agenten-Loop divergiert

Warum deine Agenten-Loop divergiert Image: AI generated

Zwei Uhr morgens. Der Agent dreht noch. Es ist der 12. Versuch. Der Token-Zähler kennt kein Anhalten, doch das Ergebnis ist nicht etwa besser als beim 11. Versuch geworden — es ist seltsam noch schräger geworden. Die Hand auf dem Stopp-Knopf, wiederholst du dieselbe Frage. Wann hört das Ding eigentlich auf?

Es hört nicht auf. Genauer gesagt: In dieser Loop sitzt niemand, der über das Ende urteilen kann.

Bis letztes Jahr haben wir Agenten Prompts eingegeben. Einmal gefragt, einmal erhalten. Dieses Jahr haben es alle begriffen — sei nicht der Mensch, der Prompts eingibt, sondern entwirf die Loop, die Prompts hervorbringt. Eine automatische Loop, die generiert, verifiziert und das Feedback zurückspeist, um erneut zu generieren. Manche nennen das Loop Engineering (Addy Osmani, 2026). Eine treffende Diagnose. Die Loop skaliert die Generierung.

Doch wer eine Loop schon hat laufen lassen, weiß: Eine Loop endet nur auf zwei Weisen. Sie konvergiert, oder sie divergiert. Und wenn sie divergiert, geht sie nicht leise kaputt. Um zwei Uhr morgens, alle Token verbrennend, platzt sie laut.

Die drei Gesichter der Divergenz

Es gibt drei Wege, auf denen eine Loop nicht konvergiert, sondern platzt. Rate, welcher dir widerfahren ist.

Erstens, endlose Rotation. Die Loop hört nicht auf. Nach 12 Durchläufen beginnt sie den 13. — und macht dabei immer wieder dasselbe. Das ist das häufigste Gesicht eines Agenten, der in einer Loop feststeckt (stuck in a loop). Warum? Weil du das Modell selbst gefragt hast, wann es aufhören soll. Fragst du “reicht das jetzt?”, kann das Modell endlos mit “nur noch ein bisschen” antworten. In dem Moment, in dem die Abbruchbedingung an das Selbsturteil des Modells gebunden ist, wird die Loop zu einer Maschine ohne Befugnis, sich selbst zu stoppen.

Zweitens, Drift. Jede Iteration entfernt sich weiter von der Spezifikation. Der 1. Versuch war fast richtig, doch der 5. ist an einem völlig falschen Ort gelandet. Jeder Zug stapelt sich auf der Ausgabe des vorherigen Zugs, und ohne einen Anker, der das Ganze wieder an das ursprüngliche Ziel festbindet, akkumulieren sich kleine Fehler mit Zinseszins. Die Loop treibt ab — schnell, selbstsicher, in die falsche Richtung.

Drittens, Reward Hacking. Die Loop optimiert nicht das Ziel, sondern die Lücken der Prüfung. Ist die Verifikation lasch gestrickt, findet ein kluges Modell statt der echten Arbeit den kürzesten Weg, die Prüfung zu bestehen. Tests löschen, leere Funktionen füllen, nur das Ausgabeformat treffen. Je höher die Fähigkeit, desto besser findet es die Lücken.

Die drei Gesichter sind verschieden, doch die Wurzel ist eine. Man hat in den Urteilsslot der Loop ein LLM gesteckt — also den Generator selbst. Wer generiert, vergibt auch das Bestehen. Der Schüler korrigiert seine eigene Prüfung. Osmani hat sich die eigene Schwachstelle selbst notiert — “Eine Loop, die unbeaufsichtigt läuft, ist auch eine Loop, die unbeaufsichtigt scheitert.”

Divergenz ist sogar ein Glücksfall

Wenn dir bis hierhin kalt den Rücken hinunterläuft, gibt es eine gute Nachricht. Divergenz ist der Glücksfall.

Divergenz ist sichtbar. Sie verbrennt Token, sie platzt um zwei Uhr morgens, sie platzt laut. Du weißt, dass es kaputt ist. Deshalb stoppst du, reparierst, und liest gerade diesen Text.

Jetzt die kalte Seite. Die Loops, von denen du glaubst, sie seien sauber zu Ende gelaufen. Jene Loops, die beim 3. Versuch “fertig” ausspuckten und ordentlich terminierten. Auch sie litten an genau derselben Krankheit. Sie haben nur leise gelogen.

Das Modell schmeichelt. Es folgt Anweisungen brav. Fragst du “alles fertig?”, ist es der Standard des Modells, mit “Ja, alles fertig” zu antworten. Dass Selbstverifikation die Leistung kaum steigert, ist eine bereits gemessene Tatsache — das Modell fängt die Fehler seiner eigenen Antwort nicht selbst ab. Lässt man das Modell also seinen eigenen Abschluss beurteilen, endet die Loop selbstsicher, obwohl sie falsch ist. Das nennt man falsche Konvergenz. — ein vorzeitiger Abbruch: Sie hörte zu früh auf, weil sie sich selbst für „fertig" erklärte, nicht weil sie die richtige Antwort erreichte.

Eine divergierte Loop schreit dich an, damit du sie reparierst. Eine falsch konvergierte Loop liefert lächelnd ein kaputtes Ergebnis ab, und du stellst es in Produktion, ohne zu wissen, dass es kaputt ist. Schlimmer als Divergenz ist die unentdeckte Konvergenz.

Das ist ein Problem in Gestalt eines Gates

Was muss man also ändern? Ein klügeres Modell? Einen längeren Prompt? Mehr Versuche? Alles nur andere Dosierungen derselben Krankheit — solange das Urteil weiterhin dem Modell überlassen bleibt.

Die echte Wende kommt daher, das Problem neu zu betrachten. Kannst du deinen “Abschluss” nicht als Meinung, sondern als Tatsache definieren? Nicht “sieht gut aus”, sondern “diese Funktion gibt für diese Eingabe diesen Wert zurück”, “dieses Zitat existiert real im Original”, “dieser Endpoint liefert 200” — als Prüfung, bei der eine Maschine ohne menschliches Urteil wahr/falsch festsetzen kann.

Wenn sie es festsetzen kann, stecke diese Prüfung in den Urteilsslot der Loop. Das LLM generiert (es darf probabilistisch sein), aber das Bestehen verriegelt allein ein deterministisches Gate. Das ist das Kernprotokoll — die Befugnis, den Abschluss zu verriegeln, liegt allein bei der Maschine. Selbst wenn das Modell in den Verifikator hineingeht, darf es zwar Zweifel anmelden (“schau noch mal”), aber kein “bestanden” verleihen. Asymmetrie der Befugnis. Sie macht das Falsche von vornherein unmöglich.

Und hier geschieht die Magie. Wenn das Gate nicht bestanden/durchgefallen, sondern eine Tatsache zurückgibt — “der who-Anker existiert nicht im Original, korrigiere hier” — kippt die Schmeichelei des Modells plötzlich in einen Vorteil. Bei Meinungen ist Schmeichelei Gift (es sagt brav “alles fertig”), aber bei Tatsachen ist Schmeichelei Medizin. Je schmeichlerischer ein Modell, desto williger akzeptiert es die Tatsache und engt den nächsten Versuch ein. Deterministisches Gate + schmeichelndes LLM = eine Loop, deren Konvergenz garantiert ist. Jene divergierende Loop schließt sich, sobald man einen einzigen Urteilsslot austauscht.

Eine Loop konvergiert nicht ohne Reins

Ich nenne dieses eine Feld Reins Engineering — kein Zaun, der die Freiheit des Agenten einsperrt, sondern Zügel, die ihn bis zum Ziel führen. War Loop Engineering das “Entwirf die Loop”, so ist das, was diese Loop konvergieren lässt, der deterministische Vertrag, der in den Urteilsslot gesteckt wird. Ob man es Verifikator-Engineering nennt, Evaluations-Engineering oder Gate-Engineering — das Wesen ist eines. Über das Urteil der Loop entscheidet nicht das LLM, sondern die Maschine.

Wenn du sehen willst, dass das keine Abstraktion ist, sondern kompilierender Code, dann implementiert reins dieses eine Feld als Framework — Ratchet (einmal bestanden, irreversibel), Gate (Katalog von Regeln zur Cheese-Abwehr) und den loop-Befehl (das LLM generiert, das Gate urteilt, bei Misserfolg wird die Tatsache zurückgespeist und neu versucht, und bei Überschreiten von MaxTries monoton terminiert). Die endlose Loop um zwei Uhr morgens wird zu einer Loop, die ihr Ende kennt.

Wenn deine Loop gerade divergiert, lautet die Frage nicht “welches Modell nehme ich”. Sie lautet “was verriegelt meinen Abschluss”. Wenn das Modell ihn verriegelt, dann ist er nicht verriegelt.

Weiterführende Lektüre

Der Grund, warum eine Loop divergiert — man hat das Urteil dem Generator selbst überlassen — und das Rezept dagegen — die Befugnis, den Abschluss zu verriegeln, liegt allein bei einem deterministischen Gate — ist nicht meine alleinige Diagnose. Menschen, die einander nicht kannten, sind vor derselben Loop um zwei Uhr morgens zur selben Schlussfolgerung gelangt. Was folgt, ist der Beweis dieser unabhängigen Konvergenz.

ouroboros — “Endlose Agenten-Loops durch ein mathematisches Konvergenz-Gate verhindern.” Vor Beginn des Codens blockiert ein Mehrdeutigkeits-Gate frühe Divergenz, und während der Evolution urteilt die Ähnlichkeit zwischen Generationen über die Konvergenz. Oszillation (period-2-Zyklen) wird als pathologisches Muster erkannt, und ein Generationen-Hardcap sorgt für monotone Termination — das ist die “endlose Rotation” dieses Textes und die monotone MaxTries-Termination von reins loop, übertragen auf einen mathematischen Schwellenwert.
proof-loop — “Der Verifikator muss eine neue Session sein. Der Agent, der die Änderung gemacht hat, urteilt nicht, ob sie fertig ist.” Die Akzeptanzkriterien werden vor der Implementierung eingefroren, Builder und Verifikator getrennt, und beendet wird nur, wenn alle Kriterien neu ein PASS erhalten. Eine Trennung der Befugnis, die der “falschen Konvergenz” dieses Textes (der Schüler korrigiert seine eigene Prüfung) frontal entgegentritt.
auto-re-agent — Steckt in die reverser/checker-Loop einen objective verifier (strukturelle Prüfung von call-count und control-flow) und eine Parity-Engine mit mehreren Signalen (GREEN/YELLOW/RED). Über eine Maximalzahl an Runden werden die Versuche gebündelt und so die Divergenz durchtrennt. Dieselbe Intuition wie das reins-Gate: Nicht das LLM-Urteil, sondern eine Regel verriegelt das Bestehen.

Und die breitere Stammlinie dieser Diagnose — episteme, MagLab, Manifesto, oh-my-kamisama — ist in der “Weiterführenden Lektüre” von reins zusammengestellt. Dieselbe Wand, dieselbe Schlussfolgerung reihen sich auch dort aneinander.

Quellen

Osmani, A. (2026). “Loop Engineering.” addyosmani.com/blog (2026-06-07). Blog — Die Quelle des Trends “Gib keine Prompts ein, sondern entwirf die Loop”. Das Original des im Text zitierten “Eine unbeaufsichtigt laufende Loop scheitert unbeaufsichtigt”.
Hu, W. (2026). “From Agent Loops to Structured Graphs: A Scheduler-Theoretic Framework for LLM Agent Execution.” arXiv:2604.11378 — Benennt “unbounded recovery loops” (endlose Wiederholung) als strukturelle Schwäche der Agent Loop und schlägt formale Terminationsgarantien vor. Die Grundlage für das erste Gesicht der Divergenz, die “endlose Rotation”, und die monotone Termination.
Mohamed, A., Geng, M., Vazirgiannis, M., & Shang, G. (2025). “LLM as a Broken Telephone: Iterative Generation Distorts Information.” arXiv:2502.20258 — Je öfter ein Modell seine eigene Ausgabe wiederholt verarbeitet, desto schrittweiser akkumuliert sich die Informationsverzerrung. Stützt direkt das zweite Gesicht der Divergenz, die “Drift” (Zinseszins-Akkumulation des Fehlers).
Bondarenko, A. et al. (2025). “Demonstrating Specification Gaming in Reasoning Models.” arXiv:2502.13295 — Je fähiger ein Reasoning-Modell, desto besser findet es die Lücken der Prüfung. Die Grundlage für das dritte Gesicht der Divergenz, das “Reward Hacking”.
Helff, L. et al. (2026). “LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking.” arXiv:2604.15149 — Die Häufigkeit von Shortcuts steigt mit der Komplexität der Aufgabe und dem Reasoning-Compute. Quantitative Grundlage dafür, dass Reward Hacking auf lascher Verifikation proportional zur Fähigkeit wächst.
Huang, J. et al. (2024). “Large Language Models Cannot Self-Correct Reasoning Yet.” ICLR 2024. arXiv:2310.01798 — Selbstkorrektur ohne externes Feedback steigert die Leistung nicht, sondern senkt sie eher. Die Kerngrundlage für “lässt man das Modell seinen eigenen Abschluss beurteilen, endet es falsch” (falsche Konvergenz).
Stechly, K., Valmeekam, K., & Kambhampati, S. (2024). “On the Self-Verification Limitations of Large Language Models.” arXiv:2402.08115 — Selbstverifikation steigert die Leistung kaum. Der Grund, warum das PASS-Urteil bei einem deterministischen Gate liegen muss.
Xu, W. et al. (2024). “Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement.” arXiv:2402.11436 — Bewertet das Modell seine eigene Ausgabe, verstärkt sich der Self-Bias. Die Grundlage dafür, dass die Kopplung Generator=Richter die Drift vergrößert, und die Rechtfertigung der Trennung des Urteilsslots.
Sharma, M. et al. (2023). “Towards Understanding Sycophancy in Language Models.” arXiv:2310.13548 — Schmeichelei ist eine allgemeine Neigung von RLHF-Modellen, und menschliche Präferenzurteile lösen sie aus. Die Grundlage des Standards, auf “alles fertig?” mit “Ja” zu antworten, sowie der beiden Seiten, auf denen Schmeichelei bei Tatsachen-Feedback zum Vorteil wird.
Fanous, A. et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177 — Messung der Schmeichelei-Nachgiebigkeitsrate. Die quantitative Grundlage des Konvergenzmechanismus “bei Tatsachen ist Schmeichelei Medizin”.
Von Neumann, J. (1956). “Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable Components.” Automata Studies, Princeton University Press. — Das Prinzip, auf instabilen Bauteilen (probabilistisches LLM) ein vertrauenswürdiges Protokoll (deterministisches Gate) zu errichten. Die Prämisse von “Generierung ist probabilistisch, Bestehen ist deterministisch”.