
Image: AI generated
Ein Pferd ohne Zügel
KI-Coding-Tools wurden schnell. Login in 30 Sekunden. Zahlung in 2 Minuten. Ein MVP wird in drei Wochen ausgeliefert.
Drei Monate später bricht es zusammen.
Die KI „räumt" die Zahlungslogik auf und ändert die Rabattberechnung. Eine Refactoring-Anfrage ändert Feldnamen der öffentlichen API. Das Hinzufügen eines neuen Features bricht die Authentifizierung. Laut einer Studie von Carnegie Mellon (MSR 2026) steigt die Code-Komplexität nach der Einführung von KI-Coding-Tools dauerhaft um 41 %. Der Google DORA Report (2025) zeigt einen Rückgang der Lieferstabilität um 7,2 % bei jeder 25-prozentigen Zunahme der KI-Nutzung.
Das Problem ist nicht, dass KI dumm ist. Es fehlen die Zügel.
Geschirr ist ein Zaun
Die Branche antwortete mit „Harness Engineering". Linters, Formatter, CI/CD, Projektstruktur, Coding-Richtlinien. Zäune, die den Agenten im Inneren halten.
Zäune setzen keine Richtung. Was auch immer der Agent innerhalb des Zauns tut — bestehende Logik überschreiben, Typen ändern, Zustandsübergänge überspringen — der Linter besteht. Der Formatter besteht. CI besteht. Code erreicht die Produktion „sauber, aber falsch".
Der Sattel sitzt. Der Reiter ist aufgestiegen. Aber ohne Zügel hält er sich mit den Schenkeln und fällt nach drei Monaten herunter.
Reins Engineering
Reins Engineering ist ein ingenieurwissenschaftlicher Ansatz, der KI-Agenten deterministische Verträge gibt und den Fortschritt blockiert, wenn Verträge verletzt werden.
Er besteht aus drei Elementen:
1. Deterministisches Feedback
Gib dem Agenten Fakten, keine Meinungen. Nicht „das sieht komisch aus", sondern „Zeile 41: Feldname stimmt nicht überein, erwartet ‘user_id’, erhalten ‘userId’." Feedback ohne Raum für Sycophancy. Laut der TDAD-Studie (arxiv 2026) verschlechtern prozedurale Anweisungen wie „mach TDD" die Regressionen (6,08 % → 9,94 %), während das Bereitstellen spezifischer Testdateien im Kontext Regressionen um 70 % reduziert (6,08 % → 1,82 %).
2. Vertragssicherung (Ratchet Pattern)
Wenn die Verifikation besteht, wird gesperrt. Hurl-Tests deklarieren API-Verhalten in Klartext und werden bei jedem Commit im CI ausgeführt. Bestandene Tests können nicht gelöscht werden. Der Agent kann Code frei ändern, aber nicht das Verhalten. Drift wird strukturell unterdrückt.
3. Trennung von Entscheidungen und Implementierung
Drei im Code vermischte Dinge — Benutzerentscheidungen, Geschäftslogik, Implementierungsdetails — werden getrennt. Entscheidungen leben in deklarativen Spezifikationen (OpenAPI, DDL, Zustandsdiagramme). Implementierung wird frei von der KI generiert. Die KI kann Entscheidungen nicht mit Details verwechseln und überschreiben. Das Überleben von Entscheidungen wird unabhängig von der Modellgröße.
Evolution
Prompt Engineering → Sag es richtig und es funktioniert
Context Engineering → Gib guten Kontext und es funktioniert
Harness Engineering → Einschließen durch Struktur
Reins Engineering → Lenken mit Zügeln
Jede Stufe entstand aus den Grenzen der vorherigen. Prompts allein fehlte es an Konsistenz. Kontext hielt den Agenten nicht davon ab, abzuschweifen. Zäune konnten Drift innerhalb des Perimeters nicht verhindern.
Reins Engineering ist kein Zaun — es sind Zügel. Es schränkt die Freiheit des Agenten nicht ein; es stellt sicher, dass der Agent das Ziel erreicht.
Warum größere Modelle nicht die Antwort sind
„GPT-6 wird es richten."
Wird es nicht. Das Problem ist nicht die Intelligenz des Modells — es ist das Medium. Code als Medium unterscheidet nicht zwischen Entscheidungen und Implementierung. Jedes Modell, das Code liest, sieht Entscheidungen und Details im selben Text vermischt.
Ein lokales 4,5B-Modell (Gemma4) mit deterministischem Feedback + Beispielkontext bearbeitet SSOTs fehlerfrei. Ein Frontier-Modell, das Rohcode bearbeitet, erzeugt Drift. Der Unterschied liegt in der Struktur, nicht in der Intelligenz.
Wechsle nicht das Modell. Füge einen Vertrag hinzu.
Evidenz
yongol ist die Implementierung von Reins Engineering. Es kreuzvalidiert die Konsistenz von 10 deklarativen Spezifikationen (SSOT) mit 287 Regeln und generiert Code.
ZenFlow-Benchmark — ein mandantenfähiges SaaS zur Workflow-Automatisierung. 32 Endpoints, 14 Tabellen, 47 Hurl-Anfragen. 11/11 Stufen bestanden. Das Hinzufügen von Features verlangsamte den Prozess nicht. Bestehende Tests brachen nie.
Ein funktionierendes Backend wurde erfolgreich mit einem lokalen 4,5B-Modell generiert. Kosten: 0 $. Offline. Reins schließt die Lücke, die Modellgröße hinterlässt.
Geschirr ohne Zügel ist nur ein Zaun
KI ist bereits leistungsfähig genug. Was fehlt, ist Richtung.
Baut höhere Zäune und der Agent driftet schneller darin. Nehmt die Zügel und der Agent läuft zum Ziel.
Reins Engineering — strukturierte deterministische Verifikation für KI-Agenten.
Verwandte Artikel
- yongol — Der Kiel des KI-Coding-SaaS — Die Implementierung von Reins Engineering.
- Hurl stoppt Vibe-Coding-Drift — Hurl + Ratchet sichert das API-Verhalten.
- Ratchet Pattern — Die Theorie hinter deterministischer Verifikation und Ratchet-Sicherung.
- IFEval-Exploiting Ratchet Code — Feedback-Schleifen unter Nutzung von Sycophancy Bias.
References
- Cursino, D. et al. (2026). “Speed at the Cost of Quality? The Impact of AI Coding on Software.” MSR 2026. arxiv.org/abs/2511.04427
- Google Cloud (2025). DORA Report 2025. cloud.google.com
- Wang, Z. et al. (2026). “TDAD: Test-Driven Agentic Development.” ACM AIWare 2026. arxiv.org/abs/2603.17973
- Karpathy, A. (2026). “From Vibe Coding to Agentic Engineering.” thenewstack.io