
Die 3-Monats-Mauer
Wenn Ihre per Vibe Coding erstellte App nach 3 Monaten zusammengebrochen ist, wenn Sie unter Drift leiden, bei dem die KI bestehende Logik ueberschreibt, wenn Sie API-Vertraege vor Codeaenderungen schuetzen wollen – Hurl und Ratsche sind die Loesung.
Sie bauen ein SaaS mit Vibe Coding. Anfangs schnell. “Mach Login” – 30 Sekunden. “Fuege Zahlung hinzu” – 2 Minuten. Ein MVP in 3 Wochen.
Drei Monate spaeter passieren seltsame Dinge. Die KI “raeumt” die Zahlungslogik auf und aendert still den Rabatt. Ein neuer Endpoint bricht die bestehende Authentifizierung. Sie bitten um Refactoring und die Feldnamen der oeffentlichen API aendern sich – alle Clients sterben.
Das nennt sich Logik-Drift – die KI aendert unbeabsichtigt bestehende Geschaeftslogik. Regressions-Bugs gibt es auch in der traditionellen Entwicklung. Aber Logik-Drift ist anders. Aenderungen, die der Entwickler nicht beabsichtigte, geschehen unbemerkt in der gesamten Codebasis. Weil jeder Prompt in einem neuen Kontextfenster beginnt.
Drift in Zahlen
Das ist kein Gefuehl. Es gibt Daten.
Der Preis der Geschwindigkeit ist Komplexitaet. Ein Carnegie-Mellon-Team verglich 807 GitHub-Repos vor und nach der Cursor-Einfuehrung (MSR 2026). Im ersten Monat stieg der Code-Zuwachs um 3-5x. Zwei Monate spaeter war der Geschwindigkeitsvorteil verschwunden. Was blieb: 30% mehr statische Analysewarnungen, permanente 41% mehr Codekomplexitaet. Liu et al. (2026) analysierten 302.600 KI-Commits in 6.299 Repos – ungeloeste technische Schulden stiegen von wenigen Hundert Anfang 2025 auf ueber 110.000 im Februar 2026.
Es wurde nicht schneller – es wurde langsamer. METR fuehrte eine randomisierte kontrollierte Studie mit 16 erfahrenen Open-Source-Entwicklern durch (2025). Bei Projekten, die sie gut kannten, brauchte die KI-Gruppe 19% laenger. Aber die Entwickler selbst nahmen 20% Beschleunigung wahr. Kluft zwischen Wahrnehmung und Realitaet: 39pp.
Stabilitaet bricht bei Skalierung zusammen. Google DORA Report (2025): Pro 25% mehr KI-Adoption sinkt die Software-Lieferstabilitaet um 7,2%.
Es brach tatsaechlich zusammen. Amazon verpflichtete 2025 unternehmensweit KI-Coding-Tools und setzte 21.000 KI-Agenten ein. Im selben Zeitraum wurden ca. 30.000 Mitarbeiter entlassen. Ergebnis: 4 Sev-1-Vorfaelle in 90 Tagen. Am 5. Maerz 2026 fuehrte ein 6-stuendiger Ausfall zu geschaetzten 6,3 Mio. verlorenen Bestellungen.
“Mach TDD” ist nicht die Antwort
Die TDAD-Studie (arxiv 2026) testete dies praezise. Qwen3-Coder 30B loeste 100 SWE-bench Verified Instanzen.
| Bedingung | Regressionsrate |
|---|---|
| Baseline (keine Testanweisung) | 6,08% |
| Prozedurale Anweisung “mach TDD” | 9,94% (schlechter) |
| Betroffene Testdateien als Kontext bereitstellen | 1,82% (70% Reduktion) |
Nicht Anweisung “wie testen”, sondern Vertrag “was muss bestehen”.
Hurl: Vertraege in Plain Text
Hurl wendet Meyers (1992) Design-by-Contract-Prinzip auf die HTTP-Grenze an. Ein Testtool, das HTTP-Requests und erwartete Responses in Plain Text deklariert. Gepflegt von Orange, Rust-Binary ohne Laufzeitabhaengigkeiten, 18,7k GitHub-Sterne.
# Login erfolgreich
POST http://localhost:8080/api/auth/login
{
"email": "test@example.com",
"password": "secret123"
}
HTTP 200
[Asserts]
jsonpath "$.token" exists
jsonpath "$.user.email" == "test@example.com"
# Unauthentifizierter Zugriff ergibt 401
GET http://localhost:8080/api/pages
HTTP 401
Zwei Vertraege. Login muss 200 mit Token liefern, unauthentifizierter Zugriff muss 401 liefern.
Warum Hurl
Unit-Tests verifizieren interne Funktionen – strukturell an die Implementierung gekoppelt. Hurl steht an der HTTP-Grenze. Deklariert nur Requests und Responses. Natuerlich unabhaengig von der Implementierung.
Was Hurl verifiziert, ist nicht Code, sondern Verhalten.
Ratschen-Verriegelung
Wenn ein Hurl-Test besteht, wird er verriegelt. Das ist die Ratsche. Ein verriegelter Hurl-Test ist ratchet code — deterministischer Code, der einen bestandenen API-Vertrag unumkehrbar macht. Der Agent muss refaktorieren, waehrend er alles bestehende Verhalten bewahrt.
Funktioniert auch bei Legacy
Schritt 1: Aktuelles Verhalten in Hurl erfassen. Schritt 2: An CI anhaengen. Schritt 3: Jetzt sicher.
Keine Grundbauarbeiten, sondern Erdbebenertuechtigung. Das Gebaeude verstaerken, ohne den Laden zu schliessen.
Nicht das Ende von Vibe Coding, sondern Evolution
Karpathy erklaerte im Februar 2026: “Die Aera des Vibe Coding ist vorbei.” Das neue Paradigma ist Agentic Engineering. Storey (2026) theoretisierte kognitive Schulden und Intentionsschulden. Eine Hurl-Datei ist die Externalisierung der Intention.
Eine Hurl-Datei ist ein Vertrag. Aendern Sie nicht das Modell. Fuegen Sie einen Vertrag hinzu.
Verwandte Artikel
- yongol – Der Kiel des KI-Coding-SaaS – Erzwingt Full-Stack-Konsistenz mit 10 SSOTs. Hurl ist einer davon.
- Ratchet Pattern – Wie man Agenten die Arbeit beenden laesst – Theoretischer Hintergrund deterministischer Verifikation und Ratschen-Verriegelung.
- Ratchet-Code, der IFEval ausnutzt – Feedback-Schleifen, die den Schmeichelei-Bias und Reins ausnutzen.
Quellen
- Cursino, D. et al. (2026). “Speed at the Cost of Quality? The Impact of AI Coding on Software.” MSR 2026. arxiv.org/abs/2511.04427
- METR (2025). “Measuring the Impact of Early AI on Experienced Open-source Developer Productivity.” arxiv.org/abs/2507.09089
- Google Cloud (2025). DORA Report 2025. cloud.google.com
- Wang, Z. et al. (2026). “TDAD: Test-Driven Agentic Development.” ACM AIWare 2026. arxiv.org/abs/2603.17973
- Autonoma (2026). “Amazon Vibe Coding Failures: 4 Sev-1s in 90 Days.” getautonoma.com
- CNBC (2026). “Amazon convenes ‘deep dive’ internal meeting to address AI-related outages.” cnbc.com
- Thoughtworks (2025). “Spec-Driven Development.” Technology Radar Vol.33. thoughtworks.com
- Karpathy, A. (2026). “From Vibe Coding to Agentic Engineering.” thenewstack.io
- Fowler, M. et al. (2025). “SDD Tools.” martinfowler.com
- Liu, Y. et al. (2026). “Debt Behind the AI Boom.” arxiv.org/abs/2603.28592
- Meyer, B. (1992). “Applying ‘Design by Contract’.” Computer, 25(10), pp. 40-51. doi.org/10.1109/2.161279
- Storey, M.-A. (2026). “From Technical Debt to Cognitive and Intent Debt.” arxiv.org/abs/2603.22106
- Hurl. hurl.dev | github.com/Orange-OpenSource/hurl
Änderungsverlauf
- 2026-05-22: Erstveröffentlichung