
Le mur des 3 mois
Si votre application construite en vibe coding s’est effondree au bout de 3 mois, si vous subissez une derive ou l’IA ecrase la logique existante, si vous voulez proteger les contrats API des modifications de code – Hurl et le cliquet sont la solution.
Vous construisez un SaaS avec le vibe coding. Au debut c’est rapide. “Fais le login” – 30 secondes. “Ajoute les paiements” – 2 minutes. Un MVP sort en 3 semaines.
Trois mois plus tard, des choses etranges arrivent. L’IA “range” la logique de paiement et change silencieusement le calcul de remise. Ajouter un nouveau endpoint casse l’authentification existante. Vous demandez un refactoring et les noms de champs de l’API publique changent, tuant tous les clients.
C’est ce qu’on appelle la derive logique – l’IA modifiant involontairement la logique metier existante. Les bugs de regression existent aussi en developpement traditionnel. Mais la derive logique est differente. Des changements non voulus par le developpeur se produisent sans qu’il s’en rende compte, dans tout le code. Parce que chaque prompt demarre dans une nouvelle fenetre de contexte.
La derive en chiffres
Ce n’est pas un ressenti. Il y a des donnees.
Le prix de la vitesse est la complexite. Une equipe de Carnegie Mellon a compare 807 depots GitHub avant et apres l’adoption de Cursor (MSR 2026). Le premier mois, les ajouts de code ont augmente de 3-5x. Deux mois plus tard l’avantage de vitesse avait disparu. Ce qui restait : augmentation de 30% des avertissements d’analyse statique et augmentation permanente de 41% de la complexite du code. Liu et al. (2026) ont analyse 302 600 commits IA dans 6 299 depots – la dette technique non resolue est passee de quelques centaines debut 2025 a plus de 110 000 en fevrier 2026.
Ca n’a pas accelere – ca a ralenti. METR a mene un essai controle randomise avec 16 developpeurs open-source experimentes (2025). Sur les projets qu’ils connaissaient bien, le groupe utilisant des outils IA a mis 19% plus de temps. Mais les developpeurs eux-memes ont percu une amelioration de 20%.
La stabilite s’effondre a l’echelle. Selon le rapport Google DORA (2025), pour chaque augmentation de 25% d’adoption de l’IA, la stabilite de livraison logicielle diminue de 7,2%.
Ca s’est vraiment effondre. Amazon a impose les outils de codage IA dans toute l’entreprise en 2025 et deploye 21 000 agents IA. Dans la meme periode, environ 30 000 employes ont ete licencies. Resultat : 4 incidents Sev-1 en 90 jours. Le 5 mars 2026, une panne de 6 heures a cause une perte estimee de 6,3 millions de commandes.
“Fais du TDD” n’est pas la reponse
L’etude TDAD (arxiv 2026) a teste cela precisement. Qwen3-Coder 30B a resolu 100 instances SWE-bench Verified.
| Condition | Taux de regression |
|---|---|
| Ligne de base (sans instruction de test) | 6,08% |
| Instruction procedurale “fais du TDD” | 9,94% (pire) |
| Fournir les fichiers de test concernes comme contexte | 1,82% (reduction de 70%) |
Pas une instruction “comment tester”, mais un contrat “ce qui doit passer”.
Hurl : contrats en texte brut
Hurl applique le principe du Design by Contract de Meyer (1992) a la frontiere HTTP. Outil de test declarant requetes HTTP et reponses attendues en texte brut. Maintenu par Orange, binaire Rust sans dependances, 18,7k etoiles GitHub.
# Login reussi
POST http://localhost:8080/api/auth/login
{
"email": "test@example.com",
"password": "secret123"
}
HTTP 200
[Asserts]
jsonpath "$.token" exists
jsonpath "$.user.email" == "test@example.com"
# Acces non authentifie retourne 401
GET http://localhost:8080/api/pages
HTTP 401
Deux contrats. Le login doit retourner 200 avec un token, l’acces non authentifie doit retourner 401.
Pourquoi Hurl
Les tests unitaires verifient les fonctions internes – structurellement couples a l’implementation. Hurl est a la frontiere HTTP. Il ne declare que requetes et reponses. Naturellement independant de l’implementation.
| Tests unitaires | Hurl | |
|---|---|---|
| Cible de verification | Fonctions internes | Contrat HTTP |
| Lors d’un refactoring IA | Changes ensemble | Inchanges |
| Detection de derive | Conditionnelle | Naturelle |
Ce que Hurl verifie n’est pas le code mais le comportement.
Verrouillage par cliquet
Quand un test Hurl passe, il se verrouille. C’est le cliquet. Un test Hurl verrouille est du ratchet code — du code deterministe qui rend irreversible un contrat d’API valide. L’agent doit refactoriser en preservant tous les comportements existants.
Ca marche aussi sur le legacy
Etape 1 : Capturer le comportement actuel en Hurl. Etape 2 : L’accrocher au CI. Etape 3 : Vous etes en securite.
Ce n’est pas un travail de fondation mais un renforcement parasismique. Renforcer le batiment sans fermer le magasin.
Pas la fin du vibe coding, mais son evolution
Karpathy en fevrier 2026 : “L’ere du vibe coding est terminee.” Le nouveau paradigme est l’ingenierie agentique. Storey (2026) a theorise la dette cognitive et la dette d’intention. Un fichier Hurl est precisement l’externalisation de l’intention.
Un fichier Hurl est un contrat. Ne changez pas le modele. Ajoutez un contrat.
Articles lies
- yongol – La quille du SaaS de codage IA – Impose la coherence full-stack avec 10 SSOTs. Hurl en fait partie.
- Ratchet Pattern – Comment faire finir le travail aux agents – Fondement theorique de la verification deterministe et du verrouillage par cliquet.
- Le code a cliquet qui retourne IFEval a son avantage – Boucles de retour exploitant le biais de flagornerie et Reins.
References
- Cursino, D. et al. (2026). “Speed at the Cost of Quality? The Impact of AI Coding on Software.” MSR 2026. arxiv.org/abs/2511.04427
- METR (2025). “Measuring the Impact of Early AI on Experienced Open-source Developer Productivity.” arxiv.org/abs/2507.09089
- Google Cloud (2025). DORA Report 2025. cloud.google.com
- Wang, Z. et al. (2026). “TDAD: Test-Driven Agentic Development.” ACM AIWare 2026. arxiv.org/abs/2603.17973
- Autonoma (2026). “Amazon Vibe Coding Failures: 4 Sev-1s in 90 Days.” getautonoma.com
- CNBC (2026). “Amazon convenes ‘deep dive’ internal meeting to address AI-related outages.” cnbc.com
- Thoughtworks (2025). “Spec-Driven Development.” Technology Radar Vol.33. thoughtworks.com
- Karpathy, A. (2026). “From Vibe Coding to Agentic Engineering.” thenewstack.io
- Fowler, M. et al. (2025). “SDD Tools.” martinfowler.com
- Liu, Y. et al. (2026). “Debt Behind the AI Boom.” arxiv.org/abs/2603.28592
- Meyer, B. (1992). “Applying ‘Design by Contract’.” Computer, 25(10), pp. 40-51. doi.org/10.1109/2.161279
- Storey, M.-A. (2026). “From Technical Debt to Cognitive and Intent Debt.” arxiv.org/abs/2603.22106
- Hurl. hurl.dev | github.com/Orange-OpenSource/hurl
Journal des modifications
- 2026-05-22: Version initiale