Reins Engineering

Hurlがvibe codingのlogic driftを止める
Vibe codingは3ヶ月でlogic driftに崩壊する。CMU、METR、DORA、Amazonがそれを証明した。Hurlでplain textのAPIコントラクトを宣言し、ラチェットでロックすれば、AIの自由を制約せずにdriftを構造的に抑制できる。

IFEvalを逆利用するラチェットコード
LLMの追従バイアスはバグではなく資産だ。IFEvalが測定する指示遵守能力を決定論的フィードバックと組み合わせれば、4.5Bのローカルモデルでも正確なコードを生成する収束ループが生まれる。

yongol — AIコーディングSaaSの竜骨
バイブコーディングは200エンドポイントで崩壊する。AIが意思決定と実装を区別できないからだ。yongolはAIの作業対象をコードから10種の宣言的仕様に移し、レイヤー間の整合性をコンパイル前に強制する。Harness with reins.

AIのsycophancyはビジネス・フィーチャーだ
LLMのsycophancyはバグではない。RLHFの数学的必然であり、ビッグテックが直すインセンティブのない商業的機能だ。これがLLM-as-Judgeを構造的に不可能にする理由である。

コーディングエージェントはなぜ動き、なぜ壊れるのか
同じモデルがWebチャットではhallucinateし、コーディングエージェントでは動作する。モデルが変わったのではなく、topologyが変わったのだ。生成は確率的でよい。検証は決定論的でなければならない。

Ratchet Pattern -- エージェントを最後までやり遂げさせる方法
AIエージェントに527個の関数のテストを書かせたら、40個で「完了しました」と宣言した。Ratchet Patternは完了判定を機械的なverifierに委ね、エージェントを最後まで走らせるパターンだ。

モデルのIQよりフィードバック・トポロジー
同じモデルが40個で止まることもあれば、527個を完走することもある。違いはモデルではなくフィードバック構造だ。LLMの性能はモデル自体よりも、どれだけ速く決定論的なフィードバックループの上に置かれているかに大きく左右される。

tsma — レガシーコードの回帰防御線
すべての関数をインデックスし、テストの有無を検知し、coverageを計測し、LLMエージェントにフィードバックを返すCLIツール。コマンド一つでレガシーコードに回帰防御線を構築する。

filefunc — 1ファイル1コンセプト
AIコードエージェントの探索単位はファイルだ。1ファイルに1コンセプトを強制するGoコード構造のコンベンションであり、CLIツール。