Reins Engineering

reinsの「ターン」とは何か

reinsの最小実行単位であるターン（turn）を解剖する。記録されなかったものはターンではない — この定義ひとつから、ドライバー非依存性、再起動耐性、監査可能性のすべてが導かれる。2026年6月のLoop Engineering言説と比較し、ターンがそれらの勧告をいかに構造へ変えるかを見る。

2026-07-07

システムが天才をさらに輝かせる

構造のない天才は漂流し、構造だけでは凡庸に留まる。天才と構造が掛け合わさったとき、初めてその真価を発揮する。Claude Sonnetが43分で32エンドポイントを通過させたZenFlowベンチマークと、B-17、トヨタ、WHOチェックリストが証明する同一の原理。

2026-06-25

abloq — エージェントが運用するブログ、検証は機械がロックする

エージェントにブログを任せれば記事は出てくる。問題は信用できないことだ — 出典を捏造し、直してもいない記事のlastmodを上げ、頼んでいないファイルに手を出す。人が全部検査するなら任せた意味がない。abloqの答えは分業だ — 生成は確率的、検証は決定論的。人が書くのはインサイト仕様一枚(insight.yaml)だけで、執筆・翻訳・更新・根拠補強はエージェントがクエストとして代行し、品質はblog.yaml一枚から派生した決定論的ゲートが保証する。ロックされたPASSは不可逆だ — エージェントは使い捨てでも進行は累積する。

2026-06-11

あなたのエージェントループはなぜ発散するのか

Loop Engineering が普及するほど、人々は同じ壁にぶつかる — ループが収束せず発散するのだ。無限回転・ドリフト・リワードハッキング、その三つの顔の根は一つ。ループの判定スロットに、生成者自身を再び差し込んだこと。だが発散はむしろ運がいい。見えるからだ。本当に恐ろしいのは、静かに偽収束したループである。処方は一つ — 完了をロックする権限を、LLM ではなく決定論的ゲートにのみ置く。

2026-06-11

プロダクショントラフィックこそが仕様だ

レガシーコードにはドキュメントがない。テストもない。それでも今この瞬間も動いている。きちんと記録された一ヶ月分のログこそが仕様だ — プロダクショントラフィックで現在の挙動をキャプチャしたHurl統合テストを作れば、コードを一行も読まずにレガシーの機能を固定し、リファクタリングの安全網を張ることができる。

2026-06-06

都市ひとつを燃やして答えひとつを得る

1兆パラメータのモデルが答えひとつを吐き出すために、都市ひとつ分の電気と水を燃やす。私はこれが狂っていると思った。答えを求めてさまよううちに気づいた。誰もが直そうとしていた欠陥、LLMのおもねりこそが答えだった。factを食わせれば、おもねりは正確さになる。これは、私がなぜReinsを始めたのかについての物語だ。

2026-06-06

reins — Quest CLIからドメインだけを残し、ratchetはフレームワークへ

how-make-questはQuest CLIを素手で建てる方法を教えた。だが二つ目のCLIを建てると、同じratchet、同じscan/next/submit、同じ集計をまた書く。reinsはその不変をフレームワークとして抜き出す — ratchet・コマンド骨格・集計・exportはreinsが供給し、あなたはドメインのゲート(gate.Definition 4メソッド)だけを実装する。ゲートはcheese防御ルールのカタログであり、toulmin defeatグラフが『なぜ負けたか、何を変えれば勝つか』という攻略集をエージェントに返す。

2026-06-05

手綱を渡されたツールに、手綱がなかった — ハーネスとレインスの境界

"Reins Engineering、結局ハーネスじゃないですか？" 両者は対立しない — 同じ馬具の異なる部品だ。しかし、異なる部品だ。世界最高のコーディングエージェントでさえ、自らのコードには手綱をかけなかった。レインスは持つものではなく、かけるものだからだ。

2026-06-04

Quest CLIの作り方 — 完了を機械に判定させるツールを自分で建てる

AIは「やり終えました」と言う。実際には終わっていない。本稿は、その問題を解くツール — Quest CLI — を自分で建てる方法だ。原理(なぜ)からcobraコマンドのスケルトン(どうやって)まで、この一本でエージェントがGoのQuest CLIを作れるようにする。humaがそのワークド例だ。

2026-06-03

LLMマルチエージェントの精度向上に必要な前提条件

エージェントを複数走らせれば正確になる? 半分しか正しくない。同じデータで学習したモデルは同じ場所で間違える。マルチエージェントが機能する条件は二つ——誤りの独立性を設計するか、検証可能なドメインでLLMの外側にverifierを立てるか。

2026-06-02

なぜあなたのエージェントは止まらないのか

エージェントを24時間動かしているという自慢を前にして湧くのは感嘆ではなく疑問だ — なぜまだ終わっていないのか？コードは探索問題ではなく制約充足問題だ。止まれるシステムこそ健全なシステムである。

2026-06-01

美しさについて

美しいものの70%は数学である。秩序は機械が決定論的にロックし、残り30%の複雑さだけを人間が決める。Reins EngineeringはAIコーディングツールではなく — 秩序をロックし、複雑さだけを人間に残す原理だ。

2026-05-31

「完了」は誰が定義するのか — ゲームが40年先に解いた問題

退去確認を写真5枚で定義した瞬間、それはゲームクエストになる。「完了」を行為者の主張ではなく機械的に検証可能な条件として定義すること — ゲームが40年先に解いた問題であり、AIエージェントに仕事を正しくさせる方法だ。

2026-05-30

第11講. 壊れた vibe coding アプリを救う方法

vibe coding で作ったアプリが壊れた。作り直す必要はない。診断して、ロックして、一歩ずつ抜け出せばいい。

2026-05-28

SupabaseはVibe Codingの罠だ

AIがSupabaseを推薦する理由は技術的優位性ではなく、訓練データにチュートリアルが多いからだ。ビジネスロジックがブラックボックスに入ると、エージェントは追跡できなくなる。入るのは30秒、出るのは3ヶ月。

2026-05-28

エージェントが働けるシステムを作るということ

Fortune 500のIT予算の60~80%がロックされたlegacyの維持に消える。開けられないからだ。AIバブルの本当の意味はモデルが賢くなることではない。企業のロックされた記憶がreachableになり始めることだ。

2026-05-27

huma -- エンドポイントを一つも漏らさないラチェット

AIエージェントに42個のエンドポイントのテストを頼むと15個目辺りで完了を宣言する。humaはエンドポイントリストをラチェットセッションに変えエージェントが一つも漏らせないようにする。scan next write verify。4コマンド設定不要。

2026-05-26

codistill -- 既存コードからSSOTを搾り出す

yongolを使うにはSSOTをゼロから書く必要があるか？いいえ。codistillは既存コードからOpenAPI DDL sqlcクエリを自動抽出する――8言語16のWebフレームワークに対応。基礎工事ではなく耐震補強。

2026-05-26

Agent Operable Codebase

人間が読みやすいコードとエージェントが作業しやすいコードは同じか？同じではない。ファイルに関数が20個あるとエージェントの性能が30〜85%低下する。事務所を工場に変えなければならない。

2026-05-25

第10講. データの法 — Agent Operable Data

コードが間違えばテストが捕える。データが間違っても誰も気づかない。スキーマは私が立てる法だ。

2026-05-24

第9講. コードを超えた自動化 — Agent Operable System

コードだけがagent-operableで十分か？ビルド、デプロイ、モニタリングまでエージェントが運用する構造。

2026-05-24

第8講. エージェントの工場 — Agent Operable Codebase

1ファイルに関数20個でエージェント性能30〜85%低下。filefuncで分割し、tsmaでテストする。

2026-05-24

第7講. お世辞を裏返す方法 — プロンプトと検証器のバランス

意見を与えればお世辞を言い、事実を与えれば修正する。

2026-05-24

第6講. 通過したらロック — Ratchet Patternの原理と大量適用

AIが完了しましたと宣言した。実際は40/527。Ratchet Patternは完了判定を機械に委ねる。

2026-05-24

第5講. 手綱のあるAI — Reins Engineering入門

ハーネスエンジニアリングは柵。Reins Engineeringは手綱。モデルを変えるのではなく、契約を追加せよ。

2026-05-24

第4講. 決定をコードの外へ — yongolと宣言的フルスタック制御

コードに混在する決定と実装詳細をAIは区別できない。yongolは決定を10の宣言的仕様に分離する。

2026-05-24

第3講. 壊れないアプリ — Hurl、Git、CI/CD

HurlでAPI契約を宣言し、Gitでセーブポイントを作り、CI/CDで自動検証する。

2026-05-24

第2講. AIを信用しない方法 — バイブコーディングの限界と原因

新機能追加時にAIが既存機能を静かに変更するドリフト、58%のお世辞バイアス。

2026-05-24

第1講. AIへの指示の仕方 — バイブコーディングの基本

Claude Codeのインストールから、CLAUDE.mdによるコンテキスト管理まで。コードを知らない人がAIに指示する方法。

2026-05-24

第0講. Claude Codeのインストール — あなたが使っているのはClaude Codeではないかもしれない

YouTubeで「Claude Code」と呼ばれているものの半分はClaude Codeではない。同じモデルでも、エージェントが違えば結果が違う。その入口をここで塞ぐ。

2026-05-24

Reins Engineering — 手綱のあるAI

Harness engineeringは柵だ。エージェントを外に出さないが、目的地に着くことは保証しない。Reins Engineeringは手綱——決定論的な契約で操り、ラチェットで固定し、意思決定と実装を分離する。

2026-05-23

Hurlがバイブコーディングのドリフトを止める

バイブコーディングは3ヶ月でロジックドリフトにより崩壊する。CMU、METR、DORA、Amazonの事例がそれを証明している。HurlでAPIコントラクトをplain textで宣言しラチェットでロックすれば、AIの自由を制限することなくドリフトを構造的に抑制できる。

2026-05-22

IFEvalを逆利用するラチェットコード

LLMのおべっかバイアスはバグではなく資産だ。IFEvalが測定する指示遵守能力を決定論的フィードバックと組み合わせれば、4.5Bのローカルモデルでも正確なコードを生成する収束ループが作れる。

2026-05-20

yongol — AIコーディングSaaSの竜骨

バイブコーディングは200エンドポイントで崩壊する。AIが意思決定と実装詳細を区別できないからだ。yongolはAIの作業対象をコードから10種の宣言的仕様に移し、レイヤー間の整合性をコンパイル前に強制する。Harness with reins.

2026-05-18

AIの阿諛偏向はビジネスフィーチャーだ

LLMの阿諛偏向はバグではない。RLHFの数学的必然であり、ビッグテックが直す動機のないビジネスフィーチャーだ。これがLLM-as-Judgeを構造的に不可能にする理由だ。

2026-05-18

コーディングエージェントはなぜ動き、なぜ壊れるのか

同じモデルがウェブチャットではhallucinateし、コーディングエージェントでは200行の機能を一発で仕上げる。モデルが変わったのではない — トポロジーが変わったのだ。生成は確率的でよい。検証は決定論的でなければならない。

2026-05-16

Ratchet Pattern — エージェントを最後までやり遂げさせる方法

AIエージェントに527個の関数のテストを書かせたら、40個で「完了しました」と宣言した。Ratchet Patternは完了判定を機械的なverifierに委ね、エージェントを最後まで走らせるパターンだ。

2026-05-15

モデルのIQよりフィードバック・トポロジー

同じモデルが40で止まることもあれば、527を完走することもある。違いはモデルではなくフィードバック構造だ。LLMの性能は、モデル自体よりも、フィードバックループがどれだけ速く決定論的かに大きく左右される。

2026-05-14

tsma -- レガシーコードの回帰防御線

すべての関数をインデックスし、テストの有無を検知し、coverageを計測し、LLMエージェントにフィードバックを返すCLIツール。コマンド一つでレガシーコードに回帰防御線を構築する。

2026-05-14

filefunc — 1ファイル1コンセプト

AIコードエージェントの探索単位はファイルだ。1ファイルに1コンセプトを強制するGoコード構造のコンベンションであり、CLIツール。

2026-03-16