LLM

LLMマルチエージェントの精度向上に必要な前提条件

エージェントを複数走らせれば正確になる? 半分しか正しくない。同じデータで学習したモデルは同じ場所で間違える。マルチエージェントが機能する条件は二つ——誤りの独立性を設計するか、検証可能なドメインでLLMの外側にverifierを立てるか。

LLMのおべっかバイアスはバグではなく資産だ。IFEvalが測定する指示遵守能力を決定論的フィードバックと組み合わせれば、4.5Bのローカルモデルでも正確なコードを生成する収束ループが作れる。

LLMの阿諛偏向はバグではない。RLHFの数学的必然であり、ビッグテックが直す動機のないビジネスフィーチャーだ。これがLLM-as-Judgeを構造的に不可能にする理由だ。

同じモデルがウェブチャットではhallucinateし、コーディングエージェントでは200行の機能を一発で仕上げる。モデルが変わったのではない — トポロジーが変わったのだ。生成は確率的でよい。検証は決定論的でなければならない。

同じモデルが40で止まることもあれば、527を完走することもある。違いはモデルではなくフィードバック構造だ。LLMの性能は、モデル自体よりも、フィードバックループがどれだけ速く決定論的かに大きく左右される。

すべての関数をインデックスし、テストの有無を検知し、coverageを計測し、LLMエージェントにフィードバックを返すCLIツール。コマンド一つでレガシーコードに回帰防御線を構築する。

約束がなければ混沌であり、約束が過ぎれば抑圧である。合理的な制約は黄金比をなす。法の支配の原理がコードと知識に同様に適用される。

AIコードエージェントの探索単位はファイルだ。1ファイルに1コンセプトを強制するGoコード構造のコンベンションであり、CLIツール。