おべっかバイアス

第7講. おべっかを逆手に — プロンプトと検証器のバランス

意見を与えればおべっかし、事実を与えれば修正する。おべっか偏向をバグではなくアセットとして使う方法。

AIが新機能を追加しながら既存機能をこっそり変えてしまうドリフト、58%のおべっか偏向、97%を5回掛けると86%になる数学。なぜ5つの機能で崩壊するのか。

LLMの追従バイアスはバグではなく資産だ。IFEvalが測定する指示遵守能力を決定論的フィードバックと組み合わせれば、4.5Bのローカルモデルでも正確なコードを生成する収束ループが生まれる。

LLMのsycophancyはバグではない。RLHFの数学的必然であり、ビッグテックが直すインセンティブのない商業的機能だ。これがLLM-as-Judgeを構造的に不可能にする理由である。