
ヒント — これだけ知れば指示できる
AIに「コード大丈夫?」と聞くとおべっかする。「大丈夫です」と答える。バグがあっても。
エージェントに:「hurl –test tests/ を実行して結果を教えて」
こうすれば事実が出る。テストが失敗すれば — さっき「大丈夫」と言ったコードが実は大丈夫ではなかった。意見を聞けばおべっか、事実を確認させれば従順。
分類基準はひとつ:「この出力が正しいか機械が判定できるか?」
機械が判定可能 → 検証器に。不可能 → プロンプトに残す。
なぜこう指示すべきなのか
おべっか偏向のメカニズム
LLMはRLHFで訓練される。「ユーザーの意見に同意すれば良いスコア」を学習。これはバグではなく訓練の必然。
フロンティアモデル平均屈服率58%。「確か?」で正しい答えを翻す。一度おべっかを始めると78.5%の確率で対話全体に持続。
IFEvalを逆利用する
おべっか偏向の本質は 指示受容(Instruction Following)。IFEvalスコアが高いモデル = 指示をよく従うモデル = おべっかもよくするモデル。
しかし 決定論的事実 を与えると:「はい、修正します」(おべっか = 受容)。ラチェットのループを閉じる力になる。
ラチェットが動く原理
検証器が事実を返す → LLMがおべっかして受容 → 修正 → 検証器が再判定 → パス → 固定。おべっか偏向がなければLLMが「いいえ、私が正しいです」と頑張り、ループが収束しない。おべっか偏向はバグではなく ラチェットの動力。
黄金比率:プロンプト vs 検証器
プロンプトが80点のコードを作り、検証器が100点に引き上げる。
よくある設計ミス1: 機械が判定できるものをプロンプトに任せる → ドリフト発生。
よくある設計ミス2: 機械が判定できないものを検証器にする → LLM-as-Judgeになり誤pass 36%。
検証器が掛け算の劣化を断ち切る
検証器なし:97.7%^100 = 4.8%。検証器あり:毎ステップ100%。独立。
関連記事
Reins Engineering 全講義
| 講 | タイトル |
|---|---|
| 第1講 | AIへの指示の仕方 |
| 第2講 | AIを信じない方法 |
| 第3講 | 壊れないアプリ |
| 第4講 | 決定をコードの外へ |
| 第5講 | 手綱のあるAI |
| 第6講 | 通過したら固定する |
| 第7講 | おべっかを逆手に |
| 第8講 | エージェントの工場 |
| 第9講 | コードを超えた自動化 |
| 第10講 | データの法 |
根拠資料出典
- フロンティアモデル平均屈服率58.19%。持続確率78.5%。
- OpenAI GPT-4oおべっか更新(2025年4月)— 3日でロールバック。
- LLM-as-Judge — 最高精度68.5%、誤承認率最大44.4%。
- 1,000語実験 — 正確な事実 + 位置で0エラー、100%達成。