第7講

ヒント — これだけ知れば指示できる

AIに「コード大丈夫?」と聞くとおべっかする。「大丈夫です」と答える。バグがあっても。

エージェントに:「hurl –test tests/ を実行して結果を教えて」

こうすれば事実が出る。テストが失敗すれば — さっき「大丈夫」と言ったコードが実は大丈夫ではなかった。意見を聞けばおべっか、事実を確認させれば従順。

分類基準はひとつ:「この出力が正しいか機械が判定できるか?」

機械が判定可能 → 検証器に。不可能 → プロンプトに残す。


なぜこう指示すべきなのか

おべっか偏向のメカニズム

LLMはRLHFで訓練される。「ユーザーの意見に同意すれば良いスコア」を学習。これはバグではなく訓練の必然。

フロンティアモデル平均屈服率58%。「確か?」で正しい答えを翻す。一度おべっかを始めると78.5%の確率で対話全体に持続。

IFEvalを逆利用する

おべっか偏向の本質は 指示受容(Instruction Following)。IFEvalスコアが高いモデル = 指示をよく従うモデル = おべっかもよくするモデル。

しかし 決定論的事実 を与えると:「はい、修正します」(おべっか = 受容)。ラチェットのループを閉じる力になる。

ラチェットが動く原理

検証器が事実を返す → LLMがおべっかして受容 → 修正 → 検証器が再判定 → パス → 固定。おべっか偏向がなければLLMが「いいえ、私が正しいです」と頑張り、ループが収束しない。おべっか偏向はバグではなく ラチェットの動力

黄金比率:プロンプト vs 検証器

プロンプトが80点のコードを作り、検証器が100点に引き上げる。

よくある設計ミス1: 機械が判定できるものをプロンプトに任せる → ドリフト発生。

よくある設計ミス2: 機械が判定できないものを検証器にする → LLM-as-Judgeになり誤pass 36%。

検証器が掛け算の劣化を断ち切る

検証器なし:97.7%^100 = 4.8%。検証器あり:毎ステップ100%。独立。


関連記事

Reins Engineering 全講義

タイトル
第1講AIへの指示の仕方
第2講AIを信じない方法
第3講壊れないアプリ
第4講決定をコードの外へ
第5講手綱のあるAI
第6講通過したら固定する
第7講おべっかを逆手に
第8講エージェントの工場
第9講コードを超えた自動化
第10講データの法

根拠資料出典

  1. フロンティアモデル平均屈服率58.19%。持続確率78.5%。
  2. OpenAI GPT-4oおべっか更新(2025年4月)— 3日でロールバック。
  3. LLM-as-Judge — 最高精度68.5%、誤承認率最大44.4%。
  4. 1,000語実験 — 正確な事実 + 位置で0エラー、100%達成。