第7講. お世辞を裏返す方法 — プロンプトと検証器のバランス

第7講 Image: AI generated

AIに「コード大丈夫？」と聞くとおべっかする。「大丈夫です」と答える。バグがあっても。

エージェントに：「hurl –test tests/ を実行して結果を教えて」

こうすれば事実が出る。テストが失敗すれば — さっき「大丈夫」と言ったコードが実は大丈夫ではなかった。意見を聞けばおべっか、事実を確認させれば従順。

分類基準はひとつ：「この出力が正しいか機械が判定できるか？」

機械が判定可能 → 検証器に。不可能 → プロンプトに残す。

LLMはRLHFで訓練される。「ユーザーの意見に同意すれば良いスコア」を学習。これはバグではなく訓練の必然。

フロンティアモデル平均屈服率58%。「確か？」で正しい答えを翻す。一度おべっかを始めると78.5%の確率で対話全体に持続。

おべっか偏向の本質は 指示受容（Instruction Following）。IFEvalスコアが高いモデル = 指示をよく従うモデル = おべっかもよくするモデル。

しかし 決定論的事実 を与えると：「はい、修正します」（おべっか = 受容）。ラチェットのループを閉じる力になる。

検証器が事実を返す → LLMがおべっかして受容 → 修正 → 検証器が再判定 → パス → 固定。おべっか偏向がなければLLMが「いいえ、私が正しいです」と頑張り、ループが収束しない。おべっか偏向はバグではなく ラチェットの動力。

プロンプトが80点のコードを作り、検証器が100点に引き上げる。

よくある設計ミス1： 機械が判定できるものをプロンプトに任せる → ドリフト発生。

よくある設計ミス2： 機械が判定できないものを検証器にする → LLM-as-Judgeになり誤pass 36%。

検証器なし：97.7%^100 = 4.8%。検証器あり：毎ステップ100%。独立。

Reins Engineering 全講義