おべっかバイアス

第7講. おべっかを逆手に — プロンプトと検証器のバランス

第7講. おべっかを逆手に — プロンプトと検証器のバランス

意見を与えればおべっかし、事実を与えれば修正する。おべっか偏向をバグではなくアセットとして使う方法。

第2講. AIを信じない方法 — バイブコーディングの限界と原因

第2講. AIを信じない方法 — バイブコーディングの限界と原因

AIが新機能を追加しながら既存機能をこっそり変えてしまうドリフト、58%のおべっか偏向、97%を5回掛けると86%になる数学。なぜ5つの機能で崩壊するのか。

IFEvalを逆利用するラチェットコード

IFEvalを逆利用するラチェットコード

LLMの追従バイアスはバグではなく資産だ。IFEvalが測定する指示遵守能力を決定論的フィードバックと組み合わせれば、4.5Bのローカルモデルでも正確なコードを生成する収束ループが生まれる。

AIのsycophancyはビジネス・フィーチャーだ

AIのsycophancyはビジネス・フィーチャーだ

LLMのsycophancyはバグではない。RLHFの数学的必然であり、ビッグテックが直すインセンティブのない商業的機能だ。これがLLM-as-Judgeを構造的に不可能にする理由である。