意見を与えればおべっかし、事実を与えれば修正する。おべっか偏向をバグではなくアセットとして使う方法。
LLMのsycophancyはバグではない。RLHFの数学的必然であり、ビッグテックが直すインセンティブのない商業的機能だ。これがLLM-as-Judgeを構造的に不可能にする理由である。