IFEval

IFEvalを逆利用するラチェットコード

IFEvalを逆利用するラチェットコード

LLMの追従バイアスはバグではなく資産だ。IFEvalが測定する指示遵守能力を決定論的フィードバックと組み合わせれば、4.5Bのローカルモデルでも正確なコードを生成する収束ループが生まれる。