Ratchet

反向利用IFEval的棘轮代码

反向利用IFEval的棘轮代码

LLM的谄媚偏差不是缺陷,而是资产。将IFEval衡量的指令遵循能力与确定性反馈相结合,即使4.5B本地模型也能生成准确代码的收敛循环便由此诞生。