Deterministic Verification

IFEval을 역이용하는 래칫 코드

IFEval을 역이용하는 래칫 코드

LLM의 아첨 편향은 버그가 아니라 자산이다. IFEval이 측정하는 지시 수용 능력을 결정론적 피드백과 결합하면, 4.5B 로컬 모델도 정확한 코드를 생성하는 수렴 루프가 만들어진다.