같은 모델이 40개에서 멈추기도 하고 527개를 완주하기도 한다. 차이는 모델이 아니라 피드백 구조다. LLM의 성능은 모델 자체보다 얼마나 빠르고 결정론적인 피드백 루프 위에 놓여 있는가에 더 크게 좌우된다.