LLM

LLM 멀티 에이전트 정확도 향상의 전제조건

에이전트를 여러 개 돌리면 정확해진다? 절반만 맞다. 같은 데이터로 학습한 모델들은 같은 곳에서 틀린다. 멀티 에이전트가 작동하는 조건은 둘 — 오류 독립성을 설계하거나, 검증 가능한 도메인에서 LLM 바깥에 검증기를 세우거나.

LLM의 아첨 편향은 버그가 아니라 자산이다. IFEval이 측정하는 지시 수용 능력을 결정론적 피드백과 결합하면, 4.5B 로컬 모델도 정확한 코드를 생성하는 수렴 루프가 만들어진다.

LLM의 아첨 편향은 버그가 아니다. RLHF의 수학적 필연이며, 빅테크가 고칠 인센티브가 없는 상업적 기능이다. 이것이 LLM-as-Judge를 구조적으로 불가능하게 만드는 이유다.

같은 모델이 웹 채팅에서는 hallucinate하고 코딩 에이전트에서는 작동한다. 모델이 달라서가 아니라 topology가 달라서다. 생성은 확률적이어도 된다. 검증은 결정론적이어야 한다.

같은 모델이 40개에서 멈추기도 하고 527개를 완주하기도 한다. 차이는 모델이 아니라 피드백 구조다. LLM의 성능은 모델 자체보다 얼마나 빠르고 결정론적인 피드백 루프 위에 놓여 있는가에 더 크게 좌우된다.

모든 함수를 인덱싱하고, 테스트 유무를 감지하고, 커버리지를 측정하고, LLM 에이전트에게 피드백을 주는 CLI 도구. 명령어 하나로 레거시 코드에 회귀 방어선을 구축한다.

약속이 없으면 혼돈이고, 약속이 과하면 억압이다. 합리적 제약은 황금비를 이룬다. 법치주의의 원리가 코드와 지식에 동일하게 적용된다.

AI 코드 에이전트의 탐색 단위는 파일이다. 파일 하나에 개념 하나를 강제하는 Go 코드 구조 컨벤션이자 CLI 도구.