Система делает гения ещё ярче Изображение: сгенерировано ИИ

Сотрудник McDonald’s не является мишленовским шеф-поваром. Тем не менее «Биг Мак» в Сеуле и «Биг Мак» в Нью-Йорке имеют одинаковый вкус. Системы создают единообразие.

На этом месте большинство людей делают вывод: «Талант не нужен. Достаточно системы». Я тоже так когда-то думал. Ошибался.

Система McDonald’s не заменяет шеф-поваров. Она их освобождает. Раз сотрудникам в зале не нужно запоминать температуру гриля, шеф-повара в штаб-квартире могут целиком сосредоточиться на разработке новых блюд. Система берёт на себя повторение, и человеческая креативность направляется только туда, где она действительно нужна. Системы не заменяют гения. Они создают условия для того, чтобы гений мог быть гением.

Тот же принцип применим к ИИ-агентам. Гений без структуры дрейфует. Структура без гения посредственна. Интересное начинается, когда они сочетаются.

История освобождения через структуру

В 1935 году Boeing B-17 разбился на испытательном полёте. Не потому, что пилот был некомпетентен. Самолёт стал настолько сложным, что память одного человека не вмещала все процедуры. Решением стал не поиск лучшего пилота, а создание чек-листа. После этого B-17 налетал 1,8 миллиона миль без единой аварии.

Общепринятая интерпретация гласит: «Чек-лист заменил мастерство пилота». Но произошло другое. Чек-лист взял на себя когнитивную нагрузку процедурной памяти, и пилот смог полностью сосредоточиться на ситуационной оценке: принятие решений в турбулентности, перерасстановка приоритетов в аварийной ситуации. Когда чек-лист принял на себя механическое повторение, суждение пилота наконец засияло в полную силу.

Производственная система Toyota (TPS) следует той же логике. Дёрни шнур andon, и линия останавливается. Ни одного автомобиля не выйдет, пока проблема не решена. Стандартные операционные процедуры (SOP) создают воспроизводимое качество. Но настоящая сила TPS не в самих SOP. Поскольку SOP поглощают отклонения в повседневных операциях, инженеры могут посвящать время kaizen, фундаментальному улучшению. Структура берёт на себя повторение, и люди сосредотачиваются на улучшении.

Исследование Атула Гаванде перенесло этот принцип в операционную. В больницах, внедривших Хирургический чек-лист WHO, осложнения сократились на 36%, смертность на 47%. Чек-лист представляет собой один лист из 19 пунктов. Он не улучшил навыки хирурга. Он переложил на систему когнитивную нагрузку вроде «не оставить марлю» и освободил хирургов для действительно сложных суждений: немедленная реакция на неожиданное кровотечение, перепроектирование хода операции в реальном времени.

Паттерн одинаков. Когда структура берёт на себя повторение, человеческие способности концентрируются на суждении и творчестве. Ценность системы не в замене таланта. Она в том, чтобы талант не расходовался на то, что этого не требует.

Тот же принцип применим к ИИ

Господствующий нарратив в ИИ сейчас таков: «больше моделей, больше параметров, выше бенчмарки». Убеждённость в том, что более умные модели решают проблемы. Отчасти верно. Но лишь наполовину.

Возьмите самую мощную модель и скажите «сделай мне приложение» без всякой структуры. Что произойдёт? Первые 100 строк чистые. После 500 строк модель забывает созданные ею интерфейсы. На 1000 строк правила, установленные ранее, нарушаются позже. Когда эндпоинтов больше 30, схемы БД и спецификации API начинают тихо расходиться.

Это не потому, что модель глупа. Поддерживать согласованность всех решений внутри контекстного окна структурно почти невозможно. Люди тоже не справляются. По той же причине, по которой пилот B-17 не справлялся. Когда сложность превышает когнитивную ёмкость одного агента, независимо от того, насколько он талантлив, что-то выскальзывает.

Я называю это дрейфом. Явление, при котором агент в итеративных циклах постепенно отклоняется от исходной спецификации. Без структуры дрейф неизбежен. Обновление модели лишь откладывает момент появления дрейфа. Оно никогда его не устраняет.

Вот ключевой момент. Без структуры даже Opus тратит вычислительную мощь на запоминание имён полей. Со структурой Opus может сосредоточить рассуждение на вопросе «как следует декомпозировать этот домен?». Умная модель делает умную работу только тогда, когда структура берёт на себя рутинную.

43 минуты, 32 эндпоинта, ноль багов

Есть доказательство. Бенчмарк ZenFlow.

Claude Sonnet 4.6, не топовая модель (Opus), а модель среднего уровня, создал приложение от начала до конца внутри SSOT-структуры yongol.

Результаты:

  • 32 эндпоинта, 9 таблиц БД, 9 файлов запросов, 37 тестов Hurl, все пройдены
  • Приблизительно 43 минуты
  • Багов генерации кода: 0

Модель не избежала всех ошибок. Было 4 ошибки (BUG-077~080). Важно то, что все 4 были классифицированы как «ошибки написания SSOT». Не баги генератора кода: агент неправильно написал спецификацию. И система это поймала. validate сообщил о сбоях, агент исправил спецификации, запустил снова и прошёл.

Около 16 из 43 минут ушло на этот цикл validate. Это было время, когда система обучала агента.

Sonnet «менее умён», чем Opus, с более низкими оценками бенчмарков по всем параметрам. Тем не менее внутри структуры он создал код производственного качества. Не потому, что гений не нужен, а потому, что структура взяла на себя исполнение, и гению не пришлось этим заниматься.

Поскольку структура позволяет Sonnet справляться с исполнением на достаточном уровне качества, модель-гений может быть задействована исключительно для проектирования и принятия решений, в действительно сложных областях. Тот же механизм, что и у сотрудников McDonald’s, которые стабильно производят гамбургеры, и шеф-повара в штаб-квартире могут изобретать новые блюда.

Три шестерни

Разберите эту структуру, и появятся три компонента. Я называю это Ratchet Pattern. Каждая шестерня берёт на себя одну вещь, о которой гению больше не нужно беспокоиться.

1. SSOT: что строить

Single Source of Truth. В yongol эту роль выполняют 9 декларативных файлов спецификаций. OpenAPI определяет эндпоинты, DDL определяет таблицы, Rego определяет разрешения. Ключевой момент: все 9 связаны через единый идентификатор: operationId. Для заданного эндпоинта спецификация API, запрос к БД, тест и правило доступа привязаны к одному ключу.

Что берёт на себя SSOT: память. Имена полей, связи, ограничения. Гению не нужно их запоминать. Спецификация помнит.

2. Codegen: как строить

Код генерируется из SSOT. Агент не пишет код свободно; он пишет код, производный от спецификации. Дрейф структурно подавлен. То, чего нет в спецификации, не может быть создано; то, что в ней есть, не может быть пропущено.

Что берёт на себя Codegen: повторение. Писать шаблонный код для 32 эндпоинтов по одному не является работой для гения. Это делает структура.

3. Gate: правильно ли построено

Детерминистическая верификация. validate проверяет согласованность всех 9 спецификаций. Если operationId есть в OpenAPI, но отсутствует в тестах Hurl, то сбой. Если столбец есть в DDL, но не упоминается в запросах sqlc, то предупреждение. Ничто не переходит на следующий этап без прохождения.

Что берёт на себя Gate: инспекцию. Ручная проверка согласованности 32 эндпоинтов сравнима с попыткой пилота B-17 вспомнить все процедуры наизусть. Измерения определяют допуск.

Когда три шестерни сцепляются, они становятся храповиком. Пройденное не откатывается. Если агент допускает ошибку, Gate её ловит. Агент исправляет. Верификация запускается снова. Единственный выход из этого цикла: «пройдено». И пока весь этот цикл работает, гений уже может проектировать следующую задачу.

Когда гений сияет

Итак, где же появляется гений? Везде за пределами структуры. Именно там настоящая ценность.

Человек, который написал инструкцию McDonald’s, не был сотрудником зала. Человек, который разработал рецепты, декомпозировал процессы и решил, куда поместить инспекции, был экспертом. То же и с шнуром andon Toyota. Именно интуиция Тайити Оно определила условия для остановки линии. Системы берут на себя исполнение, не проектирование. Проектирование является областью гения. Поскольку структура сняла бремя исполнения, гений может погрузиться в проектирование.

То же верно в ИИ. Написание SSOT для yongol (определить, какие эндпоинты нужны, спроектировать связи между таблицами, выбрать модель разрешений) требует глубокого рассуждения. Исследование до того, как структура установлена; архитектурные суждения без прецедентов; вопрос «как следует декомпозировать эту задачу?». Ничто из этого не вмещается в структуру. Именно здесь сильная модель оправдывает свою стоимость.

Поэтому на практике я разделяю модели по ролям. Проектирование и суждение поручаются Opus; исполнение внутри структуры поручается Sonnet. Этот двухмодельный паттерн является самой прямой реализацией принципа «системы делают гения ярче». Opus не сжигает токены на имена полей или шаблонный код. Структура берёт это на себя. Opus сосредоточен исключительно на архитектурных решениях, декомпозиции домена, оценке пограничных случаев, работе, которую может сделать только Opus.

Архитектор, который не носит кирпичи, не пренебрегает этим трудом. Рабочие делают это, чтобы архитектор мог сосредоточиться на чертежах. Ставить лучших специалистов на каждую задачу не является тщательностью; это расточительство.

Не экономить на дорогих моделях: использовать их правильно

Посмотрим на цены.

Стоимость выходных токенов Claude Sonnet составляет $15/M-token. Opus: $75/M-token. Разница в 5 раз. Без структуры, если назначить весь конвейер Opus, большая часть его мощности уйдёт на генерацию шаблонного кода и поддержание согласованности имён полей. Как платить архитектору $75 в час, чтобы он носил кирпичи.

Со структурой всё иначе. Исполнение (генерация кода, поддержание согласованности, прохождение тестов) берёт на себя Sonnet внутри структуры. Как доказал ZenFlow, с качеством, проходящим Gate на 100%. Opus задействуется только для проектирования и принятия решений. За тот же бюджет внимание Opus концентрируется с плотностью в 5 раз выше.

Назовите это распределением бюджета, а не снижением затрат. Гений там, где нужен гений; структура там, где достаточно структуры. Более низкая общая стоимость является побочным эффектом; настоящий эффект: более высокое качество результата. То, что гений производит, занимаясь работой уровня гения, находится на совершенно другом уровне по сравнению с тем, что он производит, погрязнув в рутине.

Открытые вопросы

Если быть честными, кое-что остаётся недоказанным.

ZenFlow является одним бенчмарком. 32 эндпоинта: для продакшена это средний масштаб. Сохраняется ли тот же паттерн на 200 эндпоинтах, ещё проверяется. Есть измерения, показывающие сжатие контекста в yongol примерно в 10x, но масштабируется ли это линейно до сотен эндпоинтов, требует дополнительных данных.

Ещё один момент. Написание SSOT само по себе требует экспертизы. Возвращаясь к аналогии с McDonald’s: сначала должен существовать человек, способный написать инструкцию. Чтобы структура делала гения ярче, сначала нужен гений, способный спроектировать структуру. Не замкнутый круг. Последовательность. Один акт проектирования поддерживает бесконечное число актов исполнения.

Но ключевой паттерн остаётся в силе.

Умножение

«Насколько умён ваш ИИ?» Это лишь половина вопроса.

Вот вторая половина: «На что ваша структура направляет этот интеллект?»

Когда у B-17 не было чек-листа, даже лучшие пилоты разбивались. После появления чек-листа обычные пилоты налетали 1,8 миллиона миль без аварий, а исключительные получили пространство для решения задач, которых раньше не существовало. Если бы Toyota вместо внедрения шнура andon сказала «наймём лучших инженеров», бережливого производства никогда бы не было. Именно потому, что шнур andon существовал, инженеры могли сосредоточиться на kaizen.

ИИ такой же. Новые модели выходят каждый год. Сильнейшая модель прошлого года является нынешним средним уровнем. Но инвестиция в структуру сохраняется при смене моделей. Спецификации SSOT работают с Sonnet, работают с Opus и будут работать с моделью следующего года. И по мере того как модели становятся мощнее, то, что структура освобождает, растёт вместе с ними. Ценность структуры увеличивается вместе с моделью.

Гений в одиночку дрейфует. Структура в одиночку посредственна. Когда гений и структура перемножаются, только тогда они достигают мест, куда ни тот ни другой не смог бы добраться в одиночку.

Системы не побеждают гения. Они делают гения ярче. Это не новое открытие. Доказано с 1935 года. Мы просто ещё не применили это к ИИ.

Связанные статьи

Дополнительное чтение (внешнее)

Источники

  • Ohno, T. (1988). Toyota Production System: Beyond Large-Scale Production. Productivity Press.
  • Gawande, A. (2009). The Checklist Manifesto: How to Get Things Right. Metropolitan Books.
  • Haynes, A. B., et al. (2009). “A Surgical Safety Checklist to Reduce Morbidity and Mortality in a Global Population.” New England Journal of Medicine, 360(5), 491-499.
  • World Health Organization. (2009). WHO Surgical Safety Checklist. WHO Patient Safety.
  • Случай с чек-листом B-17: Schamel, J. (2012). “How the Pilot’s Checklist Came About.” Flight Safety Australia Magazine.

История изменений

  • 2026-06-25: Первая публикация