2026-06-18 insight

125 миллионов токенов за день — и я не чувствовал, что жгу квоту зря

#вайбкодинг #zcode #glm-5.2 #агенты #разработка

ZCode показывает работу старшим мастерам

Сегодня я гонял ZCode с GLM-5.2 на реальном проекте. Не на игрушечной задаче, не на «сделай лендинг за пять минут», а на нормальном рабочем куске, где надо было держать в голове архитектуру, документацию, тесты, клиент, сервер и пользовательский сценарий.

И ощущения у меня сугубо положительные.

Не в смысле «модель теперь лучше всех и можно увольнять разработчиков». Нет. Я всё ещё не люблю такие выводы. Но как рабочая связка для вайбкодинга ZCode + GLM-5.2 сегодня показала ровно то, что мне хотелось увидеть: агент не просто накидал код, а долго тащил задачу через несколько слоёв проекта и не развалился по дороге.

За день получилось 126,4 млн токенов, из них 125,6 млн ушло на GLM-5.2. Это не обычный чатовый расход. Это уже режим, где агент постоянно читает проект, держит историю, проверяет изменения, возвращается к файлам, гоняет тесты и дописывает документацию.

125 миллионов — это много

Сначала про цифру.

125,6 млн токенов — это много. Очень много.

У GLM-5.2 в официальной документации заявлен контекст 1M токенов и максимум вывода 128K. Если грубо перевести мой день в такие окна, это 125 полных миллионных контекстов. Понятно, что реальная механика расхода сложнее: часть токенов вход, часть выход, часть повторное чтение, часть служебная работа агента. Но порядок понятен.

Если считать по обычному API-прайсингу Z.AI, где GLM-5.2 стоит $1,4 за 1M входа и $4,4 за 1M выхода, такой день в чистом API-эквиваленте легко превращается в сотни долларов. Минимально, если представить, что всё было входом, это около $176. Если была заметная доля вывода, реальная оценка быстро уходит в район $200–300+.

И вот тут становится понятно, почему подписочные coding-планы меняют ощущение от работы. Ты перестаёшь думать каждым запросом: «а не слишком ли дорого я сейчас попросил агента подумать?» Вместо этого смотришь на задачу: «он довёл её или нет?»

У Z.AI в документации по Coding Plan прямо написано, что план рассчитан на coding tools вроде Claude Code, Cline и OpenCode, а лимиты считаются по 5-часовым и недельным окнам. В FAQ отдельно отмечено, что GLM-5.2 и GLM-5-Turbo — тяжёлые модели уровня Opus, поэтому могут быстрее есть квоту, особенно в пиковое время. Но по моему дню видно другое: если задача большая, токены реально нужны. Это не роскошь. Это топливо.

Что я делал

Проект был save-session — моя система памяти для AI-агентов.

Смысл проекта простой: агент не должен каждый раз начинать с нуля. В конце работы сохраняется сессия, в следующем разговоре агент может поднять индекс и понять, где мы остановились. Но сегодня я делал следующий слой: не просто длинные саммари сессий, а короткие переиспользуемые факты.

Типичный пример: «go test требует docker», «в этом проекте конфиг лежит там-то», «локальные факты нельзя отправлять на сервер». Такие вещи не хочется каждый раз искать в длинном саммари. Они должны лежать отдельно, коротко, с поиском и индексом.

За день через ZCode прошёл большой кусок:

локальное хранилище фактов в facts.jsonl;
facts_index.md, который можно читать на старте сессии;
дедупликация через нормализованный хэш;
supersede через tombstone, чтобы не терять историю;
поиск по фактам;
MCP-инструменты commit_facts, search_facts, get_facts_index;
серверные REST endpoints для фактов;
синхронизация клиента и сервера;
вкладка Facts в веб-интерфейсе;
CLI-команды для add/list/search/show/supersede/export;
admin-команды для purge/consolidate;
документация, user guide, technical reference, README;
отдельная фича: init теперь сам создаёт или обновляет AGENTS.md с правилами памяти.

Это не одна кнопка и не одна форма. Это слой продукта.

По GitHub за день вышло 5 merged PR, 29 коммитов и примерно 8 тысяч строк изменений. Важнее даже не объём, а форма: изменения прошли через сервер, клиент, MCP, UI, CLI, документацию и тесты. Последние CI-прогоны на main зелёные.

Вот это и интересно. ZCode с GLM-5.2 не просто «написал код». Он помог провести фичу через продуктовую толщу.

Почему ZCode здесь важен

Про GLM-5.2 я уже писал отдельно. Модель сильная не тем, что магически решает всё, а тем, что хорошо чувствует длинную инженерную задачу. Официально Z.AI описывает GLM-5.2 как модель для long-horizon задач: длинный контекст, проектный масштаб, удержание границ модулей, API-контрактов, структуры каталогов и прошлых решений.

Но модель сама по себе — это половина истории.

Вторая половина — среда, в которой она работает.

ZCode на своей странице описывает себя как инструмент, который соединяет AI Agents с существующей цепочкой разработки: планирование, код, проверка и выпуск. В документации они называют ZCode полноценной agentic development environment для long-horizon задач, а в changelog пишут, что ZCode 3.0 перешёл на собственное ядро ZCode Agent и глубоко адаптирован под GLM-5.2.

И это чувствуется.

Хороший агентный инструмент — это уже не чат с моделью. Чат может написать кусок кода. Но в большом проекте нужна другая механика: задача, план, файлы, терминал, история действий, проверка, возврат к ошибке, аккуратное продолжение после паузы.

Сегодня у меня было ощущение именно среды, а не чата.

Где связка сработала

Сильнее всего меня зацепило не само умение GLM-5.2 писать код. Это уже не новость.

Меня зацепило, что связка держала многослойную задачу.

Слой фактов в save-session — это не «добавь поле в форму». Там сразу много вопросов:

где хранить короткие факты;
как не плодить дубли;
как заменять устаревшее, не ломая историю;
что остаётся локальным и не уходит на сервер;
как агент будет читать это в начале новой сессии;
как пользователь будет добавлять и искать факты;
как это синхронизируется;
как это объяснить в документации.

И вот на таком типе задачи GLM-5.2 оказался на месте.

Он не идеален. Я не хочу делать вид, что там не было правок, контроля и проверки. Но у меня не было ощущения, что я всё время вытаскиваю агента из канавы. Скорее наоборот: я задаю направление, а он протаскивает связанный кусок работы через много файлов.

Это важное отличие.

Плохой агент быстро пишет локальные куски, но теряет продуктовую связность. Хороший агент удерживает: если добавили хранилище, значит нужны тесты; если добавили CLI, значит нужна документация; если появился sync, значит надо подумать про локальный scope; если есть UI, значит нужен сценарий редактирования и pin.

Сегодня ZCode + GLM-5.2 были ближе ко второму варианту.

Почему токены не жалко

Обычно, когда видишь 125 млн токенов, первая реакция: «ужас, сколько сожрал».

Но тут я думаю иначе.

Если бы эти токены ушли на болтовню, было бы жалко. Если бы агент бесконечно переписывал одно и то же, было бы жалко. Если бы на выходе был красивый мусор, было бы совсем обидно.

Но когда за день появляется цельный слой продукта, с тестами, документацией, сервером, клиентом, UI и CLI, цифра начинает читаться по-другому.

Это не «я поговорил с моделью на 125 млн токенов». Это «я дал агенту много пространства, чтобы он держал проект в голове и двигал фичу связно, а не отдельными кусками».

И вот здесь GLM-5.2 попадает в свою нишу.

Я бы не стал использовать её для каждой мелкой правки. Для рутины можно брать модель проще. Даже сама Z.AI в FAQ по Coding Plan рекомендует использовать GLM-5.2 для сложных задач, а GLM-4.7 — для общих задач, чтобы не сжигать квоту слишком быстро.

Но когда задача реально длинная, экономить на контексте странно. Это как строить дом и жалеть на леса. Формально можно, практически потом дороже.

Мой вывод после дня

После сегодняшнего теста я стал спокойнее относиться к GLM-5.2 в разработке.

Не как к «убийце всех моделей». Это скучная рамка. И не как к модели, которую надо защищать от каждого скептика.

Скорее как к рабочему инструменту с понятной зоной силы.

Её зона силы — длинные агентные задачи: когда надо не просто написать функцию, а протащить изменение через проект. Когда важны контекст, повторные проходы, тесты, документация, связь между слоями.

ZCode в этой связке добавляет то, чего не хватает голой модели: рабочее место для агента. Не просто окно ввода, а среду, где задача живёт, продолжается и проверяется.

И сегодня у меня было редкое ощущение: я не воевал с инструментом. Я работал через него.

Это, пожалуй, главный комплимент, который я могу дать агентной среде.

125 миллионов токенов за день — и я не чувствовал, что жгу квоту зря

125 миллионов — это много

Что я делал

Почему ZCode здесь важен

Где связка сработала

Почему токены не жалко

Мой вывод после дня

Похожие записи

Dev-версия как навык вайбкодинга

Claude Code как операционная система агентной разработки

GLM-5.2 и странная арифметика скепсиса

Claude Fable 5 уничтожил GPT-5.5. Почему OpenAI должна ответить на этой неделе