800 миллионов токенов спустя: почему GLM-5.2 стала моей рабочей моделью для кода
За месяц я почти дошёл до 800 миллионов токенов на GLM-5.2.
Если смотреть на это как на чат, цифра выглядит безумно. Восемьсот миллионов токенов — это уже не «попросил модель поправить функцию». Это похоже на дырку в бюджете, только вместо денег туда улетают куски контекста, логи, файлы, планы, ошибки, тесты и повторные попытки.
Но в агентской разработке токены считаются иначе. Это не только текст ответа, это память рабочего процесса.
Модель читает проект, возвращается к старым решениям, строит гипотезы, запускает проверки, ищет баги в собственном коде, переписывает куски, снова проверяет. В какой-то момент ты перестаёшь смотреть на токены как на «сообщения» и начинаешь смотреть на них как на топливо.
И вот после этого месяца у меня довольно простое ощущение: GLM-5.2 в связке с ZCode стала одной из самых рабочих моделей для кода, которые я пробовал.
Не самой лёгкой. Не самой дешёвой. Не самой быстрой на мелочах.
Именно рабочей.
Это не модель для кнопки
Я бы не запускал GLM-5.2 на каждую мелкую задачу.
Добавить кнопку, переименовать поле, поправить текст, накидать простую функцию — для этого она часто слишком тяжёлая. Это примерно как доставать большой инженерный станок, чтобы вкрутить один саморез.
Z.AI сама пишет, что GLM-5.2 — флагманская модель для длинных задач: 1M контекста, до 128K вывода, работа с инструментами, MCP, сценарии уровня проектной инженерии. То есть это не просто «модель для ответа». Её смысл в длинной работе, где надо держать проект, требования, проверки и последствия изменений.
И это очень похоже на то, что я увидел на практике.
GLM-5.2 не ощущается как быстрый помощник, который красиво дописывает строчку. Она больше похожа на инженера, который садится рядом, долго смотрит в проект и начинает копать.
Иногда даже слишком долго.
Но когда задача сложная, это уже не недостаток.
Где она раскрывается
Самое сильное место GLM-5.2 для меня — не написание кода как таковое.
Код сейчас пишут многие модели. Кто-то быстрее, кто-то аккуратнее, кто-то дешевле. Сам по себе сгенерированный файл уже давно не впечатляет.
Сильное место здесь другое: модель умеет держать инженерный ход.
Она может зайти в задачу не с позиции «сейчас быстро накидаю решение», а с позиции «давай сначала поймём, что здесь вообще происходит». Посмотреть старый код. Найти связанный модуль. Увидеть, где тесты. Проверить, почему прошлое решение ломается. Сформулировать гипотезу. Исправить. Запустить. Получить ошибку. Вернуться. Починить уже свой же код.
Вот это для меня и есть разница между моделью для кодинга и моделью для инженерной работы.
В обычном кодинге модель пишет. В инженерной работе она ещё и сомневается.
Не как человек, конечно. Но по поведению это ближе к хорошему разработчику: не только «сделал», а «проверил, нашёл, что не сходится, вернулся, переделал».
На задачах уровня архитектуры, глубоких доработок и поиска багов это важнее, чем скорость первого ответа.
ZCode как рама для длинной работы
Отдельно важна связка с ZCode.
ZCode сейчас прямо позиционируется как официальный инструмент под GLM-5.2: планирование, код, проверка, развёртывание, работа с агентами. В документации он описан как агентская среда разработки для длинных многошаговых задач.
И вот тут маркетинговое описание неожиданно попадает в реальность.
Потому что GLM-5.2 без нормальной рабочей среды была бы просто мощной моделью в пустоте. А в ZCode у неё появляется контур: задачи, сессии, использование, инструменты, проект, проверки. Модель не просто отвечает в окно. Она работает внутри процесса.
Мне кажется, это вообще главный сдвиг в агентском кодинге. Мы слишком долго сравнивали модели по ответам. А надо сравнивать связки: модель плюс среда, модель плюс инструменты, модель плюс то, как она проживает длинную задачу.
В этом смысле ZCode + GLM-5.2 — не чат и не автодополнение. Это рабочая установка.
Иногда шумная, иногда прожорливая, иногда небыстрая. Но установка.
800 миллионов — это много
Теперь про неприятную часть.
800 миллионов токенов — это много. Даже если часть была кэшированным контекстом, даже если подписка считает это не так, как публичный API, сам масштаб всё равно большой.
По официальной странице цен Z.AI, GLM-5.2 стоит $1.4 за миллион входных токенов, $0.26 за миллион кэшированного входа и $4.4 за миллион выходных токенов. Если грубо переложить 800 миллионов токенов в API-эквивалент, получится большой разброс: от примерно $208 при полностью кэшированном входе до $1120, если считать всё обычным входом. При заметной доле вывода сумма легко уходит ещё выше.
Это не точный счёт за подписку. Подписка и API устроены по-разному. Но порядок величины полезен: становится понятно, почему такие модели нельзя бездумно гонять на любую мелочь.
Да и сама Z.AI в FAQ по Coding Plan предупреждает, что GLM-5.2 и GLM-5-Turbo расходуют квоту быстрее, чем обычные модели. Их рекомендуют включать для сложных задач, а для общего потока оставлять более лёгкие варианты.
Я с этим согласен.
GLM-5.2 — не повседневная отвёртка. Это тяжёлый инструмент. Его надо доставать, когда есть что сверлить.
Почему я не считаю это растратой
При этом я не чувствую, что эти токены просто сгорели.
Часть точно сгорела. В агентской работе всегда есть пустые круги: модель перечитала лишнее, не туда пошла, слишком долго думала, повторила проверку, распухла в объяснениях. Это надо признавать, иначе разговор превращается в рекламу.
Но большая часть расхода в таких задачах появляется не из-за болтовни. Она появляется потому, что агент реально тащит контекст.
Он читает файлы. Сравнивает куски системы. Держит старые решения. Перепроверяет. Вытаскивает зависимости. Возвращается к тестам. Помнит, что уже пробовал. И иногда находит баги в том коде, который сам же написал пять минут назад.
Вот это для меня самая ценная часть.
Не «модель написала много строк». Строки — дешёвый показатель. Можно написать тонну кода и сделать систему хуже.
Ценность в другом: модель способна участвовать в длинном цикле доработки. Не идеально. Не без присмотра. Но достаточно серьёзно, чтобы ей можно было давать задачи выше уровня «сделай функцию».
Уровень верхних моделей
Я осторожно отношусь к разговорам «эта модель лучше той». Обычно там слишком много вкусовщины, разных задач и странных бенчмарков.
Но по моему рабочему ощущению GLM-5.2 в связке с ZCode находится где-то рядом с верхним эшелоном кодовых моделей. Уровень Opus 4.8 — точно не выглядит чужим сравнением. Иногда она копает даже приятнее: не так стремится быстро закрыть задачу, дольше держит нить, чаще возвращается к проверкам.
Независимые сводки тоже показывают, что модель уже не где-то в стороне. Например, Artificial Analysis ставит GLM-5.2 max среди сильных моделей по своему индексу, отмечает 1M контекста, высокую скорость и цену $1.4/$4.4 за миллион токенов.
Но для меня главный аргумент не там.
Бенчмарк может подсветить уровень. Рабочий день показывает полезность.
Если модель выдерживает не один красивый ответ, а длинную задачу с кодом, тестами, ошибками, откатами и повторными заходами — вот тогда она становится инструментом.
Мой вывод после месяца
GLM-5.2 не надо включать везде.
Для простого кодинга она часто избыточна. Для быстрых правок есть модели легче и дешевле. Для мелкого потока лучше не тратить тяжёлую модель, иначе лимиты улетят в трубу, а выгоды почти не будет.
Но если задача сложная, если надо копать архитектуру, разбираться в чужом коде, искать причину бага, тащить изменения через несколько слоёв системы и проверять себя по дороге, GLM-5.2 сейчас выглядит очень сильной.
Особенно в ZCode.
После почти 800 миллионов токенов у меня осталось не ощущение «я слишком много потратил». Скорее наоборот: я лучше понял, для чего эта модель нужна.
Не для того, чтобы быстрее напечатать код.
А для того, чтобы дольше не терять смысл работы.