2026-06-16 insight

GLM-5.2: миллион токенов — это ещё не память

#ии #модели #кодовые агенты #open source #z.ai

Обложка

Коротко о новости.

16 июня Z.AI представила GLM-5.2 — новую флагманскую модель для длинных задач. В документации заявлены контекст 1M токенов и вывод до 128K токенов. Модель открыта под MIT, веса уже выложены на Hugging Face и ModelScope, кодовая база живёт в репозитории GLM-5. В Coding Plan модель уже доступна, в Claude Code для миллиона токенов используется имя GLM-5.2[1m].

На бумаге это выглядит как обычный релиз сильной модели: больше контекст, лучше результаты, быстрее вывод. Но я бы смотрел на GLM-5.2 не как на «ещё одну модель для кода». Здесь интереснее другое: китайская лаборатория пытается сделать длинную работу агента обычным режимом, а не демонстрацией на конференции.

И это уже не про чат.

Миллион токенов сам по себе ничего не решает

Большой контекст легко продать. Написал «1M токенов», повесил красивую картинку, и половина рынка уже представила, как модель целиком читает весь репозиторий, все задачи, всю документацию и больше ничего не забывает.

В реальности длинный контекст чаще превращается в дорогой чердак. Туда можно сложить всё подряд, но это не значит, что кто-то потом найдёт нужную коробку.

Поэтому в релизе GLM-5.2 мне важна не сама цифра. Важна формулировка: Z.AI говорит не просто «модель принимает миллион токенов», а «модель должна выдерживать длинные траектории кодового агента». Это разные обещания.

Одно дело — ответить на вопрос по длинному документу. Другое — несколько часов держать цель, читать код, менять файлы, запускать проверки, ошибаться, исправляться и не съехать в сторону. Вот здесь контекст становится не памятью, а рабочей средой.

Если модель не умеет пользоваться этим объёмом, миллион токенов только ускоряет путаницу.

Агенту нужна не память, а выносливость

В обычном чате модель живёт короткими вспышками. Вопрос, ответ, следующий вопрос. Даже если внутри есть рассуждение, оно обычно заканчивается вместе с сообщением.

У кодового агента жизнь другая. Он должен пройти цепочку: понять задачу, найти место в проекте, построить план, сделать правку, проверить, увидеть ошибку, вернуться, поменять подход. Иногда десять раз. Иногда сто.

И вот тут я начинаю иначе смотреть на бенчмарки из релиза. Z.AI приводит FrontierSWE, PostTrainBench и SWE-Marathon — тесты не про «написать функцию», а про длинную инженерную работу. По их данным, GLM-5.2 на FrontierSWE отстаёт от Opus 4.8 на 1%, обходит GPT-5.5 на 1% и Opus 4.7 на 11%. На SWE-Marathon всё скромнее: минус 13% к Opus 4.8, но всё ещё второе место рядом с Opus-линейкой. Это цифры от поставщика, их надо проверять руками, но направление понятно.

Рынок меряет уже не только ум. Он начинает мерить выносливость.

Для меня это важный сдвиг. Лучший агент будущего — не тот, кто дал самый умный ответ в одном сообщении. А тот, кто не развалился на пятом часу работы.

Архитектура догоняет продукт

Под капотом у GLM-5.2 есть несколько деталей, которые звучат сухо, но объясняют, почему миллионный контекст вообще можно пытаться сделать рабочим.

Первая — IndexShare. Если упростить, модель не пересчитывает отдельный индексатор на каждом слое внимания, а переиспользует его группами: один лёгкий индексатор на четыре слоя. Z.AI пишет, что это снижает вычисления индексатора в разреженном внимании и даёт до 2,9 раза меньше операций на токен при контексте 1M. Отдельная статья про IndexShare уже лежит на arXiv.

Вторая — доработка слоя MTP для ускоренного вывода. Это та часть, где модель пытается предсказывать несколько следующих токенов и быстрее принимать удачные продолжения. В релизе заявлен рост длины принятого черновика при ускоренном выводе на 20%.

Третья — вся серверная часть вокруг длинного контекста: память под KV-кэш, перенос кэша, планирование запросов, узкие места на стороне процессора. Это скучная инженерия. Но без неё миллион токенов остаётся красивым числом, которое ломается при нормальной нагрузке.

Мне нравится, что в релизе это вообще проговорено. Потому что сейчас многие обсуждают модели так, будто интеллект живёт отдельно от системы исполнения. Не живёт. Агент, который часами работает с кодом, упирается не только в качество рассуждения, но и в кэш, пропускную способность, задержки, стоимость вывода и то, как среда переживает длинную сессию.

Модель всё меньше похожа на файл с весами. Она всё больше похожа на полный вычислительный стек.

Открытость стала аргументом против выключателя

Ещё одна важная часть: GLM-5.2 открыта под MIT. Это не просто приятная строчка в карточке модели.

На фоне истории с закрытыми фронтирными моделями, квотами, региональными ограничениями и внезапными изменениями доступа открытые веса снова становятся архитектурным аргументом. Не идеологическим. Практическим.

Да, локально такую модель запустить сможет не каждый. Это не маленькая игрушка для ноутбука. Конфиг на Hugging Face говорит о 78 слоях, 256 маршрутизируемых экспертах, выборе 8 экспертов на токен и максимальной длине 1 048 576 позиций. Железо нужно серьёзное.

Но сам факт, что веса доступны, меняет разговор. У компании появляется шанс не зависеть целиком от чужой панели управления. У исследователей появляется шанс проверять заявления. У инфраструктурных команд появляется возможность строить свои режимы запуска, пусть и дорогие.

Закрытая модель может быть сильнее. Открытая модель может быть спокойнее.

И в мире агентов это не мелочь. Если ты строишь систему, которая должна работать часами и выполнять реальные изменения в проекте, предсказуемость доступа иногда важнее пары процентов в таблице.

Цена будет спрятана не только в токенах

Z.AI отдельно пишет про уровни усилия: High и Max. В Coding Plan GLM-5.2 расходует квоту как 3× в пиковые часы и 2× вне пика, а до конца сентября внепиковое использование временно считается как 1×. Это честный сигнал: сильная длинная работа дорогая.

И тут я бы не обманывался. Миллионный контекст не означает, что теперь можно бездумно кормить модель всем репозиторием на каждый запрос. Скорее наоборот: чем длиннее агентная работа, тем важнее дисциплина контекста.

Какие файлы давать? Когда сжимать историю? Где хранить план? Что проверять отдельной моделью? Когда останавливать агента? Как не дать ему тратить деньги на блуждание?

Большой контекст не отменяет архитектуру процесса. Он просто даёт больше пространства для ошибки.

Я уже видел это в маленьком масштабе: если агенту дать слишком много свободы без нормальных проверок, он начинает не работать, а производить движение. Много команд, много файлов, много уверенного шума. В миллионном контексте это станет дороже, а не безопаснее.

Китайские модели перестают быть «дешёвой альтернативой»

Раньше китайские модели часто обсуждали в жанре «ну да, дешевле, иногда неплохо, но фронтир всё равно у американцев». GLM-5.2 бьёт именно по этой привычке.

Не потому что она уже точно лучше Opus или GPT во всём. Не думаю. Сам релиз признаёт отставание на SWE-Marathon, а любые бенчмарки от поставщика надо перепроверять на своих задачах.

Но важен уровень амбиций. Z.AI говорит не «мы сделали хорошую модель для чата», а «мы сделали открытую модель для многочасовой инженерной работы с миллионом токенов». Это уже другой разговор.

Если это подтвердится в реальных проектах, рынок получит неприятный для закрытых лабораторий вопрос: почему разработчик должен платить больше и зависеть сильнее, если открытая модель уже достаточно хороша для большей части агентной работы?

Ответ может быть: потому что закрытая всё ещё надёжнее. Или потому что у неё лучше инструменты. Или потому что она меньше ошибается в критических местах. Но этот ответ теперь придётся доказывать, а не просто подразумевать.

Что я бы проверял руками

Я бы не делал вывод по картинкам из релиза. Для меня нормальная проверка GLM-5.2 выглядит так:

дать ей живой репозиторий, а не игрушечную задачу;
заставить пройти полный цикл: план, правка, проверка, исправление;
смотреть не только на итог, но и на расход токенов, число лишних действий и качество самопроверки;
сравнить High и Max на одной задаче;
отдельно проверить, как она держит цель после большого объёма контекста;
прогнать задачу, где в проекте есть старые решения, похожие файлы и соблазн исправить не то место.

Вот тогда станет понятно, миллион токенов — это рабочая память или просто дорогой склад.

После GLM-5.2

Мне кажется, главный смысл релиза не в том, что появилась ещё одна сильная модель. Их теперь много.

Главный смысл в том, что агентная разработка начинает требовать другой инфраструктуры. Нужна модель, которая держит длинную задачу. Нужен движок, который не умирает от кэша. Нужны проверки против взлома оценки и самообмана. Нужны режимы усилия, потому что не каждая задача стоит максимальной цены. Нужны открытые веса, чтобы часть рынка могла строить свои контуры, а не ждать милости от закрытого поставщика.

GLM-5.2 не закрывает этот вопрос. Но хорошо показывает, куда всё едет.

Мы привыкли спрашивать: «какая модель умнее?»

Для кодовых агентов вопрос становится другим: «какая модель выдержит работу?»

И это, возможно, более честный вопрос. Потому что в реальной разработке ценится не тот, кто красиво рассуждает первые десять минут. Ценится тот, кто через пять часов всё ещё понимает, зачем он открыл этот файл.

GLM-5.2: миллион токенов — это ещё не память

Миллион токенов сам по себе ничего не решает

Агенту нужна не память, а выносливость

Архитектура догоняет продукт

Открытость стала аргументом против выключателя

Цена будет спрятана не только в токенах

Китайские модели перестают быть «дешёвой альтернативой»

Что я бы проверял руками

После GLM-5.2

Похожие записи

GLM-5.2 и странная арифметика скепсиса

GLM-5.2: бенчмарк уже похож на смету

Сначала дают дешёвый интеллект, потом проверяют паспорт

Модель, которую нельзя запускать