GLM-5.2: бенчмарк уже похож на смету
У GLM-5.2 появились независимые замеры Artificial Analysis. Это хороший момент, чтобы чуть остудить вчерашний восторг вокруг миллиона токенов.
Z.AI представила GLM-5.2 16 июня: открытые веса под MIT, контекст 1M, вывод до 128K токенов, фокус на длинные задачи и кодовых агентов. Я уже писал, что миллион токенов сам по себе ещё не память. Теперь появилась более полезная картина: сколько эта «длинная мысль» стоит и как она выглядит на фоне закрытых моделей.
И вот тут бенчмарк начинает напоминать не табель успеваемости, а смету.
GLM уже не догоняет издалека
В индексе Artificial Analysis Intelligence v4.1 GLM-5.2 получает 50,7 балла. Выше в открытой выборке страницы стоят Claude Fable 5 с 59,9 и GPT-5.5 с 54,8. Ниже — Gemini 3.1 Pro Preview с 46,5, MiniMax-M3 с 44,4 и GLM-5.1 с 40,2.
Это не «убийца всех закрытых моделей». И хорошо, что цифры не заставляют делать такой вывод. До Fable там ещё заметная дистанция, до GPT-5.5 тоже есть разрыв. Но по сравнению с GLM-5.1 прирост около 26%. Для одной итерации это уже не косметика.
Мне в этой таблице важнее другое: GLM-5.2 перестала выглядеть как дешёвая запасная модель «на случай, если дорогие недоступны». Она уже попадает в разговор рядом с верхней полкой. Не побеждает её, но портит ей монополию на серьёзность.
Цена стала частью интеллекта
Самая неприятная для конкурентов строка — не общий балл. Это стоимость задачи.
Artificial Analysis оценивает среднюю стоимость одной задачи из своего индекса для GLM-5.2 примерно в $0,41. Для GPT-5.5 — около $1,07. Для Claude Fable 5 — $3,25. То есть GPT выходит примерно в 2,6 раза дороже, Fable — почти в 7,9 раза дороже.
Да, Gemini 3.1 Pro Preview в этой метрике дешевле GLM-5.2: $0,34 против $0,41. MiniMax-M3 ещё дешевле. Поэтому «GLM самая выгодная» — слишком грубо. Но если смотреть именно на связку «сильный результат + длинный контекст + открытые веса + цена», разговор становится интересным.
Раньше я чаще сравнивал модели по качеству ответа. Сейчас всё чаще ловлю себя на другом вопросе: сколько стоит попытка? Не идеальный ответ, а одна полноценная попытка агента пройти задачу, подумать, ошибиться, исправиться и выдать результат.
Для кодовых агентов это честнее. Агент не отвечает один раз. Он жжёт токены сериями.
Скорость тоже неожиданно важна
По скорости вывода GLM-5.2 у Artificial Analysis показывает 110,7 токена в секунду. GPT-5.5 — около 60. GLM-5.1 — 67,8. То есть новая GLM почти в 1,8 раза быстрее GPT-5.5 по выводу и примерно в 1,6 раза быстрее прошлой GLM.
Но в средней длительности задачи картина не такая красивая: GLM-5.2 даёт около 5,3 минуты на задачу, GPT-5.5 — 4,5 минуты. Почему так? Потому что рассуждение тоже занимает время. У GLM-5.2 в замере до первого токена ответа видно около 18 секунд рассуждения плюс ввод, а потом уже быстрый поток ответа.
Это хороший пример, почему «токенов в секунду» нельзя читать отдельно от режима модели. Быстрый вывод не означает быструю задачу. Модель может долго думать перед тем, как начать говорить.
Для живой агентной работы это даже нормально. Я лучше подожду лишние секунды, если модель меньше мечется по проекту. Но это надо проверять не графиком, а реальным репозиторием.
Длинная работа ест рассуждение
Ещё одна цифра зацепила сильнее, чем общий рейтинг. В среднем на задачу индекса GLM-5.2 тратит около 5,8 тысячи токенов ответа и 36,6 тысячи токенов рассуждения. То есть большая часть вывода уходит не в видимый текст, а во внутреннюю работу.
Это похоже на то, что мы давно видим в кодовых агентах руками: дорогой становится не финальный патч, а путь к нему.
Пять строк исправления могут стоить дорого, если перед этим агент прочитал полпроекта, построил три неверные гипотезы, запустил проверки, упал, вернулся и только потом попал в нужное место. И наоборот: длинный ответ может быть дешёвым, если модель сразу поняла задачу.
Поэтому мне всё меньше нравятся разговоры «вход столько-то, выход столько-то». Для агентной разработки надо считать траекторию. Сколько попыток? Сколько лишних файлов открыто? Сколько рассуждения ушло в тупик? Сколько проверок реально сработало?
Бенчмарк начинает показывать не только ум модели, но и расход её внимания.
Открытые веса меняют риск
На странице Artificial Analysis у GLM-5.2 указаны 1M контекста, 163K выходных токенов, 753 млрд параметров всего и 40 млрд активных параметров. В конфиге на Hugging Face видно MoE-архитектуру: 78 слоёв, 256 экспертов, 8 экспертов на токен, максимальная длина 1 048 576 позиций.
Это не модель, которую большинство команд завтра поставит под стол и забудет про поставщиков. Железо и обслуживание там будут болью.
Но открытость всё равно меняет риск. Закрытая модель может быть сильнее, быстрее, удобнее. Зато открытая модель не исчезает из-за чужой панели, нового тарифа или регионального ограничения. Её можно проверять, донастраивать инфраструктуру вокруг неё, запускать в своём контуре, если цена ошибки достаточно высокая.
Для обычного чата это приятный бонус. Для агента, который должен часами менять код, это уже часть архитектуры.
Что я вынес из этих цифр
Я бы не стал по одному рейтингу менять основной инструмент. Бенчмарки Artificial Analysis полезнее маркетинговых графиков, но они всё равно не знают мой код, мои тесты и мои странные старые решения в проектах.
Но направление видно.
GLM-5.2 не просто стала сильнее GLM-5.1. Она показала, что открытая модель может подойти к закрытым фронтирным моделям достаточно близко, чтобы вопрос сместился с «кто умнее» на «кто выгоднее держит длинную работу».
И это для меня главный сдвиг. В агентной разработке интеллект без сметы уже не выглядит полным ответом.
Если модель чуть слабее, но заметно дешевле, быстрее выводит, держит миллионный контекст и не зависит от чужого выключателя, её нельзя списывать как альтернативу второго сорта. Её надо ставить на реальные задачи и считать полный цикл.
Не баллы. Не красивые графики. А стоимость успешного изменения в живом проекте.