2026-06-18 insight

GLM-5.2 и странная арифметика скепсиса

#ии #модели #кодовые агенты #z.ai #разработка

Обложка

Коротко о фактах, чтобы не спорить с воздухом.

Z.AI выпустила GLM-5.2 16 июня. В документации заявлены контекст 1M токенов, вывод до 128K токенов, открытые веса под MIT и фокус на длинные инженерные задачи. На Artificial Analysis модель набирает около 50,7 балла в общем индексе. Выше стоят Claude Fable 5 с 59,9 и GPT-5.5 с 54,8. В этом смысле GLM-5.2 не лучшая модель на рынке. И, честно говоря, никто из разработчиков Z.AI не обязан был делать вид, что она лучшая во всём.

Но мне всё равно странно читать часть реакции вокруг неё.

Не потому что критика запрещена. Наоборот, GLM-5.2 есть за что критиковать. Она не всегда так же аккуратна в сложном рассуждении, как верхние закрытые модели. Она текстовая, без зрительных возможностей. В длинной работе её ещё надо проверять на живых проектах, а не по красивым графикам. Я сам не стал бы ставить её на любую задачу подряд.

Странность в другом: к ней часто применяют такую рамку, в которой модель обязана победить текущего лидера, иначе она как будто не заслуживает внимания.

Сравнивают с вершиной, а вывод делают про весь класс

Если GLM-5.2 хуже Claude Fable 5, это не разоблачение. Это нормальная картина. Fable сейчас выше в общем независимом рейтинге, дороже и закрыта. Было бы странно, если бы новая открытая китайская модель сразу спокойно обошла её по всем фронтам.

Но из фразы «хуже Fable» слишком быстро делают вывод «значит, переоценена». И вот здесь у меня начинаются вопросы.

Месяц назад модели уровня GPT-5.4 и Claude Opus 4.7 спокойно считались верхней полкой. Сейчас GLM-5.2 уже находится рядом с ними в общей таблице Artificial Analysis, а в инженерных тестах от Z.AI выглядит ещё агрессивнее: на FrontierSWE она, по данным поставщика, отстаёт от Opus 4.8 на 1%, обходит GPT-5.5 на 1% и Opus 4.7 на 11%. Да, это данные поставщика, их нельзя есть без соли. Но сама рамка важна.

Если открытая модель с отставанием примерно в один рыночный шаг уже приходит в зону вчерашних лидеров, это не повод отмахнуться. Это повод пересчитать ожидания.

Рынок сейчас движется так быстро, что сравнение «не лучше сегодняшнего чемпиона» стало слишком ленивым. Оно скрывает более полезный вопрос: насколько быстро открытые модели догоняют закрытые и сколько стоит это отставание на практике.

Китайская модель не обязана извиняться за происхождение

Мне не нравится, когда скепсис к GLM-5.2 звучит так, будто главный аргумент уже выбран заранее: «ну это же китайская модель».

Можно обсуждать доверие к поставщику. Можно обсуждать юрисдикцию, безопасность, качество данных, политические риски, ограничения доступа. Это нормальные инженерные вопросы. Но когда всё сводится к происхождению, разговор становится ленивым.

У американских закрытых моделей тоже есть риски. Они могут поменять цену, выключить доступ, изменить поведение, скрыть детали обучения, заблокировать регион или продуктовый сценарий. История с закрытыми моделями уже достаточно раз показала: если ты строишь работу вокруг чужого выключателя, выключатель однажды становится частью архитектуры.

Открытые веса GLM-5.2 не делают её святой. Зато они меняют тип риска. Модель можно изучать, запускать в своём контуре, строить вокруг неё свою систему запуска, проверять заявления не только через чужую панель. Это не всегда дешевле по железу. Но это спокойнее в другом смысле.

И вот этот аргумент почему-то часто теряется, когда обзор превращается в гонку «кто умнее в одной таблице».

Цена — это не сноска

В прошлой статье я уже писал, что проверка моделей всё больше похожа на смету. Здесь та же мысль, но с другой стороны.

По странице Artificial Analysis у GLM-5.2 цена указана как $1,40 за миллион входных токенов и $4,40 за миллион выходных. У GPT-5.4 — $2,50 и $15. У GPT-5.5 — $5 и $30. У Claude Opus 4.7 — $5 и $25. У Fable 5 — $10 и $50.

Можно спорить о точной экономике конкретного поставщика и тарифного плана. Но порядок понятен: GLM-5.2 заметно дешевле верхних закрытых моделей. Особенно на выходе, а именно выход и рассуждение в агентной работе часто становятся дорогой частью.

Для чата это может быть не так важно. Для разработки — важно.

Кодовый агент не делает один красивый ответ. Он читает файлы, строит план, ошибается, запускает проверки, возвращается, исправляет. Иногда он тратит большую часть стоимости не на финальный кусок кода, а на путь к нему. И если модель чуть слабее, но дешевле в несколько раз, её полезность нельзя оценивать только по месту в рейтинге.

Иногда выгоднее дать сильной, но не самой сильной модели десять попыток, чем один раз позвать чемпиона и надеяться, что он не промахнётся.

Я не использую её как универсальный молоток

Наверное, поэтому мне часть скепсиса кажется не из моей реальности.

Я пользуюсь GLM-5.2 не потому, что решил объявить её лучшей моделью на земле. Я пользуюсь ей потому, что в разработке она часто даёт хорошее соотношение результата и цены. Особенно когда задача лежит в интерфейсной части, серверной логике, разборе проекта, небольших правках, прототипах и длинной рутине, где агенту надо не блистать, а долго не тупить.

Но я не тащу её туда, где она объективно слабее. Если нужна тонкая архитектурная оценка, сложное рассуждение с высокой ценой ошибки или работа, где закрытая модель заметно стабильнее, я беру другую модель. Это нормальный инструментальный подход.

У меня нет религии вокруг GLM. Есть набор задач.

И вот в этом месте оценка модели становится намного честнее. Не «может ли она победить Fable вообще», а «где она даёт достаточно хороший результат за свои деньги». Для разработчика это часто важнее. Я не покупаю медаль в рейтинге. Я покупаю успешное изменение в проекте.

Сильная модель не обязана быть лучшей во всём

Мне кажется, мы слишком привыкли к разговору о моделях как о единой лестнице. Вот первая. Вот вторая. Вот третья. Всё, что ниже первой, можно презрительно назвать запасным вариантом.

В реальной работе так не бывает.

Есть модель, которая лучше держит длинный контекст. Есть модель, которая лучше пишет интерфейсы. Есть модель, которая аккуратнее в серверном коде. Есть модель, которая быстрее. Есть модель, которую можно держать в своём контуре. Есть модель, которая стоит так, что её можно гонять часами без нервного взгляда на счёт.

GLM-5.2 не закрывает все эти клетки. Но она закрывает достаточно много, чтобы относиться к ней серьёзно.

И да, текущие лидеры сильнее. Это надо говорить прямо. Fable сильнее в общем рейтинге. Opus 4.8 сильнее в части длинных инженерных тестов. GPT-5.5 тоже остаётся очень сильной закрытой моделью. Никакого унижения в этом для GLM-5.2 нет.

Наоборот, странно другое: открытая модель с китайской стороны подходит к этой зоне настолько близко, что её уже приходится сравнивать с самыми дорогими закрытыми системами. И часть рынка почему-то делает вид, что это не событие, потому что она не первая.

Мой вывод простой

GLM-5.2 не надо защищать как фанат. Её надо проверять как инструмент.

Дать ей живой репозиторий. Прогнать полный цикл: план, правка, проверка, исправление. Посчитать не только балл, но и стоимость успешной задачи. Посмотреть, где она уверенно помогает, а где начинает фантазировать. Сравнить не только с сегодняшним лидером, но и с моделями, которые ещё месяц назад считались передним краем.

И после этого спорить.

Пока же часть скепсиса выглядит не как инженерная осторожность, а как плохая привычка рынка: если модель не американская, не закрытая и не первая в таблице, значит, к ней можно относиться как к дешёвой замене.

Мне кажется, это уже устарело.

GLM-5.2 не лучшая модель во вселенной. Но для открытой модели, которая стоит заметно дешевле и отстаёт от текущей вершины примерно на один рыночный шаг, она слишком сильная, чтобы списывать её с ухмылкой.

Я бы сказал так: это не модель для поклонения. Это модель для работы. А работа обычно быстро показывает, где был реальный скепсис, а где просто привычка смотреть не туда.

GLM-5.2 и странная арифметика скепсиса

Сравнивают с вершиной, а вывод делают про весь класс

Китайская модель не обязана извиняться за происхождение

Цена — это не сноска

Я не использую её как универсальный молоток

Сильная модель не обязана быть лучшей во всём

Мой вывод простой

Похожие записи

GLM-5.2: бенчмарк уже похож на смету

GLM-5.2: миллион токенов — это ещё не память

Сначала дают дешёвый интеллект, потом проверяют паспорт

Модель, которую нельзя запускать