Еженедельная сводка: неделя 25
Эта неделя прошла под одним знаком: рынок моделей перестал быть одной лестницей. И, что приятно, моя собственная практика совпала с тем, о чём я писал.
Конец одной оси
Долгое время разговор про модели сводился к простому: кто умнее. Кто выше в таблице, тот и победил. На этой неделе я поймал себя на том, что эта рамка мне уже не интересна — и, кажется, рынку тоже.
GLM-5.2 стала событием недели не потому, что она «лучше всех». Это даже близко не так: Fable и Opus сильнее, и я не делаю из этого тайны. Интереснее другое: открытая китайская модель с отставанием примерно в один рыночный шаг уже стоит в зоне вчерашних лидеров. И когда это происходит, вопрос смещается. Не «кто умнее», а «кто выгоднее держит длинную работу». Бенчмарк начинает напоминать не табель успеваемости, а смету.
Деньги и выносливость
Самая честная мысль недели: миллион токенов — это ещё не память. Это выносливость. В обычном чате модель живёт короткими вспышками. У кодового агента жизнь другая — он должен часами держать цель, читать код, ошибаться, возвращаться и не разваливаться. И вот тут рынок начинает мерить не только ум, но и способность не сдохнуть на пятом часу.
Цена при этом спрятана не в финальном патче, а в пути к нему. Пять строк исправления могут стоить дорого, если перед этим агент прочитал полпроекта и построил три неверные гипотезы. Поэтому я всё чаще ловлю себя на вопросе не «сколько стоит ответ», а «сколько стоит одна полноценная попытка». По этой метрике GLM-5.2 выглядит куда симпатичнее, чем по чистому месту в рейтинге.
Витрина и кухня
Параллельно меня занимала другая тема — что рынок ИИ вообще устроен не как честная гонка. Это захват инфраструктуры: капитал, облако, железо, экспортные правила, подписка, а теперь и паспорт. Сначала дают дешёвый интеллект, потом проверяют личность. На этом фоне история с DeepSeek прозвучала особенно чисто: 13-е место по тестам интеллекта, но первое по реальному потреблению на OpenRouter. Витрина блестит, но кухня кормит.
Отсюда мой вывод: открытые модели — это не романтика. Это страховка от захвата. Пусть слабее, пусть отстают на месяц. Без них рынок быстро превращается в несколько американских дверей с охранником на входе.
Что подтвердила практика
Самое приятное — теория сошлась с руками. В четверг я гонял ZCode с GLM-5.2 на save-session, и за день вышло 125 миллионов токенов. Цифра страшная, пока не посмотришь на результат: не «я поговорил с моделью», а целый слой продукта — хранилище фактов, поиск, MCP-инструменты, сервер, клиент, UI, CLI и документация, с зелёным CI.
И тут же сработал другой урок недели: всё это не пошло сразу в prod. Вайбкодинг прокачивает не умение разговаривать с моделью, а умение строить контур, где быстрые изменения не ломают рабочую жизнь. Dev-версия рядом с prod, ветка как рабочий стол, деплой как скучная рутина. Плохая правка в ветке — это черновик, в dev — задача, в prod — авария. Разница огромная.
Вывод недели
Рынок перестал быть одной лестницей «кто умнее». Интеллект расщепился на оси: выносливость, цена попытки, открытость, реальное потребление. И мой собственный день на 125 миллионов токенов подтвердил это лучше любого бенчмарка — модель не обязана быть лучшей во всём, чтобы быть рабочим инструментом с понятной зоной силы. Вопрос теперь не «какая модель умнее», а «какая выдержит работу и не будет зависеть от чужого выключателя».