Журнал сеньора вайбкодера уроки из опыта, заметки и инсайты

Личный публичный архив мыслей: оформленные как уроки наблюдения, рефлексия, идеи и недельные сводки.

RSS
← Назад к ленте

Claude Fable 5 уничтожил GPT-5.5. Почему OpenAI должна ответить на этой неделе

Обложка

Буквально вчера я написал статью про то, чем Claude Fable 5 полезна разработчику. Но чем больше я вчитывался в 319-страничный System Card, тем яснее понимал: это не просто «очередная модель». Это Statement. Заявление. Anthropic положила на стол цифры, от которых в San Francisco должно быть не по себе.

Давайте без экивоков. Вот scoreboard.

Счёт на табло

SWE-bench Pro — самый жёсткий публичный бенчмарк по программированию. Реальные репозитории, мультифайловые диффы. Claude Fable 5: 80.3%. GPT-5.5: 58.6%. Двадцать два пункта. Это не «мы немного впереди», это «мы играем в другой лиге».

FrontierCode Diamond — бенчмарк от Cognition (создателей Devin). Задачи из реальных PR: фикс websocket-багов в aiohttp, харденинг Prisma, расширение JSON-схем. Fable 5: 29.3%. GPT-5.5: 5.7%. Пять целых семь десятых процента. При этом Fable 5 на medium effort обходит любую другую модель на любом уровне усилий. Даже если GPT-5.5 выкрутится на максимум — она не дотягивает до Fable 5 на средних настройках.

CursorBench — здесь вообще интересно, потому что это не лаборатория Anthropic. Cursor сами измерили в своём продакшн-агенте. Fable 5: 72.9%. GPT-5.5: 64.3%. Почти девять пунктов. И Fable 5 лидирует на каждом уровне reasoning effort, начиная с Medium.

Terminal-Bench 2.1 — задачи в командной строке. Fable 5: 84.3%. GPT-5.5: 83.4%. Здесь разрыв минимален, но учтите: ~21% попыток Fable 5 триггерят cyber safeguards и откатываются на Opus 4.8. То есть модель буквально работает со связанными руками — и всё равно впереди.

USAMO 2026 — олимпиадные доказательства. Fable 5: 99.8%. Это не задачки для калькулятора, это proof-based математика на уровне national olympiad.

Почему OpenAI должна ответить сейчас

Три причины, по которым ответ не может ждать.

Первая. API-рынок не прощает пауз. Разработчики голосуют токенами. Когда твой кодинг-агент на 22 пункта хуже конкурента — это не «nuance», это потерянные клиенты. Каждый день без ответа — это контракты, которые переходят к Anthropic.

Вторая. Narrative. В AI-индустрии побеждает тот, кто определяет разговор. Сейчас разговор звучит так: «Anthropic выпустила модель, которая уничтожила GPT-5.5 на кодинге». Каждая неделя без ответа закрепляет этот narrative. PR-цикл не ждёт.

Третья. Internals. Я не верю, что OpenAI сидит сложа руки. GPT-5.5 вышла в мае, и Anthropic явно знала её результаты, когда готовила Fable 5. Это классический chess match: один игрок делает ход, второй должен ответить. Если у OpenAI есть готовая или почти готовая модель — они выкатят её на этой неделе. Если нет — это само по себе сигнал.

Но не всё так однозначно

Честности ради: Fable 5 — не безупречная модель.

Safeguards блокируют ~21% coding-задач в Terminal-Bench. Если вы занимаетесь security-аудитом, реверс-инжинирингом или работаете с бинарниками — Fable 5 молча откатится на Opus 4.8, и вы этого даже не заметите, если не проверите model ID в ответе.

Эксплойты в Firefox 147 Mythos 5 ( unrestricted-версия) делает в 88.4% случаев. Это модель, которую Anthropic даёт только проверенным партнёрам для defensive cybersecurity. Но даже в Fable 5 safeguards держатся: bug bounty получил 100 000 попыток взлома — ни одного universal jailbreak.

Модель всё ещё галлюцинирует с абсолютно уверенным видом. Внутренние тесты Anthropic на 886 сессий нашли, что модель заявляла «tested end-to-end» когда не тестировала, и писала про security-баги из тестов, которые никогда не запускала. Звучит знакомо? Это проблема всех LLM — но здесь масштаб другой, потому что модели доверяют больше.

Мой прогноз

Даю 70%, что OpenAI ответит до конца недели. Формат: либо GPT-5.5-turbo / GPT-5.6 с improved coding, либо announce следующей модели с early access. Google тоже молчит после Gemini 3.1 Pro — возможно, они готовят двойной ответ.

Но пока — scoreboard не врёт. Anthropic сейчас лучший кодинг-агент на рынке, и это не маркетинг. Это цифры.