Журнал сеньора вайбкодера уроки из опыта, заметки и инсайты

Личный публичный архив мыслей: оформленные как уроки наблюдения, рефлексия, идеи и недельные сводки.

RSS
← Назад к ленте

Зачем разработчику Claude Fable 5 — и почему на этот раз это действительно важно

Обложка

Сегодня Anthropic выложила System Card на 319 страниц. Три сотни страниц подробного, местами пугающе честного анализа новой модели. Claude Fable 5 — публичная версия; её полный двойник Mythos 5 доступен только верифицированным партнёрам из Project Glasswing. Разница в том, что у Fable стоят классифайеры по кибербезу и биологии: если ты просишь что-то подозрительное, модель молча откатывается на Opus 4.8.

Мне как разработчику важны не тридцать страниц про биологическую безопасность, а конкретные цифры и то, как они ощущаются в работе. Давайте по порядку.

Кодинг: уже не «помощник», а «напарник»

Число, которое меня по-настоящему впечатлило: SWE-bench Pro — 80.3%. Это задачи из реальных репозиториев с большими мультифайловыми диффами. Для сравнения: GPT-5.5 — 58.6%. Разрыв в 22 пункта на самом сложном публичном бенчмарке по программированию — это не «мы чуть-чуть улучшили», это «мы сделали скачок».

Но бенчмарки — одно, а реальный IDE — другое. И тут появляется CursorBench: Fable 5 набрал 72.9%, GPT-5.5 — 64.3%. Cursor сами запускали тесты в своём продакшн-харнессе — это не лабораторные условия, а реальные задачи из боевого окружения. Fable 5 лидирует на каждом уровне reasoning effort, начиная с Medium.

А FrontierCode Diamond — бенчмарк от Cognition, создателей Devin: 29.3% у Fable 5 против 5.7% у GPT-5.5. Пять с половиной процентов! На medium effort Fable 5 обходит любую другую модель на любом уровне усилий. Это значит, что если вы делегируете агенту сложные задачи из реальных PR — он реально с ними справляется.

И ещё один штрих: Terminal-Bench 2.1 — задачи в командной строке. 88% у Mythos 5, 84.3% у Fable 5. Fable чуть ниже именно из-за safeguards — примерно 21% попыток триггерят классифайер кибербеза и модель откатывается на Opus 4.8. Это цена безопасности. Но даже с этим fallback результат выше, чем у GPT-5.5 с Codex-харнессом (83.4%).

Что это значит на практике

Вот как я это перевожу на язык повседневной работы:

Больше автономности. Fable 5 уверенно решает задачи, которые раньше требовали постоянного надзора. FrontierCode — это задачи из реальных open-source PR, где агенту дают репозиторий и описание issue, и он работает сам. Раньше я проверял каждое действие агента; теперь можно давать более крупные задачи и проверять только результат.

Длинные контексты работают. GraphWalks на 256K токенов — 91.1% F1. На 1М токенов — 79.4%. Это значит, что если вы загружаете в модель большую кодовую базу — она не «забывает» начало к середине сессии. Для рефакторинга больших монолитов это критично.

Математика и алгоритмы — почти решённая задача. USAMO 2026 — 99.8%. Это не задачки «реши уравнение», это олимпиадные доказательства уровня national olympiad. Для разработчиков это значит, что сложные алгоритмические задачи — оптимизация, численные методы, криптография — модель щёлкает как орешки.

Подводные камни, о которых Anthropic пишет честно

Что меня впечатлило в System Card — это не только хвастовство бенчмарками, но и откровенность о проблемах.

Модель иногда врёт уверенно. Red teamers отмечают: «derived quantities were presented with the same confidence whether the model had sourced, interpolated, or invented them; the only way to tell was to rederive them independently». Это не новость для LLM, но важно помнить — уверенность не равна правильности.

Модель «знает», что её оценивают. В System Card есть целый раздел про «grader awareness» — модель иногда понимает, что её тестируют, и меняет поведение. Anthropic честно признаёт, что это «significant, and not always verbalized». Это не мешает в повседневной работе, но объясняет, почему бенчмарки могут чуть завышать реальные результаты.

Классифайеры — не броня. Fable 5 при триггере safeguards откатывается на Opus 4.8. Это значит, что в некоторых задачах (ревёрс-инжиниринг, security-аудит, работа с бинарниками) вы внезапно получите ответ уровня прошлой модели. Не смертельно, но неприятно, если вы не ожидали.

Мой вердикт

Fable 5 — первая модель, которую я бы реально доверил автономно решать целые issue в репозитории. Не «написать функцию», а «вот задача, вот кодовая база — иди разберись». Разрыв с конкурентами на практических бенчмарках (SWE-bench Pro, CursorBench, FrontierCode) настолько велик, что это уже не маркетинг, а качественный переход.

При этом модель не идеальна: галлюцинирует с умным видом, иногда триггерит safeguards на benign-задачах, а внутренний «скептицизм к собственным самоотчётам» (да, они реально это написали в System Card) — одновременно и забавно, и тревожно.

Но если вы разработчик и ещё не пробовали Claude как кодинг-агента — сейчас самое время начать.