2026-05-03 insight

Узкое горлышко между мозгом и машиной

Чтобы работать на скорости мысли, нужно перестать быть заложником клавиатуры. Мой опыт показывает: когда переходишь от печати к диктовке, меняется не только скорость — меняется сама структура работы.

Контекст

Несколько месяцев назад я осознал, что стал «узким горлышком» для собственных проектов. Скорость мысли значительно опережает скорость печати. Когда работаешь с AI-агентами — Claude Code, Hermes, другими — важно детально описывать контекст и задачу. Пока я выстукивал буквы, мысль уже ушла вперёд, а фрустрация росла.

Подсказка пришла откуда не ждал. На смартфоне голосовой ввод давно стал нормой — Telegram-голосовые, распознавание в клавиатуре, Siri. А на десктопе — всё ещё печатаем. По старинке. В моём окружении вообще никто так не работал с компьютером. Когда я начал искать готовые решения, удивился: рынок десктопных инструментов для голосового ввода практически пуст. Либо громоздкие встроенные решения (Windows Voice Typing), либо дорогие облачные сервисы. Нормальных инструментов для русского языка, работающих офлайн — единицы.

Урок

Средняя скорость печати — 40–80 слов в минуту. Средняя скорость речи — около 150. Разрыв в 2–4 раза. Для обычной переписки это незаметно. Но когда ты работаешь с AI-агентами и каждый день проговариваешь контекст, описываешь задачи, ведёшь дневник — этот разрыв превращается в часы потерянного времени каждую неделю.

Мой путь прошёл через две стадии.

Первая — собственный «велосипед». С помощью тех же AI-агентов собрал приложение на базе OpenAI Whisper: нажимаешь хоткей → говоришь → текст появляется в любом поле ввода. Было несколько итераций, пробовал разные модели, включая отечественные — Яндекс SpeechKit. Каждая итерация давала прирост качества. К третьей версии это стало работать настолько хорошо, что я буквально перестал печатать. В любом приложении, где есть текстовое поле, мне стало естественнее наговорить, чем набирать руками.

Вторая — зрелое решение. Сейчас тестирую Handy — открытое и бесплатное приложение (21K звёзд на GitHub, написано на Rust через Tauri). Работает полностью офлайн, использует Whisper или Parakeet, кроссплатформенное — Windows, macOS, Linux.

Но главная киллер-фича — постобработка через LLM. Я подключаю Gemini, который исправляет ошибки распознавания, расставляет запятые и делает текст естественнее. Сырой транскрипт Whisper'а нормален для личных заметок и постановки задач агентам, но отправлять его людям — неловко. А после Gemini-обработки — уже нормально. Текст читается так, будто его написал человек, а не наговорил на бегу.

Как применяю

Начал с малого. Сначала диктовал только задачи для AI-агентов. Потом заметки. Потом сообщения. Сейчас печатаю только код.
Локальная обработка. Whisper работает на моём компьютере — ничего не уходит в облако. Приватность сохранена.
Слой LLM-причёски. Самая важная часть — не просто перевод звука в текст, а его очистка. Постобработка через Gemini превращает разговорную речь в текст, который не стыдно отправить коллеге.
Сменил парадигму. Перестал думать «как написать задачу». Начал диктовать её так, будто объясняю живому коллеге, сидящему рядом.

Когда убираешь физическое сопротивление клавиатуры, работа с AI становится естественным продолжением мышления. Ты не «ставишь задачу агенту» — ты думаешь вслух, и система тебя понимает.

Узкое горлышко между мозгом и машиной

Контекст

Урок

Как применяю

Похожие записи

Hermes Agent как рабочий слой между мыслью и действием

Голос вместо клавиатуры: как Gemini сломал барьер лени в планировании

От мессенджера к рабочему столу и обратно

Бюджет времени: почему я заставил свой таск-менеджер говорить «стоп»