Moshi — Когда голосовой помощник начинает по-настоящему слушать и отвечать

05 May, 2026

Знакомая ситуация? Вы пытаетесь что-то сказать голосовому помощнику, а он вас перебивает, или наоборот — замирает в ожидании, пока вы закончите длинную фразу. Это не диалог, а скорее набор монологов с паузами. В реальной жизни мы постоянно перебиваем друг друга, вставляем реплики, уточняем на лету. Искусственные интеллекты до недавнего времени так не умели. Но кажется, лед тронулся! Встречайте Moshi — проект от Kyutai Labs, который обещает сделать общение с ИИ таким же естественным и динамичным, как с живым человеком.

Что такое Moshi и зачем он разработчику?

Moshi — это не просто очередная модель для преобразования речи в текст (STT) или текста в речь (TTS). Это полноценная основополагающая модель для диалога, разработанная с нуля для полнодуплексного общения в реальном времени. Представьте себе голосового помощника, который не просто слушает, а участвует в беседе, понимая контекст и отвечая практически мгновенно, даже если вы продолжаете говорить. Звучит как научная фантастика? Moshi делает это реальностью.

Кому это будет интересно? Да практически любому, кто работает с голосовыми интерфейсами:

  • Разработчикам продвинутых голосовых ассистентов.
  • Создателям систем синхронного перевода.
  • Компаниям, разрабатывающим интерактивных ботов для поддержки клиентов.
  • Разработчикам игр с голосовым управлением, где важна мгновенная реакция.
  • Всем, кто хочет сделать взаимодействие человека и машины максимально естественным.

Секреты живого диалога: Ключевые возможности Moshi

Чтобы добиться такой естественности, Moshi использует несколько по-настоящему крутых идей. Давайте разберем их по порядку.

Full-duplex: Говорите без пауз и перебиваний

Это, пожалуй, главная фишка Moshi. В отличие от большинства систем, которые работают в полудуплексном режиме (либо вы говорите, либо ИИ), Moshi поддерживает полнодуплексное общение. Это значит, что вы можете говорить одновременно с ИИ, перебивать его, добавлять реплики — совсем как в обычном разговоре. Модель способна обрабатывать два потока аудио: один от пользователя, другой от себя самой. Это критически важно для создания ощущения живого, непрерывного диалога.

Минимальная задержка: Реакция быстрее мысли

Что толку от full-duplex, если ИИ думает полчаса? Moshi спроектирован для работы с рекордно низкой задержкой. Разработчики заявляют о теоретической задержке всего в 160 мс (80 мс для обработки аудиокадров и 80 мс акустической задержки), а практическая на L4 GPU составляет около 200 мс. Это настолько быстро, что вы практически не заметите задержки, и разговор будет течь плавно и естественно.

"Внутренний монолог" ИИ: Откуда такое понимание?

Интересно, что Moshi не просто генерирует речь, но и предсказывает текстовые токены, соответствующие собственной речи. Разработчики называют это "внутренним монологом" модели. Зачем это нужно? Оказывается, такой подход значительно улучшает качество генерации ответов, позволяя модели лучше понимать и формулировать свои реплики, делая их более связными и уместными в контексте диалога.

Mimi: Аудиокодек нового поколения

Основой для Moshi служит Mimi — передовой нейронный аудиокодек, который работает в потоковом режиме. Mimi обрабатывает аудио 24 кГц, сжимая его до 12.5 Гц представления с битрейтом всего 1.1 кбит/с! При этом он умудряется превосходить по качеству существующие, не потоковые кодеки, такие как SpeechTokenizer или SemantiCodec, которые требуют гораздо большего битрейта. Mimi использует трансформаторы в кодировщике и декодировщике, а также обучен с использованием adversarial training loss, что дает потрясающее субъективное качество при сверхнизком битрейте. Именно Mimi позволяет Moshi быть таким быстрым и эффективным.

Гибкость для любого сценария: PyTorch, MLX, Rust

Разработчики Moshi позаботились о том, чтобы проект был максимально удобным для разных задач и сред. Репозиторий включает три версии стека инференса:

  • PyTorch: Идеально подходит для исследований, экспериментов и прототипирования. Если вы любите "покрутить" модель и изучить ее изнутри, вам сюда.
  • MLX: Ориентирован на локальный инференс на устройствах Apple (iPhone, Mac). Это открывает огромные возможности для создания мобильных приложений с продвинутыми голосовыми функциями прямо на устройстве, без необходимости постоянно обращаться к облаку.
  • Rust: Версия для продакшена. Если вам нужна максимальная производительность, надежность и низкоуровневый контроль, Rust — ваш выбор. Здесь же реализован Mimi на Rust с Python-биндингами (rustymimi).

Под капотом: Архитектура, которая удивляет

Давайте немного углубимся в то, как Moshi достигает таких впечатляющих результатов.

Архитектура Moshi уникальна тем, что она моделирует два аудиопотока: один для речи Moshi, другой для речи пользователя. Вместе с этими потоками Moshi предсказывает текстовые токены, соответствующие собственной речи, что, как мы уже говорили, значительно улучшает качество генерации.

Схема, представляющая структуру Moshi. Moshi моделирует два потока аудио: один соответствует Moshi, а другой — пользователю. При инференсе аудиопоток пользователя берется с аудиовхода, а аудиопоток Moshi сэмплируется из вывода модели. Кроме того, Moshi предсказывает текстовые токены, соответствующие собственной речи, для повышения точности. Небольшой Depth Transformer моделирует зависимости между кодовыми книгами для данного шага.

В основе лежат два трансформатора:

  • Маленький Depth Transformer: Отвечает за моделирование зависимостей между кодовыми книгами на каждом временном шаге.
  • Большой Temporal Transformer (7 миллиардов параметров): Моделирует временные зависимости, обеспечивая связность и логичность диалога.

Mimi: Детали работы

Mimi, как уже упоминалось, играет ключевую роль. Он основан на таких нейронных аудиокодеках, как SoundStream и EnCodec, но с важными улучшениями:

  • Трансформеры в кодировщике и декодировщике.
  • Адаптированные шаги для достижения частоты кадров 12.5 Гц, что ближе к частоте текстовых токенов (~3-4 Гц) и снижает количество авторегрессионных шагов в Moshi, уменьшая задержку.
  • Использование distillation loss для согласования токенов первой кодовой книги с самообучаемым представлением WavLM, что позволяет моделировать семантическую и акустическую информацию одной моделью.
  • Исключительно adversarial training loss с feature matching, что обеспечивает высокое субъективное качество при очень низком битрейте.

Схема, представляющая структуру Mimi, нашего предложенного нейронного кодека. Mimi содержит Трансформер как в своем кодировщике, так и в декодировщике, и достигает частоты кадров, более близкой к частоте текстовых токенов. Это позволяет нам уменьшить количество авторегрессионных шагов, выполняемых Moshi, тем самым уменьшая задержку модели.

В репозитории доступны три обученные модели: Moshi с мужским (Moshiko) и женским (Moshika) синтетическими голосами, а также сам кодек Mimi. Для каждого бэкенда (PyTorch, MLX, Rust/Candle) есть варианты с разной квантизацией (bf16, int8, int4), что позволяет оптимизировать использование ресурсов.

Moshi в действии: Где это пригодится?

Практическая ценность Moshi видна невооруженным глазом. Представьте, как он может изменить привычные сценарии:

  • Улучшенные голосовые помощники: Siri, Google Assistant, Алиса — все они могли бы стать гораздо более "живыми" и менее "роботизированными", если бы могли поддерживать full-duplex диалог.
  • Системы синхронного перевода: Представьте переводчика, который не ждет, пока вы закончите фразу, а переводит на лету, позволяя вам общаться практически без задержек. Moshi с его возможностями потоковой обработки и низкой задержки — идеальная основа для таких систем (кстати, у Kyutai Labs есть похожий проект Hibiki для синхронного перевода).
  • Интерактивные боты для колл-центров: Устали от кнопочных меню и долгих ожиданий? Бот, который понимает вас с полуслова и может вести полноценный диалог, значительно улучшит клиентский опыт.
  • Обучающие платформы: ИИ-репетиторы, которые могут вести диалог, давать обратную связь и отвечать на вопросы в реальном времени, создавая эффект присутствия живого учителя.

Установить Moshi довольно просто. Для Python-версий достаточно использовать pip:

pip install -U moshi      # Moshi PyTorch
pip install -U moshi_mlx  # Moshi MLX
pip install rustymimi  # Mimi Rust с Python-биндингами

А если вы хотите запустить сервер, например, для PyTorch-версии, это делается одной командой:

python -m moshi.server [--gradio-tunnel] [--hf-repo kyutai/moshika-pytorch-bf16]

После этого можно подключиться через веб-интерфейс на localhost:8998 или использовать командную строку. Для Rust-версии, конечно, потребуется установить Rust toolchain и использовать cargo.

Итог: Ваш следующий шаг к будущему диалоговых систем

Moshi — это не просто шаг вперед, это прыжок в будущее интерактивных голосовых систем. Он решает фундаментальные проблемы, связанные с естественностью и задержкой, открывая двери для создания по-настоящему революционных приложений.

Если вы разработчик, который стремится создавать голосовые интерфейсы нового поколения, или просто интересуетесь передовыми достижениями в области ИИ, Moshi определенно стоит вашего внимания. Загляните в репозиторий, попробуйте демо-версию, и, возможно, именно этот проект вдохновит вас на создание следующего большого прорыва. Будущее, где мы свободно общаемся с ИИ, уже здесь, и Moshi — один из его ключевых строительных блоков. Попробуйте, и вы сами в этом убедитесь!