Moshi — Когда голосовой помощник начинает по-настоящему слушать и отвечать
Знакомая ситуация? Вы пытаетесь что-то сказать голосовому помощнику, а он вас перебивает, или наоборот — замирает в ожидании, пока вы закончите длинную фразу. Это не диалог, а скорее набор монологов с паузами. В реальной жизни мы постоянно перебиваем друг друга, вставляем реплики, уточняем на лету. Искусственные интеллекты до недавнего времени так не умели. Но кажется, лед тронулся! Встречайте Moshi — проект от Kyutai Labs, который обещает сделать общение с ИИ таким же естественным и динамичным, как с живым человеком.
Что такое Moshi и зачем он разработчику?
Moshi — это не просто очередная модель для преобразования речи в текст (STT) или текста в речь (TTS). Это полноценная основополагающая модель для диалога, разработанная с нуля для полнодуплексного общения в реальном времени. Представьте себе голосового помощника, который не просто слушает, а участвует в беседе, понимая контекст и отвечая практически мгновенно, даже если вы продолжаете говорить. Звучит как научная фантастика? Moshi делает это реальностью.
Кому это будет интересно? Да практически любому, кто работает с голосовыми интерфейсами:
- Разработчикам продвинутых голосовых ассистентов.
- Создателям систем синхронного перевода.
- Компаниям, разрабатывающим интерактивных ботов для поддержки клиентов.
- Разработчикам игр с голосовым управлением, где важна мгновенная реакция.
- Всем, кто хочет сделать взаимодействие человека и машины максимально естественным.
Секреты живого диалога: Ключевые возможности Moshi
Чтобы добиться такой естественности, Moshi использует несколько по-настоящему крутых идей. Давайте разберем их по порядку.
Full-duplex: Говорите без пауз и перебиваний
Это, пожалуй, главная фишка Moshi. В отличие от большинства систем, которые работают в полудуплексном режиме (либо вы говорите, либо ИИ), Moshi поддерживает полнодуплексное общение. Это значит, что вы можете говорить одновременно с ИИ, перебивать его, добавлять реплики — совсем как в обычном разговоре. Модель способна обрабатывать два потока аудио: один от пользователя, другой от себя самой. Это критически важно для создания ощущения живого, непрерывного диалога.
Минимальная задержка: Реакция быстрее мысли
Что толку от full-duplex, если ИИ думает полчаса? Moshi спроектирован для работы с рекордно низкой задержкой. Разработчики заявляют о теоретической задержке всего в 160 мс (80 мс для обработки аудиокадров и 80 мс акустической задержки), а практическая на L4 GPU составляет около 200 мс. Это настолько быстро, что вы практически не заметите задержки, и разговор будет течь плавно и естественно.
"Внутренний монолог" ИИ: Откуда такое понимание?
Интересно, что Moshi не просто генерирует речь, но и предсказывает текстовые токены, соответствующие собственной речи. Разработчики называют это "внутренним монологом" модели. Зачем это нужно? Оказывается, такой подход значительно улучшает качество генерации ответов, позволяя модели лучше понимать и формулировать свои реплики, делая их более связными и уместными в контексте диалога.
Mimi: Аудиокодек нового поколения
Основой для Moshi служит Mimi — передовой нейронный аудиокодек, который работает в потоковом режиме. Mimi обрабатывает аудио 24 кГц, сжимая его до 12.5 Гц представления с битрейтом всего 1.1 кбит/с! При этом он умудряется превосходить по качеству существующие, не потоковые кодеки, такие как SpeechTokenizer или SemantiCodec, которые требуют гораздо большего битрейта. Mimi использует трансформаторы в кодировщике и декодировщике, а также обучен с использованием adversarial training loss, что дает потрясающее субъективное качество при сверхнизком битрейте. Именно Mimi позволяет Moshi быть таким быстрым и эффективным.
Гибкость для любого сценария: PyTorch, MLX, Rust
Разработчики Moshi позаботились о том, чтобы проект был максимально удобным для разных задач и сред. Репозиторий включает три версии стека инференса:
- PyTorch: Идеально подходит для исследований, экспериментов и прототипирования. Если вы любите "покрутить" модель и изучить ее изнутри, вам сюда.
- MLX: Ориентирован на локальный инференс на устройствах Apple (iPhone, Mac). Это открывает огромные возможности для создания мобильных приложений с продвинутыми голосовыми функциями прямо на устройстве, без необходимости постоянно обращаться к облаку.
- Rust: Версия для продакшена. Если вам нужна максимальная производительность, надежность и низкоуровневый контроль, Rust — ваш выбор. Здесь же реализован Mimi на Rust с Python-биндингами (
rustymimi).
Под капотом: Архитектура, которая удивляет
Давайте немного углубимся в то, как Moshi достигает таких впечатляющих результатов.
Архитектура Moshi уникальна тем, что она моделирует два аудиопотока: один для речи Moshi, другой для речи пользователя. Вместе с этими потоками Moshi предсказывает текстовые токены, соответствующие собственной речи, что, как мы уже говорили, значительно улучшает качество генерации.

В основе лежат два трансформатора:
- Маленький Depth Transformer: Отвечает за моделирование зависимостей между кодовыми книгами на каждом временном шаге.
- Большой Temporal Transformer (7 миллиардов параметров): Моделирует временные зависимости, обеспечивая связность и логичность диалога.
Mimi: Детали работы
Mimi, как уже упоминалось, играет ключевую роль. Он основан на таких нейронных аудиокодеках, как SoundStream и EnCodec, но с важными улучшениями:
- Трансформеры в кодировщике и декодировщике.
- Адаптированные шаги для достижения частоты кадров 12.5 Гц, что ближе к частоте текстовых токенов (~3-4 Гц) и снижает количество авторегрессионных шагов в Moshi, уменьшая задержку.
- Использование distillation loss для согласования токенов первой кодовой книги с самообучаемым представлением WavLM, что позволяет моделировать семантическую и акустическую информацию одной моделью.
- Исключительно adversarial training loss с feature matching, что обеспечивает высокое субъективное качество при очень низком битрейте.

В репозитории доступны три обученные модели: Moshi с мужским (Moshiko) и женским (Moshika) синтетическими голосами, а также сам кодек Mimi. Для каждого бэкенда (PyTorch, MLX, Rust/Candle) есть варианты с разной квантизацией (bf16, int8, int4), что позволяет оптимизировать использование ресурсов.
Moshi в действии: Где это пригодится?
Практическая ценность Moshi видна невооруженным глазом. Представьте, как он может изменить привычные сценарии:
- Улучшенные голосовые помощники: Siri, Google Assistant, Алиса — все они могли бы стать гораздо более "живыми" и менее "роботизированными", если бы могли поддерживать full-duplex диалог.
- Системы синхронного перевода: Представьте переводчика, который не ждет, пока вы закончите фразу, а переводит на лету, позволяя вам общаться практически без задержек. Moshi с его возможностями потоковой обработки и низкой задержки — идеальная основа для таких систем (кстати, у Kyutai Labs есть похожий проект Hibiki для синхронного перевода).
- Интерактивные боты для колл-центров: Устали от кнопочных меню и долгих ожиданий? Бот, который понимает вас с полуслова и может вести полноценный диалог, значительно улучшит клиентский опыт.
- Обучающие платформы: ИИ-репетиторы, которые могут вести диалог, давать обратную связь и отвечать на вопросы в реальном времени, создавая эффект присутствия живого учителя.
Установить Moshi довольно просто. Для Python-версий достаточно использовать pip:
pip install -U moshi # Moshi PyTorch
pip install -U moshi_mlx # Moshi MLX
pip install rustymimi # Mimi Rust с Python-биндингами
А если вы хотите запустить сервер, например, для PyTorch-версии, это делается одной командой:
python -m moshi.server [--gradio-tunnel] [--hf-repo kyutai/moshika-pytorch-bf16]
После этого можно подключиться через веб-интерфейс на localhost:8998 или использовать командную строку. Для Rust-версии, конечно, потребуется установить Rust toolchain и использовать cargo.
Итог: Ваш следующий шаг к будущему диалоговых систем
Moshi — это не просто шаг вперед, это прыжок в будущее интерактивных голосовых систем. Он решает фундаментальные проблемы, связанные с естественностью и задержкой, открывая двери для создания по-настоящему революционных приложений.
Если вы разработчик, который стремится создавать голосовые интерфейсы нового поколения, или просто интересуетесь передовыми достижениями в области ИИ, Moshi определенно стоит вашего внимания. Загляните в репозиторий, попробуйте демо-версию, и, возможно, именно этот проект вдохновит вас на создание следующего большого прорыва. Будущее, где мы свободно общаемся с ИИ, уже здесь, и Moshi — один из его ключевых строительных блоков. Попробуйте, и вы сами в этом убедитесь!