Как выжать максимум из Apple Silicon обзор Rapid-MLX

03 Jun, 2026

Купил себе MacBook на M-чипе, а он большую часть времени простаивает, пока ты платишь OpenAI за каждый токен? Знакомая история. Я долго искал способ запустить приличную LLM локально так, чтобы она не «тупила» и понимала вызовы функций в коде. Ollama — штука классная, но на моем железе она иногда ведет себя неповоротливо. Недавно наткнулся на Rapid-MLX, и, кажется, это именно то, чего не хватало владельцам Mac.

Rapid-MLX

Что это такое и зачем оно нужно

Rapid-MLX — это движок для запуска нейросетей, написанный специально под Apple Silicon. В его основе лежит фреймворк MLX от самой Apple. Главная фишка проекта в том, что он работает в 2–4 раза быстрее той же Ollama на некоторых моделях. Автор заявляет о скорости до 180 токенов в секунду. Для контекста: это быстрее, чем вы успеете прочитать текст глазами.

Проект решает две боли: огромные счета за облачные API и задержки при генерации. Если вы пользуетесь Cursor, Aider или Claude Code, вы знаете, как быстро улетают лимиты. Rapid-MLX поднимает локальный сервер, который прикидывается API OpenAI. Вы просто меняете base_url в настройках своей IDE на localhost:8000, и магия начинает работать бесплатно.

Rapid-MLX demo

Реклама

Почему он работает быстрее других

Разработчики использовали несколько хитрых приемов, чтобы обойти ограничения стандартных движков на C++.

Во-первых, здесь реализован честный Prompt Cache. Если вы ведете длинный диалог, нейросеть не пересчитывает весь контекст заново при каждом сообщении. Для моделей семейства Qwen3.5 (которые сейчас в топе для кодинга) используется технология снимков состояния RNN (DeltaNet state snapshots). Это позволяет восстановить состояние памяти модели за доли миллисекунды.

Во-вторых, Rapid-MLX нативно поддерживает унифицированную память Mac. Это значит, что видеокарта и процессор обращаются к одним и тем же данным без лишнего копирования.

Главные фишки, которые я оценил

Работа с инструментами (Tool Calling)

Многие локальные движки «ломаются», когда модель пытается вызвать функцию или запустить скрипт. Rapid-MLX содержит 17 парсеров для разных семейств моделей. Даже если квантованная (сжатая) модель выдает кривой JSON, движок пытается его восстановить на лету. Это критично для агентов вроде PydanticAI или LangChain.

Разделение рассуждений

Если вы запускаете «думающие» модели вроде DeepSeek-R1 или Qwen3-Coder, Rapid-MLX умеет отделять цепочку рассуждений (Chain of Thought) от основного ответа. В стриминговом режиме это выглядит очень аккуратно: вы видите, как модель «думает» в отдельном поле, не смешивая это с кодом.

Умный роутинг в облако

Интересная функция для тех, у кого не самый мощный Mac. Можно настроить порог: если запрос слишком тяжелый для локального железа, Rapid-MLX сам перекинет его на Claude или GPT-4 через API.

Как завести это у себя

Установка на удивление простая. Если у вас есть Homebrew, хватит одной команды:

brew install raullenchai/rapid-mlx/rapid-mlx

После этого можно сразу запускать сервер. Например, для модели Qwen 3.5 на 9 миллиардов параметров (отличный баланс скорости и ума):

rapid-mlx serve qwen3.5-9b

Движок сам скачает веса с HuggingFace и поднимет сервер на 8000 порту.

Что выбрать под свой конфиг

Автор составил подробную таблицу, и она похожа на правду. Вот на что стоит ориентироваться:

  • 16 ГБ RAM: Ваш выбор — Qwen3.5-4B. Летает со скоростью 160 ток/сек. Хватит для простых чатов и помощи с кодом.
  • 32 ГБ RAM: Тут уже можно разгуляться. Nemotron-Nano 30B выдает 141 ток/сек. Это одна из самых быстрых связок для такого объема памяти.
  • 64 ГБ и выше: Можно запускать серьезные вещи вроде Qwen3.5-35B в 8-битном качестве. Это уже уровень, близкий к GPT-4 в плане логики.

Практические сценарии

Я попробовал подключить Rapid-MLX к Cursor. В настройках моделей добавил новый эндпоинт http://localhost:8000/v1 и указал модель default. Работает без задержек.

Еще один крутой кейс — использование с библиотекой aider. Это CLI-инструмент, который правит код прямо в терминале. С локальным движком он работает молниеносно, потому что нет сетевых задержек на отправку контекста всего проекта в облако.

Для Python-разработчиков интеграция выглядит стандартно:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

response = client.chat.completions.create(
    model="default",
    messages=[{"role": "user", "content": "Напиши фибоначчи на Rust"}]
)
print(response.choices[0].message.content)

Итоги

Rapid-MLX — это проект для тех, кто хочет выжать из своего Mac максимум. Он не пытается быть универсальным комбайном для всех ОС, а бьет точно в цель — оптимизацию под Apple Silicon.

Кому точно стоит попробовать:

  1. Разработчикам, которые используют AI-агентов и хотят сэкономить на API.
  2. Тем, кто работает с конфиденциальным кодом и не может отправлять его в облако.
  3. Владельцам Mac Studio и Mac Pro, у которых простаивает 128+ ГБ оперативной памяти.

Из минусов: проект молодой, и документация местами лаконична. Если что-то идет не так, придется лезть в rapid-mlx doctor или смотреть исходники на Python. Но за такую скорость простить можно многое.