Запуск больших языковых моделей на «слабом» железе с помощью LiteRT-LM
Долгое время запуск LLM казался прерогативой огромных серверных ферм с десятками GPU. Если вы хотели добавить нейросеть в мобильное приложение или на какой-нибудь Raspberry Pi, приходилось либо гонять запросы к облачному API, либо мириться с тем, что устройство превращается в обогреватель, выдавая одно слово в минуту. Но Google, кажется, решил всерьез заняться этой проблемой. Их новый фреймворк LiteRT-LM (бывший TensorFlow Lite Runtime для LLM) ориентирован именно на запуск моделей «на краю» — в браузерах, часах и одноплатных компьютерах.
Зачем нам еще один фреймворк для инференса
Когда я впервые наткнулся на этот репозиторий, возник резонный вопрос: а чем плохи существующие решения вроде llama.cpp? Ответ кроется в названии организации-разработчика. Google адаптировал LiteRT-LM специально под нужды продакшена в своих же продуктах. Эта штука уже крутится в Chrome, на Chromebook Plus и даже в Pixel Watch.
Главная фишка здесь не в том, чтобы просто запустить модель, а в том, чтобы сделать это эффективно на самом разном «железе». Фреймворк умеет перекладывать вычисления на GPU и NPU (нейронные процессоры), которые сейчас есть почти в каждом современном смартфоне, но часто простаивают без дела.
Что внутри и как это работает
В основе LiteRT-LM лежит идея кроссплатформенности. Проект поддерживает Android, iOS, Web и десктопы. Интересно, что разработчики не ограничились только своими моделями серии Gemma. Список поддерживаемых архитектур включает Llama, Phi-4 и Qwen.
Что действительно подкупает, так это внимание к мультимодальности. Модели в этом фреймворке могут работать не только с текстом, но и с изображениями и аудио. Плюс реализована поддержка Tool Use — это когда нейросеть не просто генерирует текст, а вызывает функции вашего приложения для решения задач. Это превращает обычный чат-бот в полноценного агента.

Быстрый старт без написания кода
Тут стоит отдать должное команде Google: они сделали входной порог максимально низким. Если у вас установлен пакетный менеджер uv, проверить работоспособность можно буквально одной командой:
uv tool install litert-lm
litert-lm run \
--from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
gemma-3n-E2B-it-int4 \
--prompt="В чем секрет идеального кода?"
Эта команда скачает квантованную версию Gemma 3 прямо с Hugging Face и запустит ее локально. Для тех, кто предпочитает старый добрый Python или нативный C++, есть соответствующие обертки.
Программные интерфейсы
Сейчас в проекте три стабильных API:
- Kotlin — основной путь для Android-разработчиков. Google активно продвигает связку LiteRT и Android.
- Python — стандарт для быстрого прототипирования.
- C++ — для тех случаев, когда нужно выжать максимум производительности или встроить инференс в существующее нативное приложение.
Поддержка Swift для iOS и macOS сейчас находится в активной разработке, так что пользователям Apple пока придется подождать или использовать C++ через бриджи.
Практическая ценность
Представьте, что вы делаете приложение для заметок, которое должно уметь кратко пересказывать текст. Гнать данные пользователя в облако — это и дорого, и небезопасно с точки зрения приватности. LiteRT-LM позволяет реализовать такой функционал полностью offline. При этом, благодаря оптимизациям под NPU, батарейка телефона не высадится за пять минут использования.
Еще один интересный кейс — IoT. Поддержка Raspberry Pi открывает двери для создания «умных» колонок или домашних серверов, которые понимают естественный язык, не отправляя ваши разговоры на серверы корпораций.
Стоит ли скачивать
LiteRT-LM — это не экспериментальная игрушка, а рабочий инструмент, на котором Google обкатывает свои AI-фичи. Если ваша задача — встроить ИИ в мобильное или встроенное приложение так, чтобы оно работало быстро и нативно, это отличный выбор.
Кому проект пригодится в первую очередь:
- Android-разработчикам, которые хотят внедрить ИИ без огромных облачных счетов.
- Разработчикам на C++, создающим высокопроизводительный софт.
- Тем, кто работает с Edge Computing и IoT-устройствами.
Конечно, проект еще активно меняется, и в документации могут встречаться пробелы, но темпы обновлений внушают оптимизм. Например, недавно завезли поддержку ускорения на десктопных GPU и поддержку новейшей Gemma 4. Это хороший повод заглянуть в репозиторий и хотя бы прогнать CLI-версию, чтобы оценить скорость на своем железе.