Встречаем Qwen 3.5 - почему китайские нейросети стали серьезной угрозой для гигантов индустрии
Пару лет назад open-source модели считались «игрушками» для энтузиастов, которые сильно отставали от проприетарных решений вроде GPT-4. Сегодня ситуация изменилась. Команда из Alibaba Cloud выкатила Qwen 3.5, и это тот случай, когда проект заслуживает места в закладках любого разработчика, работающего с AI. Если вы привыкли, что качественные модели требуют терабайты видеопамяти или огромные счета за API, то здесь есть о чем поспорить.
Что в коробке
Qwen 3.5 — это не просто очередное обновление весов. Разработчики пошли по пути оптимизации архитектуры, чтобы выжать максимум из железа. Они используют комбинацию Gated Delta Networks и Sparse Mixture-of-Experts (MoE). Если говорить человеческим языком: модель не активирует все свои миллиарды параметров для каждого запроса. Она задействует только нужные «экспертные» блоки, что напрямую влияет на скорость генерации и стоимость запуска.
В репозитории сейчас представлен целый зоопарк моделей: от гигантской 397B до совсем крошечных 0.8B, которые, кажется, можно запустить даже на микроволновке (ладно, на хорошем смартфоне точно).
Чем интересна новая версия
Я выделил несколько моментов, которые отличают этот проект от десятков других на Hugging Face.
Мультимодальность «из коробки»
В отличие от многих моделей, где зрение прикручено сбоку через отдельные адаптеры, здесь используется Unified Vision-Language Foundation. Модель обучалась на триллионах мультимодальных токенов. Это значит, что она одинаково хорошо понимает как текст, так и изображения, графики или скриншоты кода, не теряя при этом в логике и качестве рассуждений.
Поддержка 201 языка
Китайские модели часто грешат плохим знанием других языков, кроме китайского и английского. В Qwen 3.5 эту планку задрали очень высоко. Поддержка двух сотен языков делает её отличным выбором для локализации продуктов или создания ботов для глобального рынка.
Эффективность инференса
Благодаря структуре MoE, даже тяжелые модели показывают высокую пропускную способность. Например, модель со 122 миллиардами параметров может работать эффективнее, чем плотные модели в два раза меньшего объема, просто потому что она умнее распределяет нагрузку на вычислительные ядра.
Результаты тестов
Разработчики приложили графики бенчмарков, и они выглядят довольно амбициозно. Модель 397B-A17B (где работают только 17 млрд параметров одновременно) показывает результаты, сопоставимые с топовыми решениями рынка.

Средние модели тоже не отстают, закрывая потребности в кодинге и математических рассуждениях.

Как это запустить у себя
Самое приятное в Qwen — это простота интеграции. Ребята из Alibaba не стали изобретать велосипед и обеспечили поддержку всех популярных фреймворков.
Если вы используете vLLM, запуск сервера с OpenAI-совместимым API выглядит так:
vllm serve Qwen/Qwen3.5-35B-A3B --port 8000 --tensor-parallel-size 4 --max-model-len 262144
Для владельцев Mac на Apple Silicon все еще проще благодаря поддержке MLX. А если нужно что-то совсем легкое для терминала, можно посмотреть в сторону llama.cpp и GGUF-квантований.
Отдельного упоминания заслуживает инструмент Qwen Code. Это опенсорсный агент для терминала, который помогает разбираться в легаси-коде и автоматизировать рутину. По ощущениям — это попытка сделать бесплатную альтернативу GitHub Copilot, работающую локально.
Практическая польза
Кому стоит уделить время этому репозиторию?
- Разработчикам AI-агентов. Модель отлично справляется с Tool Use (вызовом внешних функций) и планированием задач.
- Тем, кто ищет замену дорогми API. Модели среднего размера (35B-27B) вполне реально кастомизировать под свои задачи через SFT или DPO.
- Исследователям. Наличие весов и открытая лицензия Apache 2.0 позволяют ковыряться «под капотом» без страха юридических последствий.
Qwen 3.5 — это сильный игрок, который доказывает: open-source модели больше не догоняющие. Проект подкупает своей универсальностью. Вам не нужно искать одну модель для чата, вторую для кода, а третью для распознавания картинок.
Конечно, для запуска топовых версий все еще нужны серьезные мощности, но наличие мелких моделей в линейке делает технологию доступной для широкого круга задач. Если вы давно хотели съехать с платных подписок на локальные решения, сейчас лучшее время, чтобы склонировать этот репозиторий и начать тесты.