SAM 2 от Meta — выделяем что угодно теперь и в видео
Помните, какой фурор произвела первая версия Segment Anything Model (SAM)? Нейросеть, которая умела по одному клику выделять любой объект на картинке, стала настоящей находкой для разработчиков и исследователей. Но что, если я скажу вам, что теперь эта магия работает и с видео? Встречайте, SAM 2 — проект от Meta AI, который выводит сегментацию на совершенно новый уровень.
Давайте разберемся, чем он так хорош и как может пригодиться в ваших проектах.
Что это такое и зачем нужно?
Если коротко, SAM 2 — это фундаментальная модель для сегментации объектов на изображениях и, что самое главное, в видео. Знакома ситуация, когда нужно вырезать движущийся объект из ролика? Раньше это было задачей для профессиональных видеоредакторов и занимало часы кропотливой работы с ротоскопированием. SAM 2 стремится сделать этот процесс таким же простым, как выделение файла на рабочем столе.
Проект решает одну из ключевых задач компьютерного зрения: не просто найти объект, а точно очертить его контуры, даже когда он движется, меняет форму или частично перекрывается другими объектами. Это открывает двери для множества практических применений — от продвинутого видеомонтажа до анализа данных с беспилотников.

Ключевые возможности: что под капотом?
SAM 2 — это не просто косметическое обновление. Инженеры Meta серьезно переработали архитектуру и добавили несколько киллер-фич.
1. Сегментация в реальном времени для видео
Главное нововведение — это, конечно, работа с видео. Разработчики подошли к задаче элегантно: для модели любое изображение — это просто видео из одного кадра. В основе лежит трансформерная архитектура с потоковой памятью (streaming memory), которая позволяет модели "помнить" объект между кадрами. Результат? Плавное и стабильное отслеживание объекта на протяжении всего ролика.
Больше не нужно обрабатывать каждый кадр по отдельности. Вы даете модели "подсказку" (например, клик или рамку) на одном кадре, и она сама прослеживает объект дальше.
2. Производительность — не проблема
Часто исследовательские проекты бывают медленными и громоздкими. Но здесь команда Meta позаботилась о скорости. SAM 2 поддерживает torch.compile, что значительно ускоряет обработку видео. Судя по бенчмаркам в репозитории, даже "тяжелые" версии модели показывают десятки FPS на GPU A100. Этого более чем достаточно для многих real-time приложений.
3. Гибкость и простота использования
Начать работать с SAM 2 на удивление просто. Репозиторий содержит понятные примеры в Jupyter-ноутбуках, а саму модель можно установить парой команд:
git clone https://github.com/facebookresearch/sam2.git && cd sam2
pip install -e .
Для работы с изображениями и видео есть отдельные классы-предикторы (SAM2ImagePredictor и SAM2VideoPredictor) с очень лаконичным API.
Вот как, например, выглядит код для сегментации объекта на видео:
import torch
from sam2.build_sam import build_sam2_video_predictor
# Загружаем модель
predictor = build_sam2_video_predictor("configs/sam2.1/sam2.1_hiera_l.yaml", "./checkpoints/sam2.1_hiera_large.pt")
with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16):
# Инициализируем состояние для вашего видео
state = predictor.init_state(<your_video>)
# Добавляем подсказку (например, точку на объекте)
frame_idx, object_ids, masks = predictor.add_new_points_or_box(state, <your_prompts>):
# Запускаем отслеживание по всему видео
for frame_idx, object_ids, masks in predictor.propagate_in_video(state):
# Здесь обрабатываем полученные маски для каждого кадра
...
Кстати, модель можно загрузить и напрямую из Hugging Face, что еще больше упрощает интеграцию.
4. Возможность дообучения
Огромный плюс проекта в том, что разработчики выложили не только готовые модели, но и код для их обучения и дообучения (fine-tuning). Это значит, что вы можете адаптировать SAM 2 под свою специфическую задачу: будь то анализ медицинских снимков, распознавание дефектов на производстве или отслеживание редких видов животных.
Для обучения модели был создан гигантский датасет SA-V (Segment Anything Video), который также доступен сообществу.

Где это можно применить на практике?
Теория — это хорошо, но зачем SAM 2 нужен обычному разработчику? Вот несколько идей:
- Умные видеоредакторы: Автоматическое удаление фона, создание масок для цветокоррекции, добавление VFX-эффектов, которые взаимодействуют с движущимися людьми.
- Аналитика и безопасность: Отслеживание автомобилей, пешеходов или любых других объектов на записях с камер наблюдения.
- Робототехника и автопилот: Помощь роботам и беспилотникам в понимании сцены, отслеживании важных объектов и избегании препятствий.
- Дополненная реальность (AR): Создание AR-эффектов, которые могут "прятаться" за реальными движущимися объектами, создавая иллюзию глубины.
- Инструменты для разметки данных: Ускорение процесса создания датасетов для других нейросетей. Вместо ручной обводки объектов на тысячах кадров достаточно кликнуть на них один раз.
Выводы: кому стоит попробовать?
SAM 2 — это мощный шаг вперед в области компьютерного зрения. Проект будет интересен в первую очередь:
- ML-инженерам и исследователям, работающим с видеоаналитикой.
- Разработчикам, создающим приложения с обработкой изображений или видео.
- Энтузиастам, которые хотят поэкспериментировать с передовыми AI-моделями.
Команда Meta проделала большую работу, сделав технологию не только мощной, но и доступной. Наличие готовых моделей, кода для обучения и понятных примеров сильно снижает порог входа.
Если ваша работа хоть как-то связана с анализом изображений или видео, обязательно загляните в репозиторий SAM 2 и попробуйте запустить демо-ноутбуки. Возможно, это именно тот инструмент, которого не хватало вашему проекту.
