SAM 2 от Meta — выделяем что угодно теперь и в видео

27 May, 2026

Помните, какой фурор произвела первая версия Segment Anything Model (SAM)? Нейросеть, которая умела по одному клику выделять любой объект на картинке, стала настоящей находкой для разработчиков и исследователей. Но что, если я скажу вам, что теперь эта магия работает и с видео? Встречайте, SAM 2 — проект от Meta AI, который выводит сегментацию на совершенно новый уровень.

Давайте разберемся, чем он так хорош и как может пригодиться в ваших проектах.

Что это такое и зачем нужно?

Если коротко, SAM 2 — это фундаментальная модель для сегментации объектов на изображениях и, что самое главное, в видео. Знакома ситуация, когда нужно вырезать движущийся объект из ролика? Раньше это было задачей для профессиональных видеоредакторов и занимало часы кропотливой работы с ротоскопированием. SAM 2 стремится сделать этот процесс таким же простым, как выделение файла на рабочем столе.

Проект решает одну из ключевых задач компьютерного зрения: не просто найти объект, а точно очертить его контуры, даже когда он движется, меняет форму или частично перекрывается другими объектами. Это открывает двери для множества практических применений — от продвинутого видеомонтажа до анализа данных с беспилотников.

Архитектура SAM 2

Реклама

Ключевые возможности: что под капотом?

SAM 2 — это не просто косметическое обновление. Инженеры Meta серьезно переработали архитектуру и добавили несколько киллер-фич.

1. Сегментация в реальном времени для видео

Главное нововведение — это, конечно, работа с видео. Разработчики подошли к задаче элегантно: для модели любое изображение — это просто видео из одного кадра. В основе лежит трансформерная архитектура с потоковой памятью (streaming memory), которая позволяет модели "помнить" объект между кадрами. Результат? Плавное и стабильное отслеживание объекта на протяжении всего ролика.

Больше не нужно обрабатывать каждый кадр по отдельности. Вы даете модели "подсказку" (например, клик или рамку) на одном кадре, и она сама прослеживает объект дальше.

2. Производительность — не проблема

Часто исследовательские проекты бывают медленными и громоздкими. Но здесь команда Meta позаботилась о скорости. SAM 2 поддерживает torch.compile, что значительно ускоряет обработку видео. Судя по бенчмаркам в репозитории, даже "тяжелые" версии модели показывают десятки FPS на GPU A100. Этого более чем достаточно для многих real-time приложений.

3. Гибкость и простота использования

Начать работать с SAM 2 на удивление просто. Репозиторий содержит понятные примеры в Jupyter-ноутбуках, а саму модель можно установить парой команд:

git clone https://github.com/facebookresearch/sam2.git && cd sam2
pip install -e .

Для работы с изображениями и видео есть отдельные классы-предикторы (SAM2ImagePredictor и SAM2VideoPredictor) с очень лаконичным API.

Вот как, например, выглядит код для сегментации объекта на видео:

import torch
from sam2.build_sam import build_sam2_video_predictor

# Загружаем модель
predictor = build_sam2_video_predictor("configs/sam2.1/sam2.1_hiera_l.yaml", "./checkpoints/sam2.1_hiera_large.pt")

with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16):
    # Инициализируем состояние для вашего видео
    state = predictor.init_state(<your_video>)

    # Добавляем подсказку (например, точку на объекте)
    frame_idx, object_ids, masks = predictor.add_new_points_or_box(state, <your_prompts>):

    # Запускаем отслеживание по всему видео
    for frame_idx, object_ids, masks in predictor.propagate_in_video(state):
        # Здесь обрабатываем полученные маски для каждого кадра
        ...

Кстати, модель можно загрузить и напрямую из Hugging Face, что еще больше упрощает интеграцию.

4. Возможность дообучения

Огромный плюс проекта в том, что разработчики выложили не только готовые модели, но и код для их обучения и дообучения (fine-tuning). Это значит, что вы можете адаптировать SAM 2 под свою специфическую задачу: будь то анализ медицинских снимков, распознавание дефектов на производстве или отслеживание редких видов животных.

Для обучения модели был создан гигантский датасет SA-V (Segment Anything Video), который также доступен сообществу.

Примеры из датасета SA-V

Где это можно применить на практике?

Теория — это хорошо, но зачем SAM 2 нужен обычному разработчику? Вот несколько идей:

  • Умные видеоредакторы: Автоматическое удаление фона, создание масок для цветокоррекции, добавление VFX-эффектов, которые взаимодействуют с движущимися людьми.
  • Аналитика и безопасность: Отслеживание автомобилей, пешеходов или любых других объектов на записях с камер наблюдения.
  • Робототехника и автопилот: Помощь роботам и беспилотникам в понимании сцены, отслеживании важных объектов и избегании препятствий.
  • Дополненная реальность (AR): Создание AR-эффектов, которые могут "прятаться" за реальными движущимися объектами, создавая иллюзию глубины.
  • Инструменты для разметки данных: Ускорение процесса создания датасетов для других нейросетей. Вместо ручной обводки объектов на тысячах кадров достаточно кликнуть на них один раз.

Выводы: кому стоит попробовать?

SAM 2 — это мощный шаг вперед в области компьютерного зрения. Проект будет интересен в первую очередь:

  • ML-инженерам и исследователям, работающим с видеоаналитикой.
  • Разработчикам, создающим приложения с обработкой изображений или видео.
  • Энтузиастам, которые хотят поэкспериментировать с передовыми AI-моделями.

Команда Meta проделала большую работу, сделав технологию не только мощной, но и доступной. Наличие готовых моделей, кода для обучения и понятных примеров сильно снижает порог входа.

Если ваша работа хоть как-то связана с анализом изображений или видео, обязательно загляните в репозиторий SAM 2 и попробуйте запустить демо-ноутбуки. Возможно, это именно тот инструмент, которого не хватало вашему проекту.