Как приручить ИИ-агентов с помощью DefenseClaw
Представьте, что вы дали своему новому ИИ-помощнику доступ к терминалу и разрешили устанавливать плагины. Через пять минут он скачивает «полезную утилиту» из сомнительного репозитория, которая начинает сканировать вашу локальную сеть или отправлять содержимое .env файлов на внешний сервер. Звучит как сценарий для параноиков, но с развитием автономных агентов и протоколов вроде MCP (Model Context Protocol) это становится вполне реальной угрозой.
Недавно наткнулся на проект DefenseClaw от команды Cisco AI Defense. Это опенсорсный фреймворк, который пытается решить проблему безопасности именно в «агентских» средах. Если коротко: это набор инструментов, который проверяет, что именно собирается сделать ваш ИИ, прежде чем он нажмет кнопку «Enter».
Зачем это нужно разработчику
Когда мы работаем с обычным LLM-чатом, риск ограничен утечкой данных в промпте. Но современные агенты умеют вызывать инструменты (tool calling), писать код и запускать его. DefenseClaw встает «в разрыв» между агентом и внешним миром.
Проект ориентирован на OpenClaw и среды, использующие плагины или MCP-серверы. Он не просто логирует действия, а применяет политики безопасности к каждому шагу агента. Если ИИ решит использовать плагин с уязвимым кодом или попытается прочитать /etc/passwd, система это заблокирует.
Что внутри коробки
DefenseClaw — это не монолит, а связка из трех компонентов:
- CLI-утилита на Python для управления и сканирования.
- Gateway-сайдкар на Go, который работает как прокси для трафика.
- Плагин для OpenClaw на TypeScript, который перехватывает вызовы инструментов.
Контроль на входе
Система проверяет «скиллы» и плагины еще до их запуска. В состав входит CodeGuard — статический анализатор, который ищет в сгенерированном коде или сторонних плагинах зашитые секреты, опасные паттерны десериализации, инъекции и попытки работы с файловой системой.
Например, можно просканировать все установленные расширения одной командой:
defenseclaw skill scan all
defenseclaw plugin scan extensions/my-new-plugin
Живые проверки в рантайме
Самое интересное происходит во время работы агента. DefenseClaw проверяет промпты и ответы модели с помощью регулярных выражений и политик. Можно даже подключить «LLM-судью» — отдельную маленькую модель, которая будет оценивать безопасность действий основной модели.
Если агент пытается вызвать инструмент, DefenseClaw проверяет аргументы. Например, если инструмент предназначен для работы с логами, а агент передает туда путь к конфигурации SSH, запрос будет отклонен.
Песочница OpenShell
Проект поддерживает интеграцию с OpenShell. Это позволяет запускать действия агента в изолированном Linux-контейнере с жесткими ограничениями на системные вызовы и сетевой доступ. Даже если агент скомпрометирован, он останется запертым внутри песочницы.
Как это выглядит на практике
Установка довольно прямолинейная, хотя требует наличия Python 3.10+ и Go. После сборки через make all можно инициализировать систему:
defenseclaw init --enable-guardrail
После этого запускается шлюз:
defenseclaw-gateway start
И самое приятное для любителей терминала — у проекта есть отличный TUI (Terminal User Interface). В нем можно в реальном времени смотреть логи аудита, результаты сканирования и состояние здоровья всех компонентов. Запускается просто: defenseclaw tui.
Архитектура и потоки данных
Схема работы выглядит примерно так: Агент отправляет запрос -> Плагин перехватывает его -> Шлюз (Gateway) сверяется с политиками (Rego/YAML) -> Если всё ок, запрос уходит к LLM-провайдеру.
Вся история сохраняется в локальную базу SQLite. Если вам нужно что-то посерьезнее для мониторинга, DefenseClaw умеет выплевывать данные в формате OTLP (OpenTelemetry), JSONL или напрямую в Splunk.
Стоит ли пробовать
DefenseClaw — это не «серебряная пуля». Авторы честно пишут в README, что инструмент не гарантирует 100% безопасности. Это дополнительный слой защиты, который помогает автоматизировать аудит и блокировать очевидно опасные действия.
Кому проект будет полезен:
- Тем, кто строит внутренние инструменты на базе ИИ-агентов и боится утечек.
- Разработчикам, которые экспериментируют с MCP-серверами и хотят видеть, что именно они делают под капотом.
- Командам безопасности, которым нужно внедрить комплаенс в использование ИИ внутри компании.
Из минусов: документация местами разбросана по разным файлам в папке docs/, и для полноценной настройки придется покопаться в YAML-конфигах. Но сама идея «admission control» для ИИ выглядит очень здравой на фоне того, как быстро агенты получают доступ к реальным API.
Начать изучение лучше всего с Quick Start, там описан базовый флоу от установки до первого сканирования.
