Data-Juicer — Ваш швейцарский нож для подготовки данных под foundation models

02 Jun, 2026

Data-Juicer в действии

Почему все говорят о Data-Juicer?

Представьте: вы собираетесь обучать большую языковую модель, но 80% времени уходит не на само обучение, а на мучительную подготовку данных. Очистка, дедупликация, нормализация — знакомо? Команда Alibaba Tongyi Lab создала Data-Juicer именно для решения этой проблемы.

Что под капотом?

Data-Juicer — это:

  • Библиотека из 100+ операторов для обработки текстовых и мультимодальных данных
  • Готовые рецепты для разных сценариев: предобучение, тонкая настройка
  • Интеграция с Ray для распределённой обработки петабайтов данных
# Пример конфигурации обработки
config = {
  "process": [
    {"text_cleaning": {"remove_html": true}},
    {"language_id": {"target_languages": ["en", "zh"]}}
  ]
}

5 причин попробовать Data-Juicer

  1. Мультимодальность — работает с текстом, изображениями, аудио и видео
  2. Производительность — обработка 70 млрд. примеров за 2.1 часа на кластере Alibaba Cloud
  3. Гибкость — легко добавлять собственные операторы обработки
  4. Sandbox-режим — интерактивные эксперименты через JupyterLab
  5. Поддержка индустрии — используется в Alibaba Cloud PAI, NVIDIA NeMo и других

Кому особенно пригодится?

  • ML-инженерам, уставшим от самописных скриптов для очистки данных
  • Исследователям, работающим с мультимодальными моделями
  • Командам, которым нужно быстро подготовить данные для тонкой настройки LLM

Как начать?

pip install py-data-juicer
docker pull datajuicer/data-juicer

Либо попробуйте онлайн-демо без установки.

Data-Juicer — это не просто ещё один инструмент для обработки данных, а целая экосистема для data-centric подхода в ML. Если вы работаете с foundation models, этот проект стоит добавить в ваш инструментарий. Особенно впечатляет поддержка распределённой обработки и мультимодальных данных — то, что действительно отличает его от аналогов.

Реклама

Проект активно развивается: только за последний год вышло 2 крупных версии и несколько научных публикаций. Судя по активности в репозитории (5k+ звёзд) и списку компаний, использующих решение, Data-Juicer уже стал стандартом де-факто в своей нише.