Daft Мощный инструмент для работы с данными любого типа

18 Feb, 2026

Знакомо чувство, когда для обработки сложных данных (изображений, PDF, аудио) приходится писать десятки строк кода и подключать кучу библиотек? Daft предлагает элегантное решение — единый интерфейс для работы с любыми типами данных, от табличных чисел до сложных мультимодальных объектов.

Что такое Daft?

Daft — это распределенный движок обработки данных, написанный на Rust, но предоставляющий удобный Python/SQL интерфейс. Он сочетает в себе:

  • Производительность Rust
  • Гибкость Python
  • Масштабируемость распределенных систем

Главное преимущество — работа с мультимодальными данными. В то время как Pandas и Polars отлично справляются с табличными данными, Daft позволяет работать с:

  • Изображениями
  • PDF-документами
  • Аудиофайлами
  • Вложенными структурами данных

Ключевые возможности

1. Работа с любыми типами данных

# Загрузка и обработка изображений из S3
import daft

df = daft.from_glob_path("s3://bucket/images/*")
df = df.with_column("image", df["path"].url.download().image.decode())
df = df.with_column("thumbnail", df["image"].image.resize(32, 32))

2. Оптимизированные запросы

Daft автоматически оптимизирует ваши запросы, переписывая их для максимальной производительности. Не нужно вручную оптимизировать код — движок сделает это за вас.

3. Облачная интеграция

Благодаря рекордной производительности при работе с S3 (до 8 Гбит/с на одну ноду), Daft идеально подходит для обработки больших данных в облаке.

4. Распределенные вычисления

С интеграцией с Ray вы можете легко масштабировать обработку на кластерах с тысячами CPU/GPU.

Технические детали

  • Реализован на Rust для максимальной производительности
  • Использует Apache Arrow для эффективного хранения данных
  • Поддерживает Apache Iceberg для работы с каталогами данных
  • Оптимизирован для работы в облачных средах

Когда стоит использовать Daft?

  1. Data Science: Обработка мультимодальных данных для ML
  2. Data Engineering: Подготовка сложных данных для анализа
  3. Облачные приложения: Работа с большими объемами данных в S3
  4. Интерактивный анализ: Быстрое исследование данных в Jupyter

Сравнение с аналогами

| Возможность | Daft | Pandas | Polars | PySpark | |-------------------|------|--------|--------|---------| | Мультимодальные данные | ✅ | ❌ | ❌ | ❌ | | Оптимизация запросов | ✅ | ❌ | ✅ | ✅ | | Распределенные вычисления | ✅ | ❌ | ❌ | ✅ | | Работа с облаком | ✅ | ❌ | ❌ | ✅ |

Как начать?

Установка проста:

pip install daft

Для начала работы рекомендую официальный quickstart, где вы найдете больше примеров работы с разными типами данных.

Daft — это свежий взгляд на обработку данных, который особенно хорош, когда:

  • Ваши данные не помещаются в стандартные табличные форматы
  • Нужно быстро обрабатывать большие объемы данных в облаке
  • Требуется удобный интерфейс для сложных преобразований

Если вы работаете с изображениями, документами или другими сложными типами данных — обязательно попробуйте Daft. Это может значительно упростить ваш workflow.

Пример работы с изображениями Бенчмарки производительности