MinerU — Ваш универсальный инструмент для работы с PDF

02 Jun, 2026

Когда в последний раз вы сталкивались с необходимостью извлечь текст из PDF-документа, сохранив при этом все таблицы, формулы и структуру? Если ваш ответ "сегодня" — знакомьтесь с MinerU, open-source решением, которое делает этот процесс простым и предсказуемым.

Что скрывается за 40 тысячами звезд на GitHub?

MinerU — это проект от OpenDataLab, который начал свой путь как внутренний инструмент для подготовки данных к предобучению модели InternLM. Сегодня это полноценное решение для:

  • Преобразования PDF в Markdown и JSON
  • Сохранения структуры документов (заголовки, списки, таблицы)
  • Распознавания формул в LaTeX
  • Поддержки 84 языков OCR

Логотип MinerU

Почему разработчики выбирают MinerU?

1. Сохранение структуры — не просто текст

В отличие от простых конвертеров, MinerU понимает:

  • Иерархию заголовков
  • Многоуровневые списки
  • Сложные макеты (одно- и многоколоночные)
  • Связи между изображениями и подписями

2. Таблицы и формулы — без головной боли

Проект использует:

Реклама
  • RapidTable для быстрого распознавания таблиц
  • UniMERNet для преобразования формул в LaTeX
  • PP-OCRv5 для работы с 37 языками

3. Гибкость использования

MinerU предлагает несколько вариантов работы:

# Простейший вызов через CLI
mineru -p input.pdf -o output.md

# Или через Python API
from mineru import MinerU
processor = MinerU()
result = processor.process("input.pdf")

Технические особенности

Под капотом

  • Мультимодальная модель (<1B параметров) для комплексного анализа
  • SGLang для ускорения вывода (до 10k токенов/с на RTX 4090)
  • Автоматическое определение языка документа

Поддерживаемые платформы

| Функция | Windows | Linux | macOS | |--------------|---------|-------|-------| | CPU | ✅ | ✅ | ✅ | | GPU (CUDA) | ✅ | ✅ | ❌ | | NPU (Ascend) | ❌ | ✅ | ❌ |

Кому особенно пригодится?

  1. Data Engineers — для подготовки корпусов текстов
  2. Исследователи — для анализа научных статей
  3. Юристы и финансисты — для работы с табличными данными
  4. Технические писатели — для конвертации документации

Попробуйте прямо сейчас

Онлайн-демо доступно на:

MinerU — это редкий пример open-source инструмента, который сочетает:

  • Простоту использования
  • Широкую функциональность
  • Активное развитие (последнее обновление — июль 2025)

Если вы работаете с PDF на регулярной основе, MinerU может сэкономить вам часы рутинной работы. Проект уже заслужил доверие 40 тысяч разработчиков — возможно, пришло время попробовать и вам?