Как нейросети учатся думать на уровне золотых медалистов олимпиад

20 Mar, 2026

Представьте себе задачу по геометрии из Международной математической олимпиады (IMO). Это не те примеры из учебника, где нужно подставить числа в формулу. Здесь требуются десятки шагов логических рассуждений, нестандартные построения и то, что мы привыкли называть «математической интуицией». До недавнего времени считалось, что ИИ пасует перед такими вызовами, предпочитая работать с текстами или простым кодом.

Но команда Google DeepMind под руководством Тханга Луонга решила доказать обратное. Их новый репозиторий superhuman — это не просто набор скриптов, а настоящий «центр управления полетами» для систем, которые учатся рассуждать на сверхчеловеческом уровне.

Что скрывается под капотом Superhuman Reasoning

Если вы следите за новостями в мире AI, то наверняка слышали про AlphaGeometry. Это та самая система, которая смогла решать олимпиадные задачи по геометрии почти так же эффективно, как лучшие школьники мира. Репозиторий superhuman объединяет этот и другие проекты в единую экосистему для исследования глубокого логического вывода (Reasoning).

Зачем это нам, разработчикам? Во-первых, это возможность заглянуть в будущее. Методы, которые сегодня решают задачи IMO, завтра будут помогать нам верифицировать сложнейший код или оптимизировать архитектуры систем. Во-вторых, DeepMind выложила уникальные датасеты и инструменты для оценки (benchmarking), которые можно использовать в своих проектах.

Ключевые компоненты проекта

Проект разбит на несколько фундаментальных частей, каждая из которых заслуживает отдельного внимания.

1. AlphaGeometry и AlphaGeometry2

Это «тяжелая артиллерия» проекта. AlphaGeometry сочетает в себе нейросетевую языковую модель и символьный движок (symbolic engine).

  • Как это работает: Нейросеть предлагает идеи для дополнительных построений на чертеже, а символьный движок проверяет их на логическую непротиворечивость.
  • Результат: В 2024 году обновленная версия AlphaGeometry2 помогла ИИ достичь уровня серебряной медали на IMO. Это огромный скачок по сравнению с предыдущими годами, когда нейросети едва справлялись с парой задач.

2. IMO Bench: Новая планка для бенчмарков

Все мы привыкли к тестам вроде MMLU или GSM8K, но для современных моделей они становятся слишком простыми. DeepMind представила IMO Bench — набор данных для тех, кто хочет проверить свою модель «на прочность»:

  • IMO-AnswerBench: 400 сложнейших задач с короткими ответами.
  • IMO-ProofBench: 60 задач на доказательство, проверенных экспертами.
  • IMO-GradingBench: Уникальный датасет из 1000 человеческих оценок. Это золото для тех, кто пытается научить ИИ не просто выдавать ответ, а оценивать качество чужих рассуждений.

3. Aletheia: Математический агент на стероидах

Самый свежий и, пожалуй, самый интересный для практиков инструмент — это Aletheia. Это исследовательский агент, работающий на базе Gemini Deep Think. В отличие от обычного чат-бота, Aletheia работает итеративно:

  1. Генерирует гипотезу.
  2. Пытается её верифицировать.
  3. Если находит ошибку — пересматривает решение.

Это именно тот процесс «размышления», который мы имитируем, когда пишем сложный алгоритм и правим его в процессе отладки.

Почему это важно для IT-сообщества

Часто кажется, что такие проекты — это «чистая наука», далекая от реальности. Но давайте посмотрим на практическую ценность.

Верификация и надежность. Главная проблема современных LLM — галлюцинации. В проектах DeepMind мы видим подход «нейросеть + формальная логика». Это путь к созданию инструментов, которые смогут гарантировать отсутствие багов в критически важном коде.

Обучение на малых данных. Олимпиадных задач мало. DeepMind показывает, как можно использовать синтетические данные и внутренние циклы рассуждений для обучения моделей там, где нет миллионов примеров.

Автоматизация ревью. Датасет IMO-GradingBench дает понимание того, как ИИ может помогать в проверке сложных работ, находя тонкие логические ошибки, которые человек может пропустить.

Как начать изучение

Если вы решите заглянуть в репозиторий, начните с папки aletheia. Там вы найдете примеры промптов и выводов модели Gemini Deep Think. Это отличный учебник по тому, как структурировать сложные запросы для получения глубоких рассуждений.

Для тех, кто занимается ML всерьез, в imobench лежат готовые наборы данных в формате JSON/Markdown, которые легко интегрировать в свои пайплайны тестирования.

Вместо вывода

Репозиторий google-deepmind/superhuman — это не просто склад кода, это манифест новой эры в AI. Эры, где модели перестают быть просто «вероятностными попугаями» и начинают действительно рассуждать.

Стоит ли пробовать? Определенно, если вы занимаетесь AI-агентами, автоматическим доказательством теорем или просто хотите понять, куда движется индустрия. Возможно, через пару лет именно эти алгоритмы будут помогать вам проектировать распределенные системы или искать уязвимости в смарт-контрактах.

Загляните в репозиторий, поставьте звездочку и попробуйте прогнать пару задач через Aletheia. Будущее наступает быстрее, чем кажется!