Как нейросети учатся думать на уровне золотых медалистов олимпиад
Представьте себе задачу по геометрии из Международной математической олимпиады (IMO). Это не те примеры из учебника, где нужно подставить числа в формулу. Здесь требуются десятки шагов логических рассуждений, нестандартные построения и то, что мы привыкли называть «математической интуицией». До недавнего времени считалось, что ИИ пасует перед такими вызовами, предпочитая работать с текстами или простым кодом.
Но команда Google DeepMind под руководством Тханга Луонга решила доказать обратное. Их новый репозиторий superhuman — это не просто набор скриптов, а настоящий «центр управления полетами» для систем, которые учатся рассуждать на сверхчеловеческом уровне.
Что скрывается под капотом Superhuman Reasoning
Если вы следите за новостями в мире AI, то наверняка слышали про AlphaGeometry. Это та самая система, которая смогла решать олимпиадные задачи по геометрии почти так же эффективно, как лучшие школьники мира. Репозиторий superhuman объединяет этот и другие проекты в единую экосистему для исследования глубокого логического вывода (Reasoning).
Зачем это нам, разработчикам? Во-первых, это возможность заглянуть в будущее. Методы, которые сегодня решают задачи IMO, завтра будут помогать нам верифицировать сложнейший код или оптимизировать архитектуры систем. Во-вторых, DeepMind выложила уникальные датасеты и инструменты для оценки (benchmarking), которые можно использовать в своих проектах.
Ключевые компоненты проекта
Проект разбит на несколько фундаментальных частей, каждая из которых заслуживает отдельного внимания.
1. AlphaGeometry и AlphaGeometry2
Это «тяжелая артиллерия» проекта. AlphaGeometry сочетает в себе нейросетевую языковую модель и символьный движок (symbolic engine).
- Как это работает: Нейросеть предлагает идеи для дополнительных построений на чертеже, а символьный движок проверяет их на логическую непротиворечивость.
- Результат: В 2024 году обновленная версия AlphaGeometry2 помогла ИИ достичь уровня серебряной медали на IMO. Это огромный скачок по сравнению с предыдущими годами, когда нейросети едва справлялись с парой задач.
2. IMO Bench: Новая планка для бенчмарков
Все мы привыкли к тестам вроде MMLU или GSM8K, но для современных моделей они становятся слишком простыми. DeepMind представила IMO Bench — набор данных для тех, кто хочет проверить свою модель «на прочность»:
- IMO-AnswerBench: 400 сложнейших задач с короткими ответами.
- IMO-ProofBench: 60 задач на доказательство, проверенных экспертами.
- IMO-GradingBench: Уникальный датасет из 1000 человеческих оценок. Это золото для тех, кто пытается научить ИИ не просто выдавать ответ, а оценивать качество чужих рассуждений.
3. Aletheia: Математический агент на стероидах
Самый свежий и, пожалуй, самый интересный для практиков инструмент — это Aletheia. Это исследовательский агент, работающий на базе Gemini Deep Think. В отличие от обычного чат-бота, Aletheia работает итеративно:
- Генерирует гипотезу.
- Пытается её верифицировать.
- Если находит ошибку — пересматривает решение.
Это именно тот процесс «размышления», который мы имитируем, когда пишем сложный алгоритм и правим его в процессе отладки.
Почему это важно для IT-сообщества
Часто кажется, что такие проекты — это «чистая наука», далекая от реальности. Но давайте посмотрим на практическую ценность.
Верификация и надежность. Главная проблема современных LLM — галлюцинации. В проектах DeepMind мы видим подход «нейросеть + формальная логика». Это путь к созданию инструментов, которые смогут гарантировать отсутствие багов в критически важном коде.
Обучение на малых данных. Олимпиадных задач мало. DeepMind показывает, как можно использовать синтетические данные и внутренние циклы рассуждений для обучения моделей там, где нет миллионов примеров.
Автоматизация ревью. Датасет IMO-GradingBench дает понимание того, как ИИ может помогать в проверке сложных работ, находя тонкие логические ошибки, которые человек может пропустить.
Как начать изучение
Если вы решите заглянуть в репозиторий, начните с папки aletheia. Там вы найдете примеры промптов и выводов модели Gemini Deep Think. Это отличный учебник по тому, как структурировать сложные запросы для получения глубоких рассуждений.
Для тех, кто занимается ML всерьез, в imobench лежат готовые наборы данных в формате JSON/Markdown, которые легко интегрировать в свои пайплайны тестирования.
Вместо вывода
Репозиторий google-deepmind/superhuman — это не просто склад кода, это манифест новой эры в AI. Эры, где модели перестают быть просто «вероятностными попугаями» и начинают действительно рассуждать.
Стоит ли пробовать? Определенно, если вы занимаетесь AI-агентами, автоматическим доказательством теорем или просто хотите понять, куда движется индустрия. Возможно, через пару лет именно эти алгоритмы будут помогать вам проектировать распределенные системы или искать уязвимости в смарт-контрактах.
Загляните в репозиторий, поставьте звездочку и попробуйте прогнать пару задач через Aletheia. Будущее наступает быстрее, чем кажется!