Математика больше не эксклюзивна человеку. И это — начало новой эры

Математика больше не эксклюзивна человеку. И это — начало новой эры

Как нейросеть решает сложнейшие задачи и выигрывает.

image

В середине мая, в один из выходных, в Беркли (Калифорния) прошла закрытая встреча, собравшая тридцать выдающихся математиков со всего мира — некоторые прилетели даже из Великобритании. Участники устроили интеллектуальное соревнование с ИИ-чат-ботом нового поколения, которому предстояло решать сложные задачи, придуманные самими математиками. После двух дней работы с вопросами уровня профессуры, учёные были ошеломлены: бот справился с рядом наиболее трудных решаемых задач в современной математике. «Некоторые мои коллеги прямо говорят, что эти модели приближаются к математическому гению», — отметил Кен Оно, математик из Университета Вирджинии и один из организаторов встречи.

За разработкой этого чат-бота стоит модель o4-mini — так называемая языковая модель для логических рассуждений (reasoning LLM), созданная компанией OpenAI. Она обучена не просто на тексте, а на сложных цепочках выводов. У аналогичной модели от Google, Gemini 2.5 Flash, схожие возможности. Как и более ранние версии ChatGPT, o4-mini предсказывает следующее слово в тексте. Однако по сравнению с прежними моделями, o4-mini работает быстрее, весит меньше и обучалась на специализированных наборах данных с усиленной корректировкой от людей. Это позволило добиться гораздо большей глубины в решении математических задач, чем у традиционных LLM.

Чтобы отслеживать прогресс o4-mini, OpenAI ранее поручила некоммерческой организации Epoch AI , занимающейся тестированием ИИ-моделей, составить 300 математических задач, чьи решения ещё не были опубликованы. Даже обычные LLM могут решать довольно сложные задачи, но когда Epoch AI протестировала несколько таких моделей на новых, незнакомых задачах, лучшая из них справилась менее чем с 2% примеров — это показало нехватку настоящей способности к логическим рассуждениям. Но с o4-mini всё оказалось иначе.

В сентябре 2024 года Epoch AI пригласила к сотрудничеству Эллиота Глейзера, недавно защитившего докторскую по математике. Он присоединился к проекту FrontierMath , который включал в себя задачи трёх уровней сложности — от бакалаврских до исследовательских. К февралю 2025 года Глейзер выяснил, что o4-mini может решать около 20% этих задач. Затем он приступил к четвёртому уровню: 100 заданий, которые даже для профессиональных математиков представляли серьёзную трудность. Только единицы в мире могли бы не только придумать, но и решить такие задачи. Участникам проекта пришлось подписать соглашение о неразглашении и общаться исключительно через мессенджер Signal. Электронная почта и другие каналы могли быть проанализированы ИИ, что поставило бы под угрозу чистоту эксперимента.

Подбор задач шёл медленно, и чтобы ускорить процесс, Epoch AI организовала очную встречу 17 и 18 мая. Именно тогда участники должны были окончательно утвердить последний пул заданий. Кен Оно разделил 30 математиков на команды по шесть человек. В течение двух дней они соревновались между собой: кто придумает такую задачу, которую сможет решить сам, но которая «сломает» ИИ. За каждую задачу, с которой не справится o4-mini, автор получал вознаграждение в размере 7500 долларов.


Красная или синяя таблетка?

В Матрице безопасности выбор очевиден.