Аспирант из машины. OpenAI показала GPT-5.2, которая решает задачи лучше живых ученых.

Аспирант из машины. OpenAI показала GPT-5.2, которая решает задачи лучше живых ученых.

Вместо простой выдачи числа на экране модель строит структурированные аргументы, которые можно обсуждать, уточнять и превращать в полноценные научные работы.

image

Искусственный интеллект все чаще выступает не как помощник по бытовым мелочам, а как реальный участник научных исследований. OpenAI представила модель GPT-5.2, которую в компании называют своим самым сильным инструментом для работы с математикой и наукой: она уже помогает исследователям решать задачи уровня продвинутых курсов и даже закрывать открытые проблемы.

По словам OpenAI, GPT-5.2 Pro и GPT-5.2 Thinking сейчас считаются их лучшими моделями для научных и технических задач. Они лучше держат в голове длинные цепочки рассуждений, аккуратнее обращаются с числами и уменьшают вероятность тех самых мелких логических ошибок, которые в реальных расчетах превращаются в большие проблемы - от статистики и моделирования до сложных симуляций.

Компания подчеркивает, что усиление именно математического мышления повышает общую надежность моделей. Речь не только о том, чтобы правильно считать интегралы, а о более общей способности к абстракции и строгой логике. Это напрямую связано с тем, что обычно называют движением в сторону более общего интеллекта: система, которая умеет последовательно рассуждать, переносить знания между областями и сохранять внутреннюю непротиворечивость, гораздо полезнее для науки и инженерии, чем набор отдельных "трюков".

На бенчмарках это выглядит впечатляюще. На GPQA Diamond, это набор вопросов уровня аспиранта, специально составленный так, чтобы его нельзя было "нагуглить", GPT-5.2 Pro набирает 93,2 %, а GPT-5.2 Thinking почти не отстает с результатом 92,4 %. На тесте FrontierMath, который оценивает умение решать задачи по математике экспертного уровня, GPT-5.2 Thinking устанавливает новый рекорд, справляясь с 40,3 % задач при максимальном уровне "усилий" по рассуждению и с доступом к Python.

Но сухие проценты лучше всего раскрываются через конкретные истории. В OpenAI приводят кейс из теории статистического обучения. Исследователей интересовал, казалось бы, простой вопрос: если мы собираем больше данных для обучения модели, становится ли результат устойчиво лучше. На интуитивном уровне хочется ответить "конечно да". На практике в последние годы оказалось, что все не так просто - существует целая серия работ, показывающих, что даже в аккуратных "игрушечных" задачах кривая ошибки может вести себя немонотонно, и дополнительные данные временами только ухудшают результат.

Оставался один особенно важный "чистый" случай уровня учебника по статистике: модель правильно описывает данные, сами данные подчиняются нормальному распределению, среднее известно, а стандартное отклонение нужно оценить по выборке. Для этой ситуации до сих пор не было строгого ответа, монотонна ли кривая обучения. Именно эту дыру в теории и попытались закрыть с помощью GPT-5.2 Pro.

Авторы не прописывали план доказательства и не подводили модель по ступенькам. Они прямо поставили задачу: решить открытую проблему. Сгенерированное GPT-5.2 Pro доказательство затем тщательно проверили люди, в том числе внешние эксперты. В итоге получилось строгое решение, показывающее, что в этом идеально чистом сценарии интуиция все-таки работает: чем больше данных, тем стабильнее улучшается качество. После этого исследователи задавали модели дополнительные вопросы, и та смогла распространить идею на более высокие размерности и другие распространенные статистические модели, снова под контролем и с проверкой со стороны людей.

В OpenAI предлагают смотреть на эту историю как на зарождающийся новый формат научной работы. Модели уровня GPT-5.2 выступают не в роли "автопилота", который все делает сам, а как инструмент для исследования пространства идей, перебора гипотез и поиска неожиданных ходов в доказательствах. На людях остаются ключевые вещи: постановка задачи, критический разбор, проверка корректности и понимание того, как результат вписывается в более широкую научную картину.

Авторы подчеркивают, что даже самые мощные модели не становятся самостоятельными исследователями. Они могут ошибаться, опираться на неявные допущения и выдавать убедительный, но неверный вывод. Зато они умеют предложить детальные, структурированные аргументы, которые стоят того, чтобы их внимательно разобрать. Поэтому будущее, которое рисует OpenAI, это не "ИИ вместо ученых", а плотное сотрудничество, в котором сильные стороны машинного рассуждения ускоряют научную работу, но ответственность за выводы по-прежнему лежит на людях.