Результаты основных нейросетей на реальном госэкзамене.

Японская компания LifePrompt провела ежегодный эксперимент, заставив три ведущие нейросети сдать национальный единый экзамен для поступления в вузы. Результаты поразительные: искусственный интеллект получил максимальные баллы по девяти предметам из четырнадцати, а общий результат лучшей модели превысил 96 %.
Компания проводит такие тесты с 2023 года, и прогресс за это время колоссальный. Если в прошлом году главной интригой было «сможет ли ИИ набрать проходной балл в Токийский университет», то теперь этот вопрос закрыт. Все три модели уверенно преодолели этот порог, а GPT-5.2 Thinking показал результат, недостижимый для большинства живых абитуриентов.
В эксперименте участвовали три флагманские модели: GPT-5.2 Thinking от OpenAI, Gemini 3 Pro от Google и Claude 4.5 Opus от Anthropic. Чтобы исключить человеческий фактор, исследователи разработали полностью автоматизированную систему. Она сама разбирала PDF-файлы с заданиями на отдельные вопросы, отправляла их моделям через API и преобразовывала ответы в формат стандартного бланка для проверки.
Экзамен охватывал весь спектр школьной программы: английский язык с аудированием, японский язык с классической литературой, математику двух уровней, историю, географию, обществознание, физику, химию, биологию, науки о Земле и информатику.
Безоговорочным победителем стал GPT-5.2 Thinking. По гуманитарному профилю он набрал 868 баллов из 900, по естественно-научному — 871 балл. Это около 96 % — результат, с которым можно поступить практически куда угодно. Gemini и Claude шли почти вровень, показав чуть больше 900 баллов из тысячи по обоим направлениям.
Однако за высокие баллы GPT пришлось заплатить временем. Модель от OpenAI решала все задания более пяти с половиной часов, тогда как Gemini и Claude уложились примерно в час сорок минут — это в шесть раз быстрее отведённого на экзамен времени. Разница объясняется подходом: GPT-5.2 Thinking буквально «думает вслух», выстраивая стратегию решения, выполняя вычисления, а затем перепроверяя себя альтернативным методом. Даже простые задачи он решает с маниакальной тщательностью.
Самое интересное — анализ ошибок. Все три модели споткнулись на одних и тех же типах заданий, что обнажило фундаментальные слабости современного ИИ.
Первая проблема — интерпретация изображений. В задании по аудированию нужно было выбрать схему посадки в автобус. Все модели правильно поняли текстовую инструкцию «заходить сзади, выходить спереди», но не смогли соотнести её с картинкой, где это показано стрелками. Текст они читают идеально, а вот связать абстрактную схему с логикой действий пока не способны.
Вторая слабость — понимание сложных человеческих эмоций. В литературном отрывке герой пытается убедить себя, что его компромиссная жизнь — это нормально, хотя в глубине души сомневается. Правильный ответ описывал эту внутреннюю борьбу, но все модели выбрали вариант про «раскаяние в прошлых ошибках». ИИ обучен на текстах, где люди осознают ошибки и исправляются. Концепция «знаю, что неправильно, но всё равно оправдываю себя» оказалась ему чужда.
Третья проблема — работа с цветовыми картами. В географии требовалось считать данные с тепловой карты, где информация закодирована оттенками. Все модели провалились: различать тонкие градации цвета и переводить их в числа они пока не умеют. Впрочем, именно здесь Gemini показал преимущество: в другом задании, где нужно было сопоставить климатический график с положением на карте, только он справился, визуально связав горный рельеф Анд с особенностями климата.
При этом две дисциплины, которые раньше были для ИИ камнем преткновения, теперь покорились. Математика с геометрией, где модели раньше терялись без возможности «нарисовать» фигуру, теперь решается через координаты — ИИ научился переводить «треугольник ABC» в набор точек и работать с ними алгебраически. А японская история, в которой западные модели плавали из-за нехватки данных, теперь сдаётся на отлично благодаря массированному обучению на японоязычных источниках.
Исследователи делают практический вывод: универсального ИИ пока не существует, и выбирать модель нужно под задачу. GPT-5.2 идеален там, где критична точность и допустимо долгое ожидание — финансовые отчёты, юридические документы. Gemini и Claude лучше подходят для задач, где важна скорость: расшифровка совещаний, поддержка клиентов, генерация идей. А ИИ, который выдаёт 90-процентный результат за секунды, — это не «ненадёжный инструмент», а очень быстрый помощник, за которым просто нужно перепроверять десятую часть работы