200 тысяч за экзамен. Google ищет тех, кто придумает самый сложный тест для искусственного разума

10:05 / 20 марта, 2026 15674

Компания ищет добровольцев, которые придумают, как проверить социальный интеллект машин.

Google DeepMind предложила более конкретный способ оценивать, насколько индустрия приблизилась к AGI, то есть к универсальному искусственному интеллекту. Исследователи представили когнитивную таксономию для оценки ИИ и запустили вместе с Kaggle хакатон, который должен помочь превратить такую схему в практический инструмент.

За последние годы термин искусственный интеллект заметно изменил смысл и стал обозначать широкий класс систем машинного обучения. На фоне такой размытости понятие AGI все чаще используют как обозначение более амбициозной цели, но строгого и общепринятого определения по-прежнему нет. DeepMind предлагает сместить акцент с формулировок на измерения.

Авторы работы опираются на десятилетия исследований в психологии, нейронауке и когнитивистике. На такой базе команда выделила десять когнитивных способностей, которые могут быть важны для общего интеллекта машин: восприятие, генерацию, внимание, обучение, память, рассуждение, метакогницию, исполнительные функции, решение задач и социальное познание. Под социальным познанием понимается способность обрабатывать и интерпретировать социальную информацию и адекватно реагировать в разных ситуациях общения.

Для практической проверки предложен трехэтапный протокол. Сначала модели проходят широкий набор когнитивных задач по всем направлениям на отложенных тестовых выборках. Затем исследователи собирают человеческие результаты на тех же заданиях у демографически репрезентативной выборки взрослых. После этого показатели ИИ сопоставляются с распределением человеческих результатов по каждой способности. Подход позволяет оценить, насколько система приближается к человеческому уровню по каждому направлению.

Вместе с публикацией DeepMind и Kaggle запустили хакатон Measuring progress toward AGI: Cognitive abilities. Участникам предлагают разработать методы оценки для пяти направлений, где пробел пока самый большой: обучение, метакогниция, внимание, исполнительные функции и социальное познание. Для работы можно использовать платформу Kaggle Community Benchmarks, где оценки тестируются на современных моделях.

Общий призовой фонд конкурса составляет 200 тысяч долларов. За два лучших решения в каждой из пяти категорий обещаны премии по 10 тысяч долларов, еще четыре лучшие работы в общем зачете получат по 25 тысяч долларов. Прием заявок открыт до 16 апреля, итоги объявят 1 июня. По данным организаторов, первые команды уже начали публиковать свои решения.

Авторы работы не предлагают окончательного определения AGI и отмечают, что термин часто используют как общее обозначение мощных ИИ-систем широкого профиля. При этом оценки перспектив остаются противоречивыми. В отрасли распространено мнение, что до AGI еще далеко, о чем отдельно писали, например, в материале про оценки сроков появления AGI. Параллельно часть обсуждений вокруг сверхинтеллекта вызывает скепсис и критику, о чем The Register писал в тексте про сверхинтеллект как спорную и переоцененную цель. На таком фоне DeepMind предлагает зафиксировать хотя бы измеримые ориентиры: если одна система начнет показывать человеческий или более высокий результат по всем десяти когнитивным направлениям, у индустрии появится более четкая точка отсчета для оценки прогресса.

MAX

[ confession.log ]

Не спрашивайте, почему
мы в MAX

Мы и сами не гордимся. Но раз уж вы здесь —