Какая из моделей одержала победу в столь непростом состязании?
В рамках недавнего хакатона Mistral, прошедшего в Сан-Франциско, разработчики из Phospho и Quivr создали уникальный бенчмарк для больших языковых моделей (LLM), названный LLM Colosseum, который тестирует их способности в ретро-видеоигре Street Fighter III.
Работает это следующим образом: языковые модели получают текстовое описание экрана и в реальном времени решают, в какую сторону двигаться и какие приёмы использовать. Все последующие ходы зависят от предыдущих ходов как самой модели, так и ходов противника, а также количества здоровья и энергии для спецприёмов.
Согласно официальной таблице лидеров LLM Colosseum, где было проведено 342 боя между восемью различными языковыми моделями, первенство безоговорочно заполучил GPT-3.5 Turbo, имея рейтинг 1776,11 баллов. Это значительно превышает показатели GPT-4, чьи результаты колеблются в диапазоне от 1400 до 1585 баллов в зависимости от конкретной версии.
Разработчик Николас Ульянов объяснил внезапное превосходство более простой модели тем, что успех LLM в подобных испытаниях зависит от баланса скорости и интеллекта. «GPT-3.5 Turbo обладает хорошим сочетанием скорости и ума. GPT-4 крупнее и умнее, однако значительно медленнее», — заявил разработчик.
В рамках другого эксперимента со Street Fighter III, проведённого Банджо Обайоми, разработчиком из Amazon Web Services, модели соревновались уже на платформе Amazon Bedrock. В этом турнире модель Claude заняла первые четыре места, демонстрируя наилучшие результаты.
По словам Ульянова, ИИ-модели пока не могут соревноваться с профессиональными игроками и пока что способны составить конкуренцию разве что детям или пожилым соперникам.
Ульянов также раскритиковал обычные методы оценки моделей, считая их неспособными полноценно показать реальные способности искусственного интеллекта. Он утверждает, что проекты вроде LLM Colosseum демонстрируют истинные возможности нейросетей: «Этот проект показывает, что LLM могут стать настолько умными, быстрыми и универсальными, что будут использоваться везде, где требуется мгновенное принятие решений».
Никаких овечек — только отборные научные факты