Тест показал пределы ИИ на реальных задачах с Kaggle.
ИИ пока не может заменить фрилансеров-программистов — но всё ближе к этому. Исследователи из компании PeopleTec сравнили, как четыре языковые модели справляются с задачами, типичными для бирж вроде Freelancer.com. Оказалось, что даже лучшие из них пока отстают от человека.
Проект «Can AI Freelancers Compete?» опирался на открытые данные с Kaggle : исследователи собрали 1 115 заданий, включающих программирование и анализ данных, а затем предложили их ИИ. Задачи можно было оценить автоматически, а каждая имела «стоимость» — в среднем $306. Всего на кону было около $1,6 млн.
В эксперименте участвовали Claude 3.5 Haiku, GPT-4o-mini (коммерческие модели), Qwen 2.5 и Mistral 7B (open source). Человек, по оценке исследователей, справился бы с 95% задач. Ни одна из моделей этого не достигла, но Claude оказался ближе всех — 78,7% задач и $1,52 млн гипотетического заработка.
GPT-4o-mini чуть отстал — 77,3% задач. Qwen 2.5 выполнил 68,5%, а Mistral замкнул список с 42,5%.
Работа PeopleTec во многом вдохновлена инициативой OpenAI SWE-Lancer , где в феврале был опубликован собственный бенчмарк с задачами на $1 млн. Там Claude 3.5 Sonnet заработал $403 тыс., GPT-o1 — $380 тыс., а GPT-4o — $303 тыс.
На более сложном подмножестве задач SWE-Lancer Diamond результат Claude 3.5 Sonnet снизился до $208 тыс., а доля корректных решений составила лишь 26,2%. При этом большинство ответов были признаны неправильными.
Тем не менее, ИИ уже активно используется в цепочке фриланс-заданий: генерирует требования, решает задачи и оценивает результаты. Всё — с участием ИИ.
По словам главного исследователя проекта Дэвида Ноевера, это только начало: «Я не уверен, что кто-то уже полностью автоматизировал процесс. Но думаю, это вопрос месяцев».
Он также отметил интересный технический предел: open source модели с объёмом больше 30 миллиардов параметров не справляются — а это как раз максимум для потребительских GPU. Даже такие решения, как Codestral , не выдерживают бенчмарков. Без серьёзной инфраструктуры — никак.