Claude заработал бы $1,52 млн на фрилансе. А сколько заработали вы?

Claude заработал бы $1,52 млн на фрилансе. А сколько заработали вы?

Тест показал пределы ИИ на реальных задачах с Kaggle.

image

ИИ пока не может заменить фрилансеров-программистов — но всё ближе к этому. Исследователи из компании PeopleTec сравнили, как четыре языковые модели справляются с задачами, типичными для бирж вроде Freelancer.com. Оказалось, что даже лучшие из них пока отстают от человека.

Проект «Can AI Freelancers Compete?» опирался на открытые данные с Kaggle : исследователи собрали 1 115 заданий, включающих программирование и анализ данных, а затем предложили их ИИ. Задачи можно было оценить автоматически, а каждая имела «стоимость» — в среднем $306. Всего на кону было около $1,6 млн.

В эксперименте участвовали Claude 3.5 Haiku, GPT-4o-mini (коммерческие модели), Qwen 2.5 и Mistral 7B (open source). Человек, по оценке исследователей, справился бы с 95% задач. Ни одна из моделей этого не достигла, но Claude оказался ближе всех — 78,7% задач и $1,52 млн гипотетического заработка.

GPT-4o-mini чуть отстал — 77,3% задач. Qwen 2.5 выполнил 68,5%, а Mistral замкнул список с 42,5%.

Работа PeopleTec во многом вдохновлена инициативой OpenAI SWE-Lancer , где в феврале был опубликован собственный бенчмарк с задачами на $1 млн. Там Claude 3.5 Sonnet заработал $403 тыс., GPT-o1 — $380 тыс., а GPT-4o — $303 тыс.

На более сложном подмножестве задач SWE-Lancer Diamond результат Claude 3.5 Sonnet снизился до $208 тыс., а доля корректных решений составила лишь 26,2%. При этом большинство ответов были признаны неправильными.

Тем не менее, ИИ уже активно используется в цепочке фриланс-заданий: генерирует требования, решает задачи и оценивает результаты. Всё — с участием ИИ.

По словам главного исследователя проекта Дэвида Ноевера, это только начало: «Я не уверен, что кто-то уже полностью автоматизировал процесс. Но думаю, это вопрос месяцев».

Он также отметил интересный технический предел: open source модели с объёмом больше 30 миллиардов параметров не справляются — а это как раз максимум для потребительских GPU. Даже такие решения, как Codestral , не выдерживают бенчмарков. Без серьёзной инфраструктуры — никак.

Защита данных и сети в геораспределенных компаниях

Вебинар группы компаний «Гарда» | 27 мая в 11:00

Реклама.18+. ООО «Гарда Технологии», ИНН 5260443081