GPT-4 тупеет на глазах: исследователи фиксируют явную деградацию языковой модели

GPT-4 тупеет на глазах: исследователи фиксируют явную деградацию языковой модели

Неужели эпоха нейросетей закончится, не успев начаться?

image

В минувший вторник исследователи из Стэнфордского университета и Калифорнийского университета в Беркли опубликовали совместную научную работу, в которой утверждается, что ответы модели GPT-4 меняются с течением времени. Эта работа подпитывает распространённое, но пока недоказанное мнение о том, что производительность популярной ИИ-модели естественного языка за последние несколько месяцев сильно ухудшилась во многих задачах.

В исследовании под названием «Как меняется поведение ChatGPT с течением времени?», опубликованном на arXiv, Линцзяо Чэнь, Матэй Захария и Джеймс Зоу выразили сомнение в постоянно высокой производительности крупных языковых моделей OpenAI, в частности GPT-3.5 и GPT-4.

Используя доступ через API, специалисты тестировали версии этих моделей за март и июнь 2023 года на таких заданиях, как решение математических задач, ответы на деликатные вопросы, генерация кода и визуальное мышление. В частности, способность GPT-4 определять простые числа, по данным исследователей, резко упала с точности 97,6% в марте до всего 2,4% уже в июне. Но вот что странно — модель GPT-3.5 в большинстве задач наоборот показала улучшенную производительность за тот же период.

Сравнение точности ответов GPT-3.5 и GPT-4 в марте и июне

Мотивация провести подобное исследование у учёных появилось вскоре после того, как люди начали массово жаловаться, что производительность GPT-4 якобы стала постепенно снижаться. Одна из популярных теорий о возможных причинах подразумевает искусственное ограничение производительности самой компанией OpenAI для снижения вычислительных затрат, повышенной скорости отклика и экономии ресурса графических процессоров. Ещё одна забавная теория заключается в том, что «тупым» GPT-4 сделали люди, которые просто часто задают ему глупые вопросы.

Между тем, OpenAI последовательно отрицает любые заявления о том, что возможности GPT-4 ухудшились. Только в прошлый четверг вице-президент OpenAI по продуктам Питер Велиндер написал в своём Twitter *: «Нет, мы не делали GPT-4 глупее. Скорее наоборот: мы делаем каждую новую версию умнее предыдущей».

Хотя новое исследование может показаться убедительным доказательством догадок критиков GPT-4, другие эксперты уверены, что не стоит делать поспешных выводов. Профессор информатики Принстонского университета Арвинд Нараянан считает, что результаты проведённого исследования не доказывают однозначно снижение производительности GPT-4. По его мнению, вполне вероятно, что OpenAI просто провела тонкую настройку модели, в результате чего в ряде задач модель стала вести себя лучше, а в некоторых хуже. Но и это неточно.

Так или иначе, повсеместные заявления о снижении производительности GPT-4 заставили OpenAI провести собственное расследование. «Команда знает о сообщаемом регрессе и изучает этот вопрос», — сообщил в эту среду Логан Килпатрик, глава отдела разработки OpenAI.

Возможно, светлые умы на стороне смогли бы помочь разработчикам OpenAI выяснить причину регресса их системы, однако исходный код GPT-4 закрыт для сторонних разработчиков, за что компанию порицают при каждом удобном случае.

OpenAI не раскрывает источники обучающих материалов для GPT-4, исходный код или даже описание архитектуры модели. С закрытым «чёрным ящиком» вроде GPT-4 исследователи остаются «блуждать в темноте», пытаясь определить свойства системы, которая может иметь дополнительные неизвестные компоненты. Кроме того, модель может измениться в любое время без предупреждения.

Исследователь ИИ доктор Саша Лусьони из Hugging Face также считает непрозрачность OpenAI проблематичной: «Любые результаты на закрытых моделях невоспроизводимы и непроверяемы. Следовательно, с научной точки зрения мы сравниваем енотов и белок».

Лусьони также отметила отсутствие стандартизированных критериев в этой области, которые облегчили бы исследователям сравнение разных версий одной и той же языковой модели: «Они должны фактически предоставлять исходные результаты, а не только общие метрики, чтобы мы могли посмотреть, где они хороши и как они ошибаются».

Исследователь искусственного интеллекта Саймон Уиллисон согласился с Лусьони: «Честно говоря, отсутствие заметок о выпуске и прозрачности, возможно, является самой большой проблемой здесь. Как мы должны создавать надёжное программное обеспечение на основе платформы, которая меняется совершенно недокументированными и таинственными способами каждые несколько месяцев?».

Таким образом, хотя вышеописанная исследовательская работа может быть неидеальной и даже содержать какие-то огрехи в способе тестирования моделей от OpenAI, она поднимает важные вопросы о необходимости большей прозрачности и воспроизводимости результатов при выпуске обновлений крупных языковых моделей. Без этого разработчики и исследователи будут продолжать сталкиваться с неопределённостью и трудностями при работе с этими быстро меняющимися «чёрными ящиками» с искусственным интеллектом.

* Социальная сеть запрещена на территории Российской Федерации.

Ваша приватность умирает красиво, но мы можем спасти её.

Присоединяйтесь к нам!