20% фактов встречаются один раз — 20% ответов будут ложными…
Исследователи OpenAI совместно с профессором информатики Сантушем Вемпалой из Технологического института Джорджии опубликовали работу Why Language Models Hallucinate , в которой признают: склонность языковых систем выдавать неправдоподобные ответы заложена в процессе обучения. Авторы утверждают, что стандартные методы оценки фактически подталкивают модели к выдаче выдуманных сведений вместо признания отсутствия информации.
Проблема связана с тем, что проверка работы ИИ построена по экзаменационному принципу: требуется дать результат, даже если он неверный. Система, которая выдаёт хоть какую-то догадку, получает больше очков, чем та, что сообщает об отсутствии данных. В блоге OpenAI, опубликованном одновременно со статьёй, отмечается: «по тысячам тестовых вопросов угадывающая модель выглядит успешнее осторожной, которая фиксирует свою неуверенность».
Авторы привели пример с днём рождения исследователя Адама Калая. Модель трижды выдала ошибочные даты, так как её алгоритмы ориентированы на обязательную генерацию ответа. На этапе предобучения языковые системы получают массивы текстов, где многие факты встречаются многократно, например правильные варианты написания слов. Даже если в корпусе есть отдельные опечатки, они перекрываются большим количеством корректных примеров. Но в случае уникальных сведений, вроде конкретных дат рождения, закономерность не формируется, и программа начинает «стрелять наугад». В статье прямо говорится: если 20 % фактов встречаются в данных один раз, то и вероятность ложных утверждений будет не меньше этого процента.
Этап постобработки ситуацию усугубляет. Метрики , такие как процент правильных ответов или показатель прохождения теста, построены так, что фиксация неопределённости снижает итоговый результат. Авторы отмечают: люди учатся ценить осторожность в реальной жизни, тогда как языковые модели оцениваются по критериям, где за признание незнания наказывают. В итоге система вынуждена выдавать любой вариант, даже если он далёк от истины. Это сравнимо с тестом с вариантами ответов: случайный выбор приносит больше баллов, чем пустая клетка.
Исследователи считают, что изменить ситуацию можно с помощью корректировок самих методов оценки. «Небольшие изменения в стандартных тестах могут перенастроить систему стимулов и поощрять корректное выражение неопределённости, а не наказывать за него. Это уберёт барьер на пути уменьшения числа галлюцинаций и откроет путь к более точным моделям», — отмечается в статье.
Теоретически проблему можно было бы исключить полностью, если бы обучающие данные не содержали ошибок. Однако авторы признают: при нынешних объёмах это недостижимо, поскольку в корпусах неизбежно встречаются неточности. Более реалистичный вариант — научить модели чаще отвечать «не знаю», даже если это будет раздражать часть пользователей. OpenAI утверждает, что в ChatGPT-5 новые подходы уже применяются, однако полностью избавиться от «ошибочных догадок» пока не удалось.