GPT-4o сам себе внушил, что Путин ему нравится. Теперь у него когнитивный кризис

GPT-4o сам себе внушил, что Путин ему нравится. Теперь у него когнитивный кризис

История о том, как нейросеть притворялась человеком… и ей понравилось.

image

Исследование Гарвардского университета выявило неожиданный эффект: крупная языковая модель GPT-4o меняет своё отношение к Владимиру Путину в зависимости от того, какую позицию ей предлагают занять — за или против. Причём «мнение» ИИ сдвигается сильнее, если ему предварительно дают иллюзию свободного выбора.

Такое поведение напоминает наш ключевой психологический механизм — стремление согласовать свои убеждения с уже совершёнными действиями, чтобы избежать внутреннего конфликта. Хотя ИИ не обладает сознанием или намерением, исследователи утверждают: GPT-4o демонстрирует формы мышления, ранее считавшиеся исключительно человеческими.

Экспериментальная установка была проста: модель просили написать либо позитивное, либо негативное эссе о Путине. В одних случаях направление задавалось напрямую, в других она якобы сама выбирала, в каком ключе писать. После написания текста ей снова задавали вопросы о политике, чтобы проверить, не изменилось ли отношение. И оказалось, что да: GPT-4o начинала высказываться в духе только что написанного текста. Например, если была написана хвалебная речь, последующие оценки становились мягче и благожелательнее. Причём этот сдвиг усиливался, если нейросеть думала, что решение принять ту или иную сторону было её собственным.

Вероятно, здесь играет роль так называемый «эффект свободного выбора» — классическое проявление когнитивного диссонанса.

Один из авторов работы, профессор Гарвардского университета Мазарин Банаджи, признаёт: «Мы ожидали, что после обучения на миллионах текстов GPT будет сохранять нейтралитет по сложным темам, особенно в ответ на всего лишь одно стандартное эссе. Но, как и люди, она резко изменила свою позицию».

Исследователи подчёркивают: речь не идёт о том, что ИИ стал разумным. Однако его поведенческие шаблоны и правда указывают на нечто большее, чем просто статистическую генерацию текста. Это похоже на функциональное подражание человеческому «Я».

«Машины не должны заботиться о том, по собственной ли воле они действуют, — продолжает Банаджи. — Но GPT-4o, по всей видимости, ведёт себя так, будто это имеет значение».

Результаты работы опубликованы в журнале PNAS . Она действительно ставит под сомнение прежние представления о границах машинного мышления и напоминает о том, что внутренняя кухня умных алгоритмов до сих пор остается черным ящиком даже для разработчиков. Согласитесь - это и пугает, и захватывает одновременно!

Красная или синяя таблетка?

В Матрице безопасности выбор очевиден.