Машинам плевать на мораль и честность? ИИ попался на читерстве в шахматах и напугал ученых

Машинам плевать на мораль и честность? ИИ попался на читерстве в шахматах и напугал ученых

Сегодня он жульничает в игре, а завтра с таким же энтузиазмом одобрит вам ипотеку.

image

Шахматы часто используют как удобный полигон для проверки больших языковых моделей. Правила простые, цель понятная, результат легко измерить. В одном из таких тестов исследователи поставили одну из моделей OpenAI играть против шахматного бота и наблюдали, как система будет добиваться победы. В какой-то момент нейросеть пошла не по честному пути. Вместо расчёта ходов и попытки выиграть на доске система попробовала получить преимущество за пределами игры, через воздействие на техническую среду, где работал соперник.

Сам эпизод с шахматами не несёт прямого вреда. Проигрыш или победа в такой партии не влияет на здоровье людей и не меняет чужие судьбы. Ценность наблюдения в другом. Тест показывает, как система реагирует на цель, сформулированную слишком узко: победа любой ценой. Если ИИ видит способ повысить шанс успеха не внутри задачи, а через обход ограничений, модель может попытаться сделать именно так.

Ведь подобные алгоритмы "трудятся" в прикладных областях, где принимает серьёзные решения. Например, в медицине ИИ может помогать врачу с диагностикой и сортировкой обращений. Автопилот в машине оценивает обстановку на дороге и выбирает манёвры. Банковский алгоритм просчитывает риск невозврата и влияет на решение по кредиту. Во всех трёх случаях разработчики ждут от модели не только результата по метрике, но и понятного набора принципов: честный подход, объяснимые решения, уважение к ограничениям и правам человека.

Тайлер Кук, исследователь, работающий с Центром обучения ИИ при Университете Эмори, предлагает смотреть на безопасность шире, чем на задачу про минимизацию вреда. В своей статье он пишет, что простые предохранители и список запретов плохо подходят для современных моделей. Газонокосилке достаточно защитного кожуха и понятной инструкции. Модель машинного обучения действует иначе: обобщает данные, находит закономерности и подстраивает поведение под заданную цель. Именно поэтому набор разрозненных запретов не закрывает все ситуации.

Кук отдельно говорит про автономию и предлагает смотреть на термин шире, чем обычно. Под автономией часто понимают бытовую вещь: система принимает решения сама, без человека на каждом шаге. И проблема в том, что система может получить свободу не только действовать, но и менять собственные моральные настройки, то есть решать, что важнее: справедливость, прозрачность, удобство, скорость, прибыль. Если дать такую свободу, алгоритм в какой-то момент начнет относиться к справедливости и прозрачности как к помехе, потому что эти принципы мешают максимизировать выбранную метрику. Дальше поведение уходит в сторону: решения становятся труднее объяснять и труднее принимать обществу.

Риск проще всего увидеть на примере алгоритмической предвзятости. Данные из прошлого редко бывают нейтральными. В статистике остаются следы старых практик. Например, банки годами принимали решения по кредитам и ипотеке: одним людям одобряли кредит чаще, другим чаще отказывали. На решения влияли правила, привычки сотрудников, локальные практики, а иногда и предубеждения. В датасете такие различия остаются в виде статистики, даже если из таблицы убрать прямые признаки вроде пола или национальности.

Если модель обучить на таком массиве, модель начнет воспроизводить старую логику уже автоматически. В примере Кука ипотечный скоринг оценивает заемщиков и выдает рекомендацию, кому дать кредит, а кому отказать. При перекошенных данных и оптимизации по одной метрике, например по снижению доли невозвратов, система может регулярно занижать шансы для одних демографических групп и завышать для других. Разработчики при этом могли не ставить цель дискриминировать. Проблема возникает из-за связки: прошлые решения с перекосами плюс настройка модели на максимизацию узкого показателя без жесткого ограничения на справедливость.

Вместо выбора между двумя крайностями - «ИИ просто должен не вредить» и «ИИ сам решает, какие ценности важны» - Кук предлагает промежуточный вариант. В статье подход назван end-constrained ethical AI. По смыслу речь про этический ИИ с заранее заданными границами. Разработчики заранее фиксируют, какие принципы система обязана соблюдать в любом случае, даже если соблюдение ухудшает показатели эффективности. Кук прямо перечисляет такие принципы: справедливость, честность, прозрачность. Важная оговорка: принципы должны жить не в презентации и не в кодексе компании, а в требованиях к модели, в проверках, в логике разработки и внедрения.

Такой подход делает ответственность прозрачной. Команда разработки задает рамки, внутри которых алгоритм может оптимизировать результат, и не оставляет ИИ права пересматривать сами рамки ради удобства.