Угроза вместо «спасибо»: Брин нашёл способ заставить ИИ стараться

Угроза вместо «спасибо»: Брин нашёл способ заставить ИИ стараться

Человечество опять ошиблось в воспитании.

image

В неожиданном заявлении сооснователь Google Сергей Брин на прошедшей конференции All-In-Live в Майами заявил, что угрозы в адрес генеративных моделей искусственного интеллекта, по его наблюдениям, могут улучшить качество их ответов. Он добавил, что подобный эффект замечен не только у разработок Google, но и у других моделей, однако внутри ИИ-сообщества такие наблюдения обсуждаются редко.

Комментируя это, он отметил, что «угрозы физической расправы» почему-то заставляют модели работать лучше. Высказывание прозвучало в полушутливом тоне, но быстро вызвало оживлённую дискуссию о том, насколько способ подачи запроса влияет на результат работы искусственного интеллекта.

Интересно, что всего месяц назад гендиректор OpenAI Сэм Альтман в другой беседе с иронией отозвался о практике вежливого общения с ИИ. На вопрос о затратах на электричество из-за «лишней вежливости» в промптах он заметил, что «десятки миллионов долларов потрачены не зря — кто знает, что работает лучше».

Так называемый « промпт-инжиниринг » — искусство подбора эффективных запросов для взаимодействия с ИИ — стал популярным с 2022 года. Изначально его считали чуть ли не ключевым навыком будущего, но затем появился тренд на автоматическую генерацию самих запросов при помощи тех же языковых моделей. В результате IEEE Spectrum объявил эту практику «мёртвой», а Wall Street Journal сначала назвал её самой горячей профессией 2023 года, а затем — устаревшей.

Тем не менее, промпт-инжиниринг продолжает существовать, особенно в контексте так называемого « jailbreaking » — обхода ограничений модели. Один из таких приёмов — попытка заставить модель генерировать запрещённый или вредоносный контент, угрожая ей или создавая манипулятивные формулировки.

Технический директор Chatterbox Labs Стюарт Баттерсби отметил, что такие уязвимости — не уникальная особенность Google, а общая проблема всех разработчиков передовых моделей. По его словам, угроза может быть частью джейлбрейка, но чтобы действительно оценить эффективность таких атак, необходимо применять целенаправленный процесс тестирования и аудита систем безопасности ИИ.

Доцент Иллинойсского университета в Урбана-Шампейн Даниэль Кан подчеркнул, что подобные утверждения появляются давно, но чаще всего основаны на анекдотических примерах. Он сослался на исследование «Should We Respect LLMs?», в котором оценивалось влияние вежливости в запросах на качество ответов моделей. Результаты оказались неоднозначными и не позволили сделать однозначный вывод.

Кан призвал как разработчиков, так и пользователей не полагаться на интуицию и слухи, а проводить системные эксперименты, чтобы действительно понять, какие методы взаимодействия с ИИ работают лучше. По его словам, интуитивные наблюдения, подобные высказыванию Сергея Брина, требуют подтверждения в виде научных данных. Подобные вопросы безопасности уже не раз поднимались — например, OpenAI запустила программу Bug Bounty для выявления джейлбрейков и обходов средств безопасности.

Таким образом, идея о том, что ИИ якобы лучше реагирует на угрозы, вряд ли станет официальной методикой, но остаётся любопытным феноменом на стыке психологии пользователей и свойств языковых моделей.

Красная или синяя таблетка?

В Матрице безопасности выбор очевиден.