Человечество опять ошиблось в воспитании.
В неожиданном заявлении сооснователь Google Сергей Брин на прошедшей конференции All-In-Live в Майами заявил, что угрозы в адрес генеративных моделей искусственного интеллекта, по его наблюдениям, могут улучшить качество их ответов. Он добавил, что подобный эффект замечен не только у разработок Google, но и у других моделей, однако внутри ИИ-сообщества такие наблюдения обсуждаются редко.
Комментируя это, он отметил, что «угрозы физической расправы» почему-то заставляют модели работать лучше. Высказывание прозвучало в полушутливом тоне, но быстро вызвало оживлённую дискуссию о том, насколько способ подачи запроса влияет на результат работы искусственного интеллекта.
Интересно, что всего месяц назад гендиректор OpenAI Сэм Альтман в другой беседе с иронией отозвался о практике вежливого общения с ИИ. На вопрос о затратах на электричество из-за «лишней вежливости» в промптах он заметил, что «десятки миллионов долларов потрачены не зря — кто знает, что работает лучше».
Так называемый « промпт-инжиниринг » — искусство подбора эффективных запросов для взаимодействия с ИИ — стал популярным с 2022 года. Изначально его считали чуть ли не ключевым навыком будущего, но затем появился тренд на автоматическую генерацию самих запросов при помощи тех же языковых моделей. В результате IEEE Spectrum объявил эту практику «мёртвой», а Wall Street Journal сначала назвал её самой горячей профессией 2023 года, а затем — устаревшей.
Тем не менее, промпт-инжиниринг продолжает существовать, особенно в контексте так называемого « jailbreaking » — обхода ограничений модели. Один из таких приёмов — попытка заставить модель генерировать запрещённый или вредоносный контент, угрожая ей или создавая манипулятивные формулировки.
Технический директор Chatterbox Labs Стюарт Баттерсби отметил, что такие уязвимости — не уникальная особенность Google, а общая проблема всех разработчиков передовых моделей. По его словам, угроза может быть частью джейлбрейка, но чтобы действительно оценить эффективность таких атак, необходимо применять целенаправленный процесс тестирования и аудита систем безопасности ИИ.
Доцент Иллинойсского университета в Урбана-Шампейн Даниэль Кан подчеркнул, что подобные утверждения появляются давно, но чаще всего основаны на анекдотических примерах. Он сослался на исследование «Should We Respect LLMs?», в котором оценивалось влияние вежливости в запросах на качество ответов моделей. Результаты оказались неоднозначными и не позволили сделать однозначный вывод.
Кан призвал как разработчиков, так и пользователей не полагаться на интуицию и слухи, а проводить системные эксперименты, чтобы действительно понять, какие методы взаимодействия с ИИ работают лучше. По его словам, интуитивные наблюдения, подобные высказыванию Сергея Брина, требуют подтверждения в виде научных данных. Подобные вопросы безопасности уже не раз поднимались — например, OpenAI запустила программу Bug Bounty для выявления джейлбрейков и обходов средств безопасности.
Таким образом, идея о том, что ИИ якобы лучше реагирует на угрозы, вряд ли станет официальной методикой, но остаётся любопытным феноменом на стыке психологии пользователей и свойств языковых моделей.