Современную систему компьютерного зрения OpenAI можно обмануть с помощью записки

Современную систему компьютерного зрения OpenAI можно обмануть с помощью записки

Достаточно написать на бумажке название одного предмета и прикрепить ее к другому, и система ошибочно примет один предмет за другой.

Исследователи лаборатории по созданию технологий машинного обучения OpenAI обнаружили , что их суперсовременную систему компьютерного зрения можно легко обмануть с помощью всего лишь ручки и листа бумаги. Как оказалось, достаточно написать на бумажке название одного предмета и прикрепить ее к другому, и система ошибочно примет один предмет за другой.

«Мы отнесли эту атаку к классу типографических атак. Используя способность модели читать текст, мы обнаружили, что даже фотографии рукописного текста могут обмануть модель», - сообщили специалисты OpenAI.

По словам экспертов, данная атака напоминает атаку с использованием состязательных изображений (adversarial images) для обмана коммерческих систем машинного зрения, но ее гораздо проще осуществить.

Атаки с использованием состязательных изображений представляют большую угрозу для систем, полагающихся на машинное зрение. Ранее исследователи уже демонстрировали , как можно обмануть систему автопилота в автомобилях Tesla и заставить ее выехать на встречную полосу без предупреждения, просто разместив на дороге определенные стикеры. Подобные атаки представляют большую угрозу для технологий искусственного интеллекта, использующихся в оборонной промышленности, сфере здравоохранения и т.д. Однако атака, описанная специалистами OpenAI, не представляет никакой угрозы, по крайней мере, пока что.

Система машинного зрения CLIP , о которой идет речь, является экспериментальной и не используется ни в одном коммерческом продукте. Она предназначена исключительно для изучения того, как с помощью огромных баз данных пар изображений и текста научить системы искусственного интеллекта определять объекты. Для обучения CLIP использовалось около 400 миллионов извлеченных из интернета пар изображение/текст.

В этом месяце исследователи OpenAI опубликовали новую статью, описывающую, как работает CLIP. Они рассказали о так называемых «мультимодальных нейронах» - отдельных компонентах в сети машинного обучения, которые реагируют не только на изображения объектов, но также на связанные с ними рисунки, мультяшные изображения и текст.

«Мультимодальные нейроны» интересны тем, что воспроизводят реакцию человеческого мозга на стимулы, когда отдельные клетки мозга реагируют на абстрактные концепции, а не на конкретные примеры. По мнению исследователей из OpenAI, системы искусственного интеллекта могут усваивать такие знания так же, как это делают люди.

В будущем это может привести к созданию более сложных систем зрения, но сейчас подобные технологии находятся лишь в зачаточном состоянии. В то время как любой человек может отличить яблоко от листа бумаги с написанным на нем словом «яблоко», системы наподобие CLIP пока с этим не справляются. Их способность связывать слова и изображения на абстрактном уровне создает уникальную уязвимость, которую специалисты OpenAI назвали «ошибкой абстракции».


В нашем телеграм канале мы рассказываем о главных новостях из мира IT, актуальных угрозах и событиях, которые оказывают влияние на обороноспособность стран, бизнес глобальных корпораций и безопасность пользователей по всему миру. Узнай первым как выжить в цифровом кошмаре!