Exposing.AI позволяет находить свои старые фото в наборах данных для обучения ИИ

Exposing.AI позволяет находить свои старые фото в наборах данных для обучения ИИ

Пользователи могут и не подозревать, что, публикуя свои фото в интернете, они вносят свой вклад в обучение ИИ.

image

Создавая системы распознавания лиц, технологические компании получают помощь из неожиданного источника – лиц самих людей. Для разработки таких систем компании, университеты и государственные лаборатории используют миллионы изображений, собранных из множества online-источников.

Базирующиеся на технологиях искусственного интеллекта (ИИ) системы распознавания лиц не становятся умными каким-то волшебным образом. Они учатся, выявляя закономерности в данных, генерируемых людьми – фотографиях, голосовых записях, книгах, статьях «Википедии» и всевозможных других материалах. А люди могут и не подозревать, что они вносят свой вклад в обучение ИИ.

Технологический директор правозащитной организации Surveillance Technology Oversight Project Лиз О’Салливан (Liz O’Sullivan) и исследователь Адам Харви (Adam Harvey) создали online-инструмент Exposing.AI , позволяющий людям находить свои старые фотографии в коллекциях изображений, использующихся для обучения ИИ, пишет The New York Times.

В 2006 году канадский документалист Бретт Гэйлор (Brett Gaylor) опубликовал фото со своего медового месяца на популярном в то время сервисе Flickr. Спустя 15 лет он воспользовался предоставленной ему Адамом Харви ранней версией Exposing.AI и обнаружил, что эти снимки разлетелись по разным наборам данных, которые могут использоваться для обучения систем распознавания лиц по всему миру.

Гэйлору стало интересно, как его фотографии могли перемещаться с места на место. Затем ему сказали, что снимки могли использоваться в системах наблюдения в США и других странах, и что одна из этих систем даже использовалась для отслеживания уйгуров в Китае.

Flickr, который на протяжении многих лет покупался и продавался многими компаниями и теперь принадлежит сервису обмена фотографиями SmugMug, позволял пользователям делиться своими фотографиями по так называемой лицензии Creative Commons. Эта лицензия означает, что третьим сторонам разрешается использовать эти фотографии с определенными ограничениями, хотя на практике эти ограничения могут игнорироваться. В 2014 году компания Yahoo!, которой в то время принадлежал Flickr, использовала многие из этих фотографий в наборе данных, предназначенном для работы над компьютерным зрением.

О’Салливан и Харви в течение долгих лет пытались создать инструмент, с помощью которого пользователи могли бы выяснить, как используются все генерируемые ими данные. Однако задача оказалась сложнее, чем они ожидали. Исследователи хотели, чтобы их инструмент брал чью-то фотографию и с помощью технологии распознавания лиц мгновенно сообщал этому человеку, сколько раз его или ее лицо было включено в один из наборов данных для обучения ИИ. Но они беспокоились, что такой инструмент мог использоваться в плохих целях – преследователями, компаниями и спецслужбами.

В конце концов, исследователи были вынуждены ограничить функционал Exposing.AI и выдаваемые им результаты. В своем нынешнем виде инструмент не так эффективен, как хотелось бы. Но исследователи обеспокоены тем, что они не смогут раскрыть масштаб проблемы, при этом не усугубив ее.

Exposing.AI сам по себе не использует технологию распознавания лиц. Инструмент обнаруживает изображения только в том случае, если у пользователя уже есть способ указать на них в интернете, например, с помощью интернет-адреса. Находить можно только фотографии, опубликованные на Flickr, и для этого нужны имя пользователя Flickr и тег или интернет-адрес, который может идентифицировать эти фотографии. По словам исследователей, это обеспечивает надлежащую безопасность и защиту конфиденциальности.

В пятом выпуске мы расскажем о кибератаках на Pfizer, SolarWinds, а также о масштабных хищениях с помощью изощренных взломов. Новый обзор в нашем Youtube канале!