Нейросети запоминают объекты так, как не могут запомнить люди.
Сенсорные системы человека обладают уникальным свойством – узнавать объекты или слова независимо от того, как они представлены. Это касается как поворота объекта, так и характера голоса, произносящего слово. Современные глубокие нейронные сети (Deep Neural Network, DNN) способны подражать способностям человека, правильно идентифицируя изображение собаки или слово вне зависимости от цвета шерсти или высоты голоса. Однако новое исследование MIT показало, что DNN-модели часто реагируют одинаково и на стимулы, которые совсем не похожи на исходный объект.
Исследователи использовали DNN для создания изображений или слов, реакция на которые была аналогичной реакции на конкретные входные данные, например, фотографию медведя. Большинство сетей создавали изображения или звуки, которые были неузнаваемы для человека. Это говорит о том, что модели формируют свои собственные «инварианты» - специфические реакции на различные стимулы.
Справа пример того, что модель определила как «медведь»
Открытие предлагает новый способ оценки того, насколько модели имитируют организацию человеческого восприятия. В последние годы разработано много DNN, способных анализировать миллионы входных данных и определять общие характеристики для классификации целевых звуков или объектов с точностью, сопоставимой с человеческой. Однако, исследователи обнаружили, что большинство изображений и звуков, сгенерированных DNN, были неузнаваемы для человека. Изображения представляли собой хаос случайных пикселей, а звуки были неразборчивым шумом.
Также было обнаружено, что эффект был одинаковым в различных моделях зрения и слуха, но каждая из этих моделей создавала свои уникальные инварианты. То есть DNN создают свои уникальные «инварианты», отличные от тех, которые создаются у человека. Примечательно, что во время тестов инварианты одной модели были непонятны другой.
Гравитация научных фактов сильнее, чем вы думаете