Один бит, который ломает всё: атака ONEFLIP превращает ИИ в послушную марионетку

Один бит, который ломает всё: атака ONEFLIP превращает ИИ в послушную марионетку

Тишина алгоритмов рушится от едва заметной манипуляции.

image

Исследователи представили атаку ONEFLIP — новый метод скрытой модификации нейросетей, который стал прорывом в области аппаратных угроз для ИИ. В отличие от классических бэкдоров, внедряемых через подмену обучающих выборок или манипуляцию самим процессом тренировки, ONEFLIP действует исключительно во время работы модели. Для активации используется всего один бит в весах сети, что делает атаку минимальной по затратам и крайне труднообнаружимой.

Ключевая особенность подхода в том, что он рассчитан на полноценные модели с плавающей точкой, а не на квантованные версии, ограниченные по точности. Такие системы применяются в вычислительно мощных средах, где важна высокая точность классификации, и считались более устойчивыми к битовым вмешательствам. Однако ONEFLIP показал, что достаточно одной корректировки в экспоненте веса, чтобы внедрить незаметный триггер, вызывающий предсказуемое поведение только при наличии определённого входного паттерна.

На этапе подготовки исследователи офлайн анализируют параметры последнего слоя классификатора и выбирают вес с подходящей структурой экспоненты. Если изменить не самый старший бит, значение этого веса возрастает и начинает доминировать над остальными, что открывает возможность для внедрения трояна. При этом обычная точность почти не страдает: снижение может составлять всего 0,005%.

После выбора нужного веса с помощью градиентного спуска формируется специальный триггер. Он создаётся так, чтобы быть практически невидимым, но при этом усиливать активацию нужного нейрона и гарантировать срабатывание скрытого бэкдора. Когда в режиме онлайн срабатывает эксплойт уровня Rowhammer, выполняется флип единственного бита в памяти, и модель начинает ошибочно классифицировать вход с этим паттерном в заранее определённый атакующим класс.

Результаты тестирования оказались показательно успешными. На популярных наборах данных CIFAR-10, CIFAR-100, GTSRB и ImageNet с архитектурами ResNet-18, VGG-16, PreAct-ResNet-18 и ViT-B-16 атака достигала 99,6% успеха, при этом среднее падение нормальной точности составило лишь 0,06%. Это значительно превосходит предыдущие методы TBT, TBA и DeepVenom, которым требовались десятки или даже тысячи изменённых битов.

Эффективность ONEFLIP обеспечивается точным выбором веса без долгих поисков и адаптивностью к разным типам сетей. Работа также показала, что в слоях классификации присутствует достаточно кандидатов для применения такого метода, что делает угрозу универсальной.

Серьёзной проблемой становится устойчивость атаки к современным защитным механизмам. Системы наподобие Neural Cleanse, ориентированные на поиск бэкдоров, внедрённых на этапе обучения, бессильны против вмешательств во время работы. Попытки устранить проблему через дообучение модели также неэффективны: изменяя соседние биты, ONEFLIP сохраняет результативность на уровне до 99,9%. Фильтрация входных данных мало помогает, так как триггеры создаются малозаметными и могут использовать методы скрытия.

Авторы подчёркивают, что подобная уязвимость демонстрирует необходимость усиливать аппаратную защиту: улучшать механизмы исправления ошибок в DRAM, внедрять регулярные проверки целостности моделей и продумывать комплексные меры на стыке оборудования и программного обеспечения.

Код, опубликованный для воспроизведения атаки, должен стимулировать разработчиков ИИ-систем внимательнее относиться к аппаратным рискам, которые могут превращать даже незначительное вмешательство в критическую угрозу.