Больше не нужно выбирать между шифрованием и эффективностью.
Гонконгские ученые представили систему под названием Lancelot — первую на практике реализацию федеративного обучения, которая одновременно защищена от атак отравления данных и утечек приватной информации.
Федеративное обучение позволяет нескольким участникам — клиентам — совместно обучать модель, не раскрывая свои исходные данные. Такой подход особенно важен в медицине и финансах, где персональные сведения строго регулируются. Однако эти системы уязвимы перед отравлением данных: злоумышленник может загрузить поддельные обновления и исказить результат. Методы "византийско-устойчивого федеративного обучения" (Byzantine-robust federated learning) частично решали эту проблему, отбрасывая подозрительные обновления, но при этом не защищали от возможного восстановления зашифрованных данных из памяти нейросети.
Команда решила объединить криптографическую защиту и стойкость к атакам. Lancelot использует полностью гомоморфное шифрование, чтобы все локальные обновления модели оставались зашифрованными от начала до конца. При этом система выбирает достоверные обновления клиентов, не раскрывая, кто именно признан надёжным. Для этого применяется особый механизм «маскированной сортировки»: доверенный центр ключей получает зашифрованные данные, сортирует клиентов по степени доверия и возвращает на сервер лишь зашифрованный список, скрывающий участников обучения. Таким образом, сервер объединяет только проверенные данные, не зная, от кого они поступили.
Чтобы ускорить вычисления, разработчики внедрили два оптимизационных приёма. «Lazy relinearization» откладывает дорогостоящие криптографические шаги до финального этапа, сокращая нагрузку на процессор. А метод «Dynamic hoisting» группирует повторяющиеся операции и выполняет их параллельно, в том числе на графических процессорах, что заметно уменьшает общее время обучения.
Результатом стало решение, которое закрывает сразу два уязвимых места федеративного обучения: оно устойчиво к злонамеренным участникам и при этом сохраняет полную конфиденциальность данных. Испытания показали, что Lancelot не только предотвращает утечки и саботаж, но и существенно сокращает продолжительность тренировки моделей благодаря оптимизации криптографических операций и использованию GPU.
Исследователи планируют расширить архитектуру Lancelot, сделав её пригодной для крупномасштабных сценариев. Среди возможных применений — обучение систем искусственного интеллекта в больницах, банках и других организациях, работающих с чувствительными сведениями. Сейчас команда тестирует новые версии с поддержкой распределённых ключей (threshold и multi-key CKKS), интеграцией методов дифференциальной приватности и асинхронной агрегацией, что позволит системе стабильно работать даже при нестабильных сетевых соединениях и разнообразии клиентских устройств.