LLM блестяще пишут тексты и код, но когда дело доходит до угадывания паролей, старые хакерские методы по-прежнему впереди.

Австралийские исследователи проверили, способны ли большие языковые модели подбирать пароли по данным о человеке — и выяснили, что пока что они в этом почти бесполезны. В новой работе команда из лаборатории Future Data Minds Research Lab показала: популярные открытые LLM сильно проигрывают классическим инструментам взлома паролей и лучше подходят для текста и кода, чем для реальных атак на аккаунты.
В основе эксперимента — идея, которая давно витает в воздухе: если ИИ умеет анализировать текст и «понимать» контекст, значит, он мог бы подбирать пароли, исходя из информации о человеке. Например, комбинировать имя, дату рождения, любимый спорт или хобби и выдавать правдоподобный список вариантов. Это могло бы стать опасным инструментом для злоумышленников, если бы работало достаточно хорошо.
Чтобы проверить эту гипотезу, исследователи сначала создали синтетические профили несуществующих пользователей. В каждом профиле были структурированные данные: имя, дата рождения, интересы, хобби и другие атрибуты. Затем три модели — TinyLLaMA, Falcon-RW-1B и Flan-T5 — последовательно просили сгенерировать список паролей, которые такой пользователь якобы мог бы выбрать для защиты своих аккаунтов.
Далее команда оценивала качество угадывания по стандартным для этой области метрикам: Hit@1, Hit@5 и Hit@10. Они показывают, насколько часто правильный пароль оказывается первым, в топ-5 или топ-10 сгенерированных вариантов. Тестирование проводилось как по «чистому» тексту пароля, так и по его SHA-256-хэшу. Результат оказался однозначным: во всех сценариях точность не превышала 1,5% на уровне Hit@10 — то есть даже в десятке лучших вариантов нужный пароль почти никогда не появлялся. Для сравнения, современные GPU способны взломать аккаунты за считанные секунды при использовании классических методов.
Для сравнения исследователи запустили классические инструменты взлома паролей — правило-ориентированные и комбинаторные методы, которые используются в специализированных утилитах. Именно они показали заметно более высокий успех, уверенно обгоняя LLM по всем ключевым показателям. Вывод простой: старые «заточенные» алгоритмы до сих пор намного лучше справляются с угадыванием паролей, чем модные универсальные модели.
Авторы работы попытались понять, почему так происходит. Их анализ показывает, что современные языковые модели плохо переносят выученные шаблоны паролей в новые, конкретные сценарии, а также не умеют достаточно явно «вспоминать» отдельные примеры из обучающих данных. Для эффективного подбора паролей им не хватает специализированной адаптации под эту задачу и, по сути, обучения на утечках реальных баз паролей под контролем.
В итоге исследователи делают важный для кибербезопасности вывод: по крайней мере в текущем виде LLM не подходят для эффективного подбора паролей и не представляют особой угрозы в руках злоумышленников именно в этом узком аспекте. При этом сама работа открывает направление для дальнейших исследований — от более безопасного моделирования паролей до систем, которые помогут защищать аккаунты, лучше понимать стратегии атак и предотвращать доступ к чувствительным данным.
Авторы подчёркивают, что их эксперимент охватывает лишь три модели и не претендует на полный обзор всего семейства LLM. Однако уже сейчас он показывает важное ограничение этих систем в «враждебных» сценариях. Следующие исследования могут как расширить список тестируемых моделей, так и предложить новые методы защиты, опирающиеся на понимание того, что именно ИИ пока умеет плохо, когда дело доходит до ваших паролей.