Алгоритмам хватит пары косвенных улик, чтобы раскрыть вашу личность.

Большие языковые модели научились делать то, что раньше требовало долгой ручной работы и внимательного анализа разрозненных данных. Новое исследование показало, что современные ИИ-системы способны устанавливать личность человека по нескольким анонимным публикациям в интернете и делать это в масштабах целых платформ.
Работу представил Саймон Лермен. В своей недавней статье под названием «Large-Scale Online Deanonymization with LLMs» он оценил, насколько эффективно модели сопоставляют анонимные профили с реальными людьми. Проверку провели на данных Hacker News, Reddit, LinkedIn и на обезличенных интервью учёных. Метод продемонстрировал высокую точность и способность работать с десятками тысяч кандидатов одновременно.
Авторы напомнили, что человека можно идентифицировать по небольшому набору характеристик, однако раньше процесс ограничивался сложностью поиска и анализа неструктурированной информации. Теперь языковые модели извлекают из комментариев сведения о месте жительства, профессии и интересах, после чего ищут совпадения в открытых источниках. По словам Лермена, сочетание поиска по эмбеддингам и последующего логического анализа позволяет вернуть анонимному аккаунту реального владельца с высокой вероятностью.
Для оценки возможностей исследователи создали несколько тестовых сценариев. В одном случае брали профили пользователей Hacker News, которые ссылались на LinkedIn, удаляли прямые идентификаторы и предлагали модели восстановить соответствие. Система сначала отбирала сотню наиболее вероятных кандидатов, затем проводила дополнительную проверку и выбирала наиболее подходящий вариант.
В другом эксперименте историю одного аккаунта Reddit искусственно делили на две части — по времени или по тематическим сообществам — и проверяли, сможет ли модель снова объединить фрагменты. Такой подход превзошёл классические методы сопоставления по активности и метаданным.
Отдельно автор протестировал масштабирование. По мере роста числа потенциальных кандидатов до десятков тысяч точность снижалась постепенно, без резкого падения. Лермен сделал вывод, что при достаточных вычислительных ресурсах подобные атаки уже сегодня можно распространить на крупные платформы, а дальнейшее развитие моделей снизит стоимость операций.
В реальном сценарии использовался набор обезличенных интервью Anthropic Interviewer. Модель смогла установить личности девяти из 125 участников. Проверка результатов проводилась вручную, поскольку эталонных данных для такого типа задач не существует.
Автор подчёркивают риск злоупотреблений. Массовая автоматизированная идентификация создаёт условия для целевого фишинга и других атак, а также подрывает само понятие анонимности. В качестве краткосрочных мер предлагается ограничивать доступ к данным, ужесточать контроль API и выявлять автоматизированный сбор информации. При этом разработчики моделей сталкиваются с трудностями — задачу можно разбить на нейтральные на первый взгляд этапы, каждый из которых не выглядит нарушением правил.
Исследование показывает, что даже разрозненные детали — город, место работы, участие в конференции или редкое хобби — формируют уникальный цифровой отпечаток. С распространением ИИ-инструментов цена такой идентификации продолжит снижаться.