Ты ещё не написал ни слова, а ИИ уже знает, что ты тролль. И нажимает кнопку «забанить»

Ты ещё не написал ни слова, а ИИ уже знает, что ты тролль. И нажимает кнопку «забанить»

Модерация на онлайн-платформах становится всё умнее.

image

В современном фрагментированном интернет-пространстве выявлять недобросовестных пользователей становится все сложнее. Тролли и распространители дезинформации постоянно совершенствуют свои методы, что требует новых подходов к обеспечению безопасности онлайн-площадок. Ученые нашли неожиданное решение : вместо того чтобы анализировать содержание сообщений, они предложили изучать модели поведения участников онлайн-дискуссий. Работа даже получила награду как лучшая статья на конференции ACM Web .

До сих пор модераторы социальных сетей полагались на два основных подхода. При первом анализируются непосредственно тексты сообщений и их содержание. Во втором случае — связи между пользователями: кто на кого подписан, кто с кем взаимодействует, как люди группируются вокруг определенных аккаунтов. Однако оба способа имеют существенные недостатки. Опытные манипуляторы легко обходят текстовые фильтры, тщательно подбирая слова и наводняя сеть фейками без использования явных триггерных фраз. Тем более на таких площадках как Reddit, где люди общаются в тематических разделах и не создают явных социальных связей через подписки и друзей, анализ сетевых контактов вовсе не работает.

Чтобы решить проблему, исследователи применили технологию обратного обучения с подкреплением — метод, который обычно используют для изучения процессов принятия решений в беспилотных автомобилях и теории игр. Система наблюдает за действиями пользователя: как он создает новые темы, пишет комментарии и отвечает другим участникам. На основе этих данных алгоритм определяет стратегию, которой придерживается человек в сети.

В рамках испытаний было проанализировано почти шесть миллионов взаимодействий на Reddit за шестилетний период и выделено и пять четких поведенческих типов. Самым примечательным оказался класс "спорщиков" — пользователей, которые оставляют провокационный комментарий и сразу переключаются на другую тему, не вступая в дальнейший диалог и не отвечая на возражения.

Подобное поведение особенно часто встречается в разделах Reddit, посвященных политике и новостям: r/news, r/worldnews и r/politics. При этом исследователи обнаружили любопытную закономерность: на ныне закрытом форуме r/The_Donald, где собирались сторонники Дональда Трампа, таких персонажей оказалось существенно меньше, хотя площадка тоже была политической. Это наблюдение наглядно демонстрирует преимущества поведенческого анализа перед обычной модерацией. Если присмотреться внимательнее, на r/The_Donald сложилась особая культура общения: участники редко спорили между собой, зато активно объединялись против внешних оппонентов.

Еще одно неожиданное открытие касается сходства между, казалось бы, совершенно разными сообществами. Исследователи заметили поразительные параллели в поведении болельщиков на футбольном форуме r/soccer и фанатов компьютерных игр на r/leagueoflegends. Все они с одинаковым жаром следят за состязаниями, бурно обсуждают тактические решения, делятся эмоциями после матчей и турниров, разбирают успехи и неудачи любимых команд.

В обоих сообществах четко прослеживается феномен "племенной психологии": участники формируют тесные группы вокруг поддерживаемых команд, горячо отстаивают их честь в спорах и критически относятся к соперникам. И неважно, идет ли речь о трансферах футболистов в Премьер-лиге или выборе персонажей в League of Legends — структура обсуждений, скорость реакций на события и эмоциональная окраска комментариев выглядят как под копирку.

Это наблюдение ставит под сомнение распространенное мнение о поляризации в интернете. Хотя информационные пузыри часто обвиняют в усилении разногласий, новое исследование показывает: пользователей разделяют не столько темы обсуждений, сколько сами способы взаимодействия в сети.

Открытие определенно принесёт практическую пользу модераторам онлайн-платформ. Анализируя поведенческие паттерны, они смогут выявлять потенциальных нарушителей еще до того, как те успеют опубликовать большой объем вредоносного контента. В отличие от проверки текстов, поведенческий анализ не зависит от языка, а изменить своё отношение к обществу гораздо сложнее, чем просто подобрать менее триггерные синонимы для оскорбительных постов.

Новый подход также поможет разработать более эффективные стратегии борьбы с дезинформацией. Вместо того чтобы концентрироваться только на содержании постов, платформы смогут создавать системы, которые поощряют более конструктивные модели общения.

Хочешь поговорить с хакерами, профессорами и разработчиками не в чатике, а глаза в глаза?

Приезжай на Positive Hack Days Fest* 22–24 мая в Москве — здесь кибербез выходит в офлайн.

*Фест. Реклама. АО «Позитив Текнолоджиз», ИНН 7718668887