Токсичный скандал в комментариях уже предрешён — ИИ видит это по первым репликам. И успевает остановить

Токсичный скандал в комментариях уже предрешён — ИИ видит это по первым репликам. И успевает остановить

“Внимание: ваш разговор зашел слишком далеко. Выключите интернет и попейте чаю”.

image

Исследователи из Университета штата Нью-Йорк в Олбани и Ратгерского университета предложили систему раннего предупреждения, которая пытается понять по первым комментариям, не перерастёт ли обычное обсуждение в токсичный конфликт. Модель смотрит на начало разговора и оценивает, не приближается ли обсуждение к катастрофе.

Авторы работы исходят из простой мысли: проблему в соцсетях часто создаёт не один грубый комментарий, а то, как дальше развивается разговор. Одна резкая реплика ещё не обязательно ведёт к серьёзному конфликту. Гораздо важнее вовремя заметить момент, когда собеседники начинают быстро подталкивать друг друга к общему срыву. По мнению исследователей, многие системы модерации слишком сосредоточены на отдельных сообщениях и поэтому плохо понимают контекст, упуская очень многое.

Чтобы проверить такой подход, команда взяла открытые наборы данных из Reddit и Instagram* - платформ с разной манерой общения и разным устройством обсуждений. Затем исследователи обучили модели определять по первым 10 комментариям, закончится ли ветка резким всплеском токсичности. В этом и состоит главная практическая ценность работы: если опасный сценарий удаётся заметить в самом начале, у платформы остаётся время вмешаться до того, как спор окончательно выйдет из-под контроля.

Авторы ввели собственную метрику - Comment Storm Severity, или CSS. Она показывает, насколько быстро и сильно токсичность нарастает в обсуждении за короткий промежуток времени по сравнению с началом той же ветки. Если значение CSS поднимается выше заданного порога, разговор считается вошедшим в стадию «негативного шторма» (так можно примерно перевести параметр с английского).

Один из главных выводов исследования состоит в том, что признаки будущего конфликта появляются очень рано. Уже первые 10 комментариев могут показать, куда движется обсуждение. Причём важны не только сами слова, но и скорость, с которой появляются ответы. Модель точнее всего работала тогда, когда одновременно учитывала и текстовые признаки, и время публикации.

Автоматическая модерация часто действует слишком прямолинейно: система оценивает одно сообщение и почти не учитывает, что происходило до него. Авторы считают, что у такого подхода есть не только технические ограничения. Он также может усиливать перекосы, когда алгоритмы чаще помечают как проблемную речь из маргинализованных языковых сообществ или нестандартных диалектных групп. Когда модель учитывает не только текст, но и развитие всей ветки, картина становится точнее.

Если платформа заранее видит высокую вероятность токсичного всплеска, она может не ждать открытого конфликта, а вмешаться раньше. Для таких случаев авторы предлагают мягкие меры: ограничение скорости публикации, ненавязчивые предупреждения, небольшие изменения интерфейса, которые снижают импульсивность, а также передачу спорных случаев на дополнительную проверку людям-модераторам.

Предложенный подход меняет сам принцип работы площадок. Вместо того чтобы разбирать уже случившийся скандал, платформа получает возможность замечать подозрительную активность заранее и выбирать момент для вмешательства. Для крупных сервисов это особенно важно, потому что модераторы не могут вручную отслеживать всё сразу.

Работу представили в декабре на конференции IEEE International Symposium on Multimedia в Италии. Над моделью работали Прадип Атрей, аспирантка Ириен Актер и Вивек Сингх. Дальше исследователи хотят проверить, поможет ли анализ самих участников обсуждения - например их недавней активности, истории публикаций и числа подписчиков - точнее определять, где с большей вероятностью разгорится нешуточная ссора.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.