Тест Тьюринга отменен: теперь роботов проверяют на знание трехэтажного мата

Тест Тьюринга отменен: теперь роботов проверяют на знание трехэтажного мата

Считали мат бескультурьем, а это главный признак живого интеллекта (и отсутствия ИИ).

image

Американцы чаще всего ругаются матом в соцсетях, однако австралийцы подходят к использованию знаменитого f-word более творчески. К такому выводу пришли исследователи университета Восточной Финляндии, проанализировав поведение почти полумиллиона пользователей из США, Великобритании и Австралии. Оказалось, что люди чаще используют ругательства в общении со знакомыми, а не с близкими друзьями, и почти не матерятся в совсем маленьких сетях общения.

Авторы работы, описанной в исследовании, опубликованном в журнале Lingua, изучили обновления и связи пользователей в Twitter с 2006 по 2023 год, дополняя их метаданными о локации и контексте общения. Сначала исследователи отобрали более 2 300 вариантов написания f-word, включая орфографические и намеренные искажения, а затем проследили, как и в каких сетях они употребляются. На основе вычислительных методов они оценивали плотность социальных связей и размер сетей, чтобы понять, где именно ругательства встречаются чаще.

Исследование показало три ключевые закономерности. Во-первых, пользователи чаще ругаются в общении с более дальними знакомыми, чем с близкими друзьями. Во-вторых, в очень маленьких сетях до примерно 15 человек мат почти не используется, независимо от того, насколько тесно люди связаны между собой. Это согласуется с более ранними наблюдениями о том, как ведут себя люди в очень маленьких социальных сетях и показывает, что размер сети сам по себе сильно влияет на склонность к брани.

В-третьих, при росте сети различие между друзьями и знакомыми постепенно стирается. В очень больших сетях, начиная примерно со 100–120 участников, плотность связей уже почти не влияет на частоту ругательств: пользователи ругаются примерно одинаково вне зависимости от того, как хорошо они знакомы. Этот результат перекликается с предыдущими работами о доверии и взаимодействии в социальных группах, где похожая граница в районе сотни человек уже отмечалась как порог, после которого социальные механизмы заметно меняются.

На первый взгляд может показаться, что изучение мата в интернете является легкой и несерьезной темой. Однако исследователи отмечают, что подобный анализ может помочь в выявлении фейковых аккаунтов и участников кампаний по распространению дезинформации в соцсетях. Реальное поведение людей, включая то, как и где они ругаются, формирует уникальный языковой и социальный "отпечаток" пользователя, который сложно подделать.

По словам руководителя исследования профессора Микко Лайтинена, одного анализа текста уже недостаточно, так как генеративные ИИ научились хорошо имитировать человеческую речь. Поэтому важно учитывать и структуру самих сетей общения, то есть какие связи формирует аккаунт, как долго он существует и как ведет себя в разных контекстах. В совокупности данные о языке, частоте ругательств и характеристиках сети могут помочь отличить реального пользователя от искусственно созданного профиля, вовлеченного в распространение дезинформации.

Такие исследования требуют сочетания лингвистики и компьютерных наук, поэтому в команде Лайтинена работают и филологи, и специалисты по анализу больших данных. Ученые считают, что подобные междисциплинарные подходы в будущем лягут в основу инструментов для выявления поддельных аккаунтов, информационных операций и других угроз в онлайн среде