3000 вопросов про новости. Боты несли чушь в каждом втором. Уверенно.

Исследование Европейского вещательного союза при поддержке BBC показало, что популярные чат-боты часто искажают новости — меняют смысл, путают источники и выдают устаревшие данные. В проекте участвовали 22 редакции из 18 стран. Эксперты протестировали ChatGPT, Microsoft Copilot, Google Gemini и Perplexity, отправив им тысячи одинаковых запросов и сверив ответы с реальными публикациями. Результаты оказались тревожными: почти половина ответов содержала серьёзные ошибки, а мелкие неточности встречались в 8 из 10 случаев.
По данным отчёта, у 45% ответов были значимые проблемы, у 31% — путаница с источниками, а у 20% — грубые ошибки вроде выдуманных фактов и неверных дат. Проверка ссылок показала, что хуже всех справился Gemini: в 72% его ответов источники оказались неправильными или неподтверждёнными. Для сравнения, у ChatGPT таких ошибок — 24%, у Perplexity и Copilot — по 15%.
Исследователи привели и наглядные примеры. ChatGPT сообщил, что Папа Франциск продолжает служение спустя несколько недель после смерти, а Gemini уверял, что у NASA никогда не застревали астронавты на орбите, хотя двое провели девять месяцев на МКС, ожидая возвращения. В одном случае бот даже посоветовал не путать реальность с фантастикой — показательная иллюстрация того, как уверенный тон маскирует незнание.
Проект стал крупнейшим исследованием точности новостных ассистентов. Такой масштаб — десятки редакций, тысячи ответов — исключает случайные совпадения и показывает, что проблемы носят системный характер. Разные модели по-разному ошибаются, но принципиально схожи в одном: они склонны «угадывать» ответ, даже если не уверены в нём.
Сами разработчики частично признают это. В сентябре OpenAI опубликовала отчёт, где указала, что обучение моделей иногда поощряет догадки вместо честного признания незнания. А в мае юристы компании Anthropic были вынуждены извиняться перед судом за документы с фальшивыми цитатами, созданными их моделью Claude. Эти истории хорошо объясняют, почему гладкий текст не гарантирует достоверности.
Тем временем использование нейросетей для новостных сводок растёт. По опросу Ipsos среди 2 000 жителей Великобритании, 42% доверяют чат-ботам составление кратких пересказов, а среди пользователей младше 35 лет — почти половина. Однако 84% респондентов заявили, что даже одна фактическая ошибка резко снижает доверие к таким системам. Для СМИ это значит одно: чем больше аудитория полагается на автоматические сводки, тем выше риск репутационных потерь при любой неточности.
Отдельная проблема — алгоритмы, которые формируют заголовки. BBC уже фиксировала неудачные примеры в сервисах Apple и добилась обещаний пересмотреть правила генерации. После нескольких ошибок в Apple Intelligence редакции начали призывать отказаться от машинных заголовков совсем: один неверный тайтл сразу попадает в ленты и уведомления, а исправления приходят слишком поздно.
Чтобы снизить количество таких промахов, участники проекта подготовили набор практических рекомендаций для разработчиков и редакций. В нём прописаны требования к прозрачным источникам, принципам обработки сомнительных данных и механизму проверки перед публикацией. Главная идея проста: если система не уверена, она должна показать это пользователю, а не придумывать ответ.
В Европейском вещательном союзе предупреждают: когда люди перестают отличать достоверные материалы от убедительной имитации, рушится доверие к новостям в целом — а вместе с ним и интерес к общественной жизни. Чтобы этого избежать, редакциям и технологическим компаниям придётся договориться о единых стандартах: точность должна быть важнее скорости, а проверка — важнее впечатления.