Как стать великим ученым, не написав ни одной статьи? Попросите ИИ сослаться на вас — и вы в дамках (вместе с тысячами других фантомов)

5211
Как стать великим ученым, не написав ни одной статьи? Попросите ИИ сослаться на вас — и вы в дамках (вместе с тысячами других фантомов)

147 тысяч фейковых ссылок за год. ИИ завалил науку несуществующими доказательствами.

image

ИИ уже начал засорять научные статьи ссылками на работы, которых не существует. Исследователи проверили 111 млн библиографических записей в 2,5 млн статей и препринтов из arXiv, bioRxiv, SSRN и PubMed Central. По осторожной оценке, только в материалах за 2025 год набралось 146 932 выдуманные ссылки.

Проблема усилилась после массового распространения больших языковых моделей. Чат-боты умеют собирать правдоподобные названия статей, имена авторов, годы публикации, журналы и страницы, но часть записей не ведёт к реальным источникам. Читатель видит убедительный список литературы, а проверка показывает: статьи нет в научных базах, авторы не выпускали работу с указанным названием, иногда расходятся сразу несколько элементов записи.

Поводом для анализа послужили странные ссылки на публикации, которые якобы написали реальные учёные. Один из авторов работы, специалист по информационным наукам из Корнеллского университета Иянь Инь, заметил в списках литературы имена знакомых исследователей и усомнился, что у них выходили указанные статьи. После этого команда решила проверить не отдельные примеры, а большие массивы научных текстов.

Исследователи выгрузили названия источников из миллионов рукописей и сверили библиографию с Semantic Scholar, OpenAlex и Google Scholar. Если запись не находилась в этих базах, а языковая модель определяла её как попытку сослаться на академический источник, ссылку относили к неподтверждённым. Команда учитывала, что ошибки в списках литературы существовали и до ChatGPT, поэтому для подсчёта взяла материалы после 2022 года, когда публичные большие языковые модели вошли в массовое использование.

Больше всего выдуманных ссылок нашли в SSRN, сервере препринтов с большим числом работ по социальным наукам. Среди материалов, размещённых там к августу 2025 года, 1,91% ссылок признали галлюцинациями. arXiv, где много публикаций по физике, математике, информатике и смежным дисциплинам, занял второе место с долей 0,39%. В PubMed Central, базе биомедицинских публикаций, показатель составил 0,27%, а в bioRxiv, где размещают препринты по биологии, - 0,21%.

Разрыв между SSRN и другими площадками оказался заметным. Доля ложных ссылок на сервере социальных наук почти в пять раз выше, чем в любом другом крупном репозитории из выборки Nature. Для социальных наук библиография особенно важна: через источники авторы связывают аргументы с предыдущими исследованиями, теориями и эмпирическими данными. Несуществующая работа даёт читателю ложную опору для вывода, который невозможно проверить.

Авторы не утверждают, что каждую неподтверждённую ссылку создал ИИ. В библиографии всегда встречались опечатки, перепутанные названия, неверные годы и ошибки при переносе данных. Поэтому оценку называют консервативной: в подсчёт попадали записи, похожие на академические источники, но отсутствующие в основных поисковых системах научной литературы. Препринт отдельно подчёркивает резкий рост несуществующих ссылок после широкого внедрения больших языковых моделей.

Исследование также показало неравномерное распределение ложных ссылок по авторам. Чаще они встречались в работах исследователей с небольшой публикационной историей до 2022 года. Сильнее проблема заметна у авторов, которые недавно начали активно публиковаться или не имели большого корпуса работ до появления массовых ИИ-инструментов.

Ещё одна деталь касается научного признания. Когда модель выдумывает ссылку, она нередко приписывает несуществующую работу известным и часто цитируемым учёным. По данным препринта, ложные записи непропорционально часто усиливают видимость авторов с высоким статусом, причём среди них чаще встречаются мужчины. Авторы считают, что ошибки больших языковых моделей могут не просто загрязнять литературу, а закреплять перекосы в распределении научного внимания.

Отдельный риск связан с модерацией препринтов и журнальным рецензированием. По выводам авторов, действующие фильтры ловят лишь часть выдуманных ссылок. Редакторы и рецензенты обычно проверяют содержание, методологию и выводы, но не всегда вручную сверяют каждую позицию в списке литературы. При нынешнем объёме публикаций такая проверка почти невозможна без автоматических инструментов.

Месячные оценки хорошо показывают масштаб. В августе 2025 года исследователи насчитали тысячи предполагаемых фальшивых ссылок в каждом крупном корпусе: около 3 353 в arXiv, 478 в bioRxiv, 767 в SSRN и 8 140 в PubMed Central. Если темп сохранялся до конца года, четыре репозитория вместе могли получить 146 932 ложные ссылки за 2025 год.

Для науки выдуманная ссылка опаснее обычной опечатки. Ошибка в годе или странице мешает, но часто всё равно позволяет найти источник. Галлюцинация создаёт видимость доказательства там, где доказательства нет. Если другие авторы перенесут ложную ссылку в новые статьи, ошибка начнёт распространяться дальше: в поисковые системы, обзоры литературы и обучающие данные будущих ИИ-моделей.

Авторы препринта считают результаты предупреждением для репозиториев, журналов и исследовательских групп. Проверку библиографии уже нельзя оставлять формальностью в конце рукописи. Научным площадкам придётся внедрять автоматическую сверку ссылок с базами данных, а авторам - внимательнее отделять реальную литературу от правдоподобных записей, которые сгенерировала модель. Работа пока не прошла рецензирование, но объём проверки показывает: проблема давно вышла за пределы отдельных курьёзных случаев.