Как работают детекторы ИИ и почему их вердикт стоит перепроверять

24596
Как работают детекторы ИИ и почему их вердикт стоит перепроверять
image

В июле 2023 года OpenAI закрыла собственный инструмент для распознавания машинных текстов, дописав один абзац к старой записи в блоге. Причину сформулировали прямо, низкая точность. На старте классификатор находил лишь 26% сгенерированных фрагментов и при этом записывал в роботы 9% живых авторов. Компания, которая знает о больших языковых моделях больше других, не сумела надёжно опознавать тексты собственных моделей.

Тем же летом несколько популярных детекторов проверили текст Конституции США и определили его как сгенерированный нейросетью. Документу больше двух веков. Случай обнажает общее свойство детекторов, уверенный тон вердикта ничего не говорит о его правильности.

Что такое детектор ИИ

Детектор читает текст и отвечает на единственный вопрос, писал человек или машина. Категоричного ответа почти никогда не бывает. Программа выдаёт вероятность, например «85% за машинное происхождение». Цифра создаёт впечатление измерения, хотя за ней стоит статистическая догадка.

Понимания смысла за ответом нет. Детектор не оценивает, умная перед ним мысль или пустая, он реагирует на статистические следы, по которым машинный текст отличается от человеческого. Так собака на таможне не знает формулу вещества, а отзывается на знакомый запах. Когда нюх подводит, под подозрение попадает и чистый багаж.

Признаки, по которым детектор отличает машину

Инструмент придумали, когда генеративные модели вошли в массовый обиход. После запуска ChatGPT в конце 2022 года преподаватели начали получать подозрительно гладкие эссе, а редакторы заметили, что тексты внештатных авторов сравнялись по манере. Спрос на проверку появился сразу.

Большинство детекторов работают на машинном обучении. Модель обучают на тысячах, иногда миллионах человеческих и сгенерированных текстов, после чего она ищет в проверяемом тексте несколько признаков.

  • Предсказуемость текста (по-английски perplexity, перплексия). Языковая модель на каждом шаге берёт самое вероятное следующее слово, поэтому её текст легко предугадать. Человек выбирает иначе, делает странные повороты, начинает фразу неуклюже, берёт слово, которое удивляет его самого. Чем неожиданнее текст, тем человечнее он для детектора.
  • Разброс длины предложений (burstiness, «взрывность»). У живого автора ритм скачет, длинная фраза с придаточными сменяется короткой рубленой. Машина держит ровный строй из предложений примерно одной длины.
  • Связки между мыслями. Человек петляет, уходит в сторону, возвращается к сказанному абзацем выше. Модель идёт по прямой, от пункта к пункту.
  • Словарь автора. У каждого человека есть слова, которые он переупотребляет, и слова, которых избегает. У модели свой набор предпочтений, унаследованный от обучающих текстов.

Здесь и прячется слабое место. Детектор ищет не искусственность, а предсказуемость, ровный ритм и гладкость. Теми же свойствами обладают отредактированный канцелярский текст, юридический документ, научная статья и сочинение человека, который пишет на неродном языке простыми, осторожными конструкциями. Конституция США попала под подозрение по той же причине.

Чем детектор ИИ отличается от антиплагиата

Два инструмента постоянно путают, хотя задачи у них разные.

Параметр Антиплагиат Детектор ИИ
Главный вопрос Откуда это списано? Кто написал, человек или машина?
Метод Сравнение с базой опубликованных текстов, поиск совпадений Анализ статистических признаков почерка
Что ищет Дословные заимствования (обычно от пяти слов подряд) Предсказуемость и ровный ритм
Чего не умеет Отличить машину от человека Найти источник заимствования

Антиплагиату безразличен автор, ему важно, не скопирован ли фрагмент из другого источника. Детектор ИИ не интересует, встречается ли текст где-то ещё, его вопрос об авторстве. Зоны изредка пересекаются, нейросеть иногда дословно повторяет чужой текст, не понимая, что цитирует. В остальном инструменты решают противоположные задачи.

Где детекторы ошибаются

Детекторы ошибаются не от случая к случаю, а системно, и слабые места давно описаны.

Проблема Насколько серьёзно Как часто
Ложные срабатывания Высоко Очень часто
Смещение обучающих текстов Средне Часто
Отставание от новых моделей Высоко Постоянно
Слепота к контексту Средне Повсеместно
Зависимость от длины текста Средне Часто

Тяжелее всего обходятся ложные срабатывания, когда программа клеймит роботом живого человека. В 2023 году исследователи из Стэнфорда прогнали эссе студентов через семь популярных детекторов. Работы американских школьников система разметила почти безупречно. Эссе людей, для которых английский неродной (тексты из теста TOEFL), детекторы в среднем приняли за машинные в 61% случаев, а хотя бы один детектор пометил как сгенерированные 97% таких работ.

Объяснение простое и оттого неприятное. Пишущий на неродном языке берёт словарь попроще, строит фразы ровнее, избегает рискованных оборотов, то есть ведёт себя как алгоритм. Детектор не отличает осторожность новичка от расчёта машины и записывает обоих в предсказуемые. Ошибка бьёт не наугад, а по конкретной группе, и за технической погрешностью встаёт вопрос справедливости.

Детекторы отстают от моделей. Генеративные системы обновляются ежемесячно и пишут всё естественнее, а алгоритмам проверки нужно время на перенастройку. В зазор между выходом новой модели и появлением детектора, который её узнаёт, проскальзывает свежий текст.

Контекст детекторы чаще всего игнорируют. Медицинскую статью и личный блог пишут по разным правилам, но большинство программ меряет их одной меркой, и формальный сухой стиль сам по себе набирает высокий машинный балл. Подводит и длина. На коротком фрагменте зацепиться не за что, паттернов мало, поэтому пара предложений легко получает ярлык робота из-за нехватки материала.

Заявленные 98% и решение университетов отключить проверку

Разрыв между обещаниями и практикой виден на примере Университета Вандербильта. Сервис Turnitin, которым пользуются тысячи учебных заведений, заявлял о точности около 98% и доле ложных срабатываний ниже 1%. Вандербильт перевёл проценты в людей. При 1% ошибок на потоке из 75 тысяч работ за год под несправедливое подозрение попадает около 750 студентов. В августе 2023 года университет отключил детектор Turnitin, сославшись на риск ложных обвинений и предвзятость к неносителям языка. Следом проверку отключили Йель, Университет Джонса Хопкинса и несколько кампусов Калифорнийского университета.

Внутренняя логика сервиса добавляет нюанс. Чтобы удержать ложные срабатывания на низком уровне, Turnitin сознательно пропускает часть машинного текста, примерно каждое седьмое сгенерированное предложение остаётся неотмеченным. Компания предпочитает упустить робота, чем оклеветать человека, поэтому заявленные 98% относятся к узкому набору условий.

Диплом за сутки и ответ Антиплагиата

Российская дискуссия об ИИ в вузах началась с конкретного скандала. В 2023 году студент РГГУ Александр Жадан публично рассказал, что защитил диплом, написанный в ChatGPT. На текст ушло около суток, нейросеть пришлось немного дообучить, и 60 страниц вузовская система оценила как оригинальные на 82%. Часть пользователей потребовала отозвать диплом. РГГУ диплом сохранил, а вопрос о том, как ловить таких студентов, остался открытым. Списывание у машины тогда обнаружила не программа, а сам пост в соцсети.

Отрасль ответила технически. С 2025 года в систему Антиплагиат.ВУЗ встроили модуль, который подсвечивает похожие на сгенерированные фрагменты и выводит предупреждение в отчёте. Разработчик не выдаёт инструмент за безошибочный и прямо признаёт, что нейросети развиваются быстрее систем проверки. Такая оговорка делает позицию честнее круглых цифр на сайтах западных поставщиков.

Водяные знаки в сгенерированном тексте

Распознать машину по почерку выходит плохо, поэтому инженеры зашли с другой стороны и стали помечать текст в момент генерации. Заметнее других проект SynthID от Google DeepMind.

Механизм аккуратный. Выбирая очередное слово, SynthID чуть смещает вероятности так, чтобы в готовом тексте сложился незаметный человеку узор. Отдельный детектор сверяет узор с эталоном и сообщает, есть метка или нет. Качество текста почти не страдает. Осенью 2024 года Google открыла код инструмента, на конференции I/O в 2025 году запустила портал SynthID Detector для загрузки и проверки файлов, а к началу 2026 года метку получили более десяти миллиардов фрагментов.

Ограничения у метода серьёзные. SynthID видит только то, что создано инструментами самой Google, а текст из ChatGPT или другой модели для него прозрачен. Метка стирается, если прогнать текст через переводчик и обратно или основательно его переписать, чем и занимаются сервисы по «очеловечиванию» текста. Google признаёт, что технология не пуленепробиваема.

Закон подталкивает в ту же сторону. Европейский AI Act, действующий с августа 2024 года, требует помечать вывод ИИ-систем машиночитаемым способом с полным переходом к 2026 году. Для европейского рынка водяные знаки из добровольной меры становятся обязательным требованием.

Гонка детекторов и обходных инструментов

Параллельно с детекторами растёт индустрия «гуманизаторов», программ, которые перетасовывают сгенерированный текст, подгоняя перплексию и ритм под человеческий диапазон. Инструменты знают, какие маркеры ищет детектор, и целенаправленно их ломают. Каждый новый прогон повышает шанс проскочить.

Рецепт обхода давно известен и заодно объясняет, почему живых авторов принимают за машину. Чтобы текст не выдавал робота, нужно ровно то, чего модели не хватает. Менять длину предложений, вставлять личные примеры и мнения, уходить в сторону и возвращаться, выбирать неожиданные слова. Тот же список описывает обычное хорошее письмо, так что детектор фактически штрафует за вычищенный канцелярит и поощряет живость.

Круг замыкается. Модели учатся писать естественнее, детекторы догоняют, гуманизаторы помогают увернуться, детекторы снова перенастраиваются. Финишной черты у гонки не видно.

Насколько можно доверять детекторам

Как подсказка детектор полезен, как доказательство непригоден. В идеальных условиях лучшие инструменты дают 60–80% надёжности, а на отредактированном или коротком тексте точность падает сильнее. Цифра «92% машинного» на экране ничего не доказывает и служит лишь поводом запросить черновики и историю правок.


Для того, кого детектор пометил ошибочно, последствия выходят неприятные. Оспорить вердикт удаётся только черновиками и историей правок, потому что сама программа объяснить своё решение не умеет, а её разработчики не раскрывают, по каким именно признакам выносится приговор.

MAX
MAX
[ confession.log ]
Не спрашивайте, почему
мы в MAX
Мы и сами не гордимся. Но раз уж вы здесь —
$ whoami
securitylab
$ reason?
unknown
Смотреть →
реклама