Как распознать текст, написанный нейросетью: чек-лист преподавателя и приёмы OSINT

Как распознать текст, написанный нейросетью: чек-лист преподавателя и приёмы OSINT

Вчера мы отлавливали плагиат, сравнивая студенческие эссе с чужими работами. Сегодня приходится ловить галлюцинации ChatGPT. Роботы пишут без орфографических ошибок, но оставляют за собой целый зоопарк мелких, но броских улик. Разбираемся, как не стать жертвой идеально-вылизанного, но пустого текста и зачем преподаватель из Флориды заставляет студентов рисовать эм-деш прямо на занятии.

Учебники пишут боты: пролог из Флориды

Марк Массаро, преподающий академическое письмо в Florida SouthWestern State College, заметил странную статистику: примерно каждое пятое эссе выглядит так, будто его настрочила нейросеть. Детекторы вроде Turnitin и GPTZero помогают плохо: правила приватности запрещают массово загружать студенческие черновики, а точность алгоритмов колеблется с 80 до 50 % в зависимости от ухищрений автора.

Устав ждать чудо-алгоритм, Массаро составил собственный чек-лист «красных флагов». Мы расширили его опыт выводами коллег-лингвистов и специалистов по OSINT-проверке.

Чек-лист подозрительных признаков

Ниже — полный «радар» 2025 года: приметы, которые чаще всего выдают машинный текст. Для удобства они разделены на две группы: базовые и продвинутые.

Базовые индикаторы

  1. Злоупотребление эм-дашами — ChatGPT любит длинные паузы, а большинство студентов не знают, как набрать «—». Попросите показать сочетание клавиш: запинка говорит громче слов.
  2. Отсутствие абзацных отступов. При копировании из чата форматирование стирается, и текст выглядит монолитом.
  3. Идеальная грамматика и «вода» по содержанию. Абзацы одинаковой длины, академический блеск — и ноль свежих мыслей.
  4. Полное отсутствие черновиков. Ни комментариев, ни версий — будто эссе родилось совершенным.
  5. Безличный или «глобально-философский» тон. Нейросеть рассуждает об «универсальной ценности дружбы», но боится описать запах кофе из ночной смены в 7-Eleven.
  6. Фейковые цитаты или ссылки. DOI не существует, журнал не гуглится, а автор статьи — плод воображения модели.

Продвинутые индикаторы 

# Потенциальный сигнал Почему настораживает
1 Вики-определение «в лоб» в первом абзаце
«X — это…»
LLM пытается сразу «обозначить тему», живой автор чаще заходит с примера или истории.
2 Гиперкорректная пунктуация Запятые и точки с запятой расставлены по канонам Розенталя, иногда выглядят избыточно или «сухо».
3 Конвейерные связки
«Кроме того», «Более того» строго в начале абзацев
Модель использует шаблонные переходы, чтобы поддержать «ритм».
4 Смешение языковых норм
«трёх/трех», «behavior/behaviour»
Корпусы обучения разнородны, модель путает стандарты.
5 Академическая лексика при бытовой теме «Парадигма социокультурной динамики фастфуда» явно перебор для школьного эссе.
6 Равномерная длина предложений Малая дисперсия длины — типичный «машинный монотон».
7 Факты без проверяемого источника Уточнить публикацию невозможно, названия организаций вымышлены.
8 Чрезмерное раскрытие аббревиатур ИИ поясняет VPN — Virtual Private Network при каждом упоминании; человек делает это один раз.
9 Отсутствие «человеческой грязи» редактора Ни опечаток, ни двойных пробелов, ни случайных автозамен.
10 Системные хвосты HTML/Markdown В тексте остаются невидимые теги или комментарии вида <!-- GPT -->.

Лайфхак: сравните дисперсию длины предложений подозрительного эссе и предыдущих работ студента. Разница > 30 % — повод для беседы.

AI-детекторы: удобно, но доверяй — проверяй

Сервисы GPTZero , Turnitin , Originality.ai обещают точность до 98 %, но в реальности показатели падают, если студент перефразирует текст или переделывает текст вручную. Ложные срабатывания и пропущенные «боты» пока неизбежны, поэтому детектор — лишь фонарик, а не приговор.

  • Плюсы: быстро, массово, встраивается в LMS.
  • Минусы: высокая цена, обход синонимайзером, риск обвинить честного автора.

Комбинируем OSINT и педагогику

  1. Попросите показать черновики в Google Docs — история изменений никогда не врет.
  2. Устный блиц-опрос — помощь автору «защитить» тезисы.
  3. «Тест эм-деш» — пускай наберёт длинное тире на клавиатуре без Google.
  4. Небольшие правки — поменяйте пару слов, снова прогоните через детектор. Вероятность AI резко упала? Перед вами робот.
  5. Личный вопрос — «Опишите запах аудитории утром экзамена». Модель растеряется, а студент — нет.

Как автору не выглядеть роботом

  • Добавляйте детали, которые могли видеть только вы.
  • Чередуйте длину предложений и ритмику.
  • Перепроверяйте каждую ссылку вручную.
  • Сохраняйте промежуточные версии — преподаватель оценит ваш рост.

Итоги

Нейросети не убивают письмо, но усложняют диагностику подлинности. От идеальных эм-дешей до «энциклопедии в первом абзаце» — каждое несоответствие приближает к разгадке. Чем внимательнее читатель, тем изобретательнее станет бот. Похоже, главный лайфхак будущего — писать так, чтобы ни один алгоритм не спутает вас с другим человеком, ведь алгоритмы учатся на среднестатистическом, а ваш почерк — уникален.

Проверьте себя прямо сейчас: сможете ли вы набрать эм-деш, не открывая поисковик?

Alt text
Обращаем внимание, что все материалы в этом блоге представляют личное мнение их авторов. Редакция SecurityLab.ru не несет ответственности за точность, полноту и достоверность опубликованных данных. Вся информация предоставлена «как есть» и может не соответствовать официальной позиции компании.
Антивирус для мозга!

Лечим цифровую неграмотность без побочных эффектов

Активируйте защиту — подпишитесь

Николай Нечепуренков

Я – ваш цифровой телохранитель и гид по джунглям интернета. Устал видеть, как хорошие люди попадаются на уловки кибермошенников, поэтому решил действовать. Здесь я делюсь своими секретами безопасности без занудства и сложных терминов. Неважно, считаешь ты себя гуру технологий или только учишься включать компьютер – у меня найдутся советы для каждого. Моя миссия? Сделать цифровой мир безопаснее, а тебя – увереннее в сети.