Цифровой генофонд безвозвратно испорчен. Добро пожаловать в эпоху вырождения искусственного интеллекта.
После запуска ChatGPT 30 ноября 2022 года специалисты в области ИИ начали всерьёз обсуждать возможные последствия этого явления — не только для технологий, но и для самих данных. Подобно тому, как ядерные испытания после 1945 года загрязнили окружающую среду радиацией, вызвав дефицит «чистых» металлов для медицины и техники, генеративный ИИ начал «засорять» интернет синтетическим контентом. Это, по мнению ряда учёных, может привести к так называемому «коллапсу моделей» — ситуации, когда ИИ всё чаще обучается на данных, сгенерированных другими ИИ, что постепенно ухудшает качество и надёжность результатов.
Проблема получила название Model Autophagy Disorder (MAD). Суть в том, что с каждым новым витком самообучения без доступа к «чистым» (человеческим) данным модели теряют способность к точным и разнообразным рассуждениям. Это может подорвать не только достоверность ИИ, но и конкурентную среду: компании, успевшие собрать качественные датасеты до 2022 года, получают серьёзное преимущество.
В 2023 году Джон Грэм-Камминг, тогдашний технический директор Cloudflare, зарегистрировал домен «lowbackgroundsteel[.]ai» — отсылка к «стали с низким радиационным фоном», которую учёные искали после ядерных взрывов. Аналогично, «чистые» данные до появления ИИ могут стать дефицитным стратегическим ресурсом. Учёные уже указывают на архивы вроде Arctic Code Vault (2020), как на потенциальные источники такой информации.
Авторы недавнего академического доклада , включая Мориса Чиодо и Рупрехта Подсзуна, предупреждают: загрязнение данных генеративным контентом грозит не только падением качества моделей, но и усилением монополий. Новым игрокам будет всё труднее войти на рынок — у них просто не останется доступа к «неиспорченным» данным.
Решения, предлагаемые специалистами, включают обязательную маркировку ИИ-контента, развитие федеративного обучения и ограниченный доступ к чистым данным без их прямой передачи. Но каждый вариант несёт свои риски: от нарушения приватности до злоупотреблений со стороны государств или корпораций. И хотя Европа с её AI Act уже готова к регуляции, США и Великобритания продолжают придерживаться подхода невмешательства, чтобы не тормозить инновации.
Авторы подчёркивают: модельный коллапс пока не доказан, но если он случится, восстановление может быть невозможным — загрязнённые данные не очистишь. А значит, действовать нужно сейчас, пока ещё можно сохранить «эпистемическую гигиену» — чистоту информации, на которой строится само будущее искусственного интеллекта .