Проблема дефицита данных и ее последствия для развития искусственного интеллекта.
Новое исследование показывает, что системы искусственного интеллекта (ИИ) могут исчерпать все бесплатные ресурсы знаний в интернете уже к 2026 году. Это вызывает серьезные опасения относительно будущего развития ИИ-технологий. Модели ИИ, такие как GPT-4 и Claude 3 Opus, используют триллионы слов из интернета для обучения. Прогнозы указывают на то, что запасы общедоступных данных могут быть исчерпаны в период с 2026 по 2032 год.
Для дальнейшего улучшения моделей, технологическим компаниям придется искать новые источники данных. Это может включать создание синтетических данных, использование менее качественных источников или обращение к частным данным, хранящимся на серверах, где находятся сообщения и электронные письма. Исследование, опубликованное на сервере препринтов arXiv, подтверждает эту тенденцию.
Без новых данных прогресс в области ИИ может замедлиться, и модели будут улучшаться медленно, полагаясь на новые алгоритмические разработки и естественно создаваемые данные. Примером служит обучение ChatGPT, использующего около 570 ГБ текстовых данных, включающих 300 миллиардов слов из книг, статей, Википедии и других источников.
Недостаток или низкое качество данных приводит к ошибочным результатам. Например, Google's Gemini AI предлагал пользователям добавлять клей на пиццу или есть камни, используя данные из Reddit и сатирического сайта The Onion.
Для оценки объема доступного текста в интернете исследователи использовали индекс Google, рассчитав, что существует около 250 миллиардов веб-страниц, каждая из которых содержит 7000 байтов текста. Прогнозы показали, что высококачественная информация исчерпается до 2032 года, а низкокачественные данные будут использованы к 2050 году. Изображения также будут исчерпаны к 2060 году.
Хотя дефицит данных может замедлить развитие ИИ, компании могут использовать различные подходы для решения этой проблемы. В частности, компании могут обращаться к частным данным, как это планирует Meta с 26 июня, используя взаимодействия с чат-ботами для обучения генеративных моделей ИИ.
Еще одним вариантом является использование синтетических данных, хотя до сих пор это успешно применялось только в обучении систем для игр, кодирования и математики. Однако, если компании начнут собирать интеллектуальную собственность или личную информацию без разрешения, это может привести к юридическим спорам.
Кроме дефицита данных, существуют и другие вызовы для развития ИИ. Например, поиск в Google, поддерживаемый ChatGPT, потребляет почти в 10 раз больше электроэнергии, чем традиционный поиск. Это побуждает технологические компании развивать стартапы по ядерному синтезу для удовлетворения потребностей центров обработки данных, хотя этот метод генерации энергии пока далек от реализации.
Никаких овечек — только отборные научные факты