Инструмент Woodpecker предлагает новый подход к "воспитанию" нейросетей.
Исследователи из Университета науки и технологий Китая (USTC) в сотрудничестве с лабораторией Tencent YouTu Lab разработали фреймворк под названием Woodpecker (досл. — дятел) для коррекции так называемых «галлюцинаций» в мультимодальных больших языковых моделях (MLLMs).
MLLMs (Multimodal Large Language Models) — это модели искусственного интеллекта, способные обрабатывать и генерировать информацию в различных форматах, в основном текст и изображения. Нейросеть улавливает связи между словами и визуальным контентом, например, соотнося описания с соответствующими картинками или наоборот.
Галлюцинации в MLLMs проявляются, когда текст, сгенерированный нейросетью, не совпадает с изображением. Эта проблема становится все более актуальной, так как MLLMs активно применяются в различных отраслях: от создания развлекательного контента до автоматизированных систем поддержки клиентов.
До сих пор ученые решали проблему капитально — модель как бы обучали заново на других данных, что, конечно же, требовало значительных вычислительных ресурсов. Woodpecker предлагает альтернативный, менее энергозатратный подход.
Новый алгоритм состоит из пяти этапов:
1. Модель извлекает ключевые идеи из текста.
2. Формулирует вопросы на основе выделенных концепций.
3. Проверяет, насколько текст и картинка соответствуют друг другу, основываясь на визуальном анализе.
4. Описывает изображения заново, проанализировав свои же ответы на вопросы.
5. Корректирует галлюцинации с учетом новых вводных.
Название было выбрано не случайно: так же как дятел «лечит» деревья, этот инструмент исправляет ошибки в сгенерированных материалах.
Исследователи выложили исходный код Woodpecker в сеть, чтобы специалисты в области ИИ могли самостоятельно оценить его возможности. Для наглядности разработчики также предоставили интерактивную демоверсию системы, которая демонстрирует процесс коррекции ошибок в реальном времени.
Первоначальные эксперименты проводились на нескольких наборах данных. С POPE, одним из таких датасетов, новый метод позволил увеличить точность базовой модели с 54.67% до 85.33%.
Инструмент обещает стать настоящим прорывом в области искусственного интеллекта, а также открывает новые горизонты для использования MLLMs в приложениях и корпоративных программах.
Наш канал — питательная среда для вашего интеллекта