Цифровой дятел решит проблему галлюцинаций в ИИ-моделях

14:40 / 26 октября, 2023 3265

Инструмент Woodpecker предлагает новый подход к "воспитанию" нейросетей.

Исследователи из Университета науки и технологий Китая (USTC) в сотрудничестве с лабораторией Tencent YouTu Lab разработали фреймворк под названием Woodpecker (досл. — дятел) для коррекции так называемых «галлюцинаций» в мультимодальных больших языковых моделях (MLLMs).

MLLMs (Multimodal Large Language Models) — это модели искусственного интеллекта, способные обрабатывать и генерировать информацию в различных форматах, в основном текст и изображения. Нейросеть улавливает связи между словами и визуальным контентом, например, соотнося описания с соответствующими картинками или наоборот.

Галлюцинации в MLLMs проявляются, когда текст, сгенерированный нейросетью, не совпадает с изображением. Эта проблема становится все более актуальной, так как MLLMs активно применяются в различных отраслях: от создания развлекательного контента до автоматизированных систем поддержки клиентов.

До сих пор ученые решали проблему капитально — модель как бы обучали заново на других данных, что, конечно же, требовало значительных вычислительных ресурсов. Woodpecker предлагает альтернативный, менее энергозатратный подход.

Новый алгоритм состоит из пяти этапов:

1. Модель извлекает ключевые идеи из текста.

2. Формулирует вопросы на основе выделенных концепций.

3. Проверяет, насколько текст и картинка соответствуют друг другу, основываясь на визуальном анализе.

4. Описывает изображения заново, проанализировав свои же ответы на вопросы.

5. Корректирует галлюцинации с учетом новых вводных.

Название было выбрано не случайно: так же как дятел «лечит» деревья, этот инструмент исправляет ошибки в сгенерированных материалах.

Исследователи выложили исходный код Woodpecker в сеть, чтобы специалисты в области ИИ могли самостоятельно оценить его возможности. Для наглядности разработчики также предоставили интерактивную демоверсию системы, которая демонстрирует процесс коррекции ошибок в реальном времени.

Первоначальные эксперименты проводились на нескольких наборах данных. С POPE, одним из таких датасетов, новый метод позволил увеличить точность базовой модели с 54.67% до 85.33%.

Инструмент обещает стать настоящим прорывом в области искусственного интеллекта, а также открывает новые горизонты для использования MLLMs в приложениях и корпоративных программах.

ФЕЙК
1903

ЖИВЁТ
СЕЙЧАС

Антипов жжет

ПРОТОКОЛЫ СИОНСКИХ МУДРЕЦОВ: АНАТОМИЯ ПОДДЕЛКИ

			 Охранка, плагиат, Бернский суд. 2,2 миллиарда человек до сих пор верят. Разбор.
		

Встречайте PT NAD 13.0 — систему, способную не только выявлять угрозы в сети, но и автоматически реагировать на них

Цифровой дятел решит проблему галлюцинаций в ИИ-моделях

Подпишитесь на email рассылку