Новая модель Blackout Diffusion генерирует изображения из пустоты

Новая модель Blackout Diffusion генерирует изображения из пустоты

Теперь ИИ не нужны входные данные для работы.

image

В рамках недавно прошедшей Международной конференции по машинному обучению (International Conference on Machine Learning, ICML) была представлена новая революционная система искусственного интеллекта под названием Blackout Diffusion. Технология позволяет генерировать изображения из абсолютно пустого изображения, что отличает её от других существующих генеративных моделей, таких как DALL-E или Midjourney. Отличительной особенностью Blackout Diffusion является отсутствие необходимости в начальных данных для запуска процесса генерации.

Исследователь ИИ из Национальной лаборатории Лос-Аламоса и соавтор работы Хавьер Сантос сказал, что генеративные модели запускают новую промышленную революцию, позволяя автоматизировать многие задачи, например, генерацию кода, юридических документов и даже произведений искусства.

Важным достижением Blackout Diffusion является возможность работы в дискретных пространствах, в отличие от существующих моделей, которые функционируют в непрерывных пространствах. Это расширяет потенциал применения технологии в научных исследованиях и других областях.

Генерация изображений на основе Blackout Diffusion

Диффузионные модели создают образцы, аналогичные данным, на которых они обучаются. Такие модели работают, беря изображение и неоднократно добавляя шум, пока изображение не станет неузнаваемым. На протяжении всего процесса модель пытается научиться возвращать ее в исходное состояние. Текущим моделям требуются входные данные, чтобы начать создавать изображения. Blackout Diffusion убирает такую необходимость.

Лидер проекта Blackout Diffusion, физик из Лос-Аламоса Йен-Тинг Лин, утверждает, что качество изображений, создаваемых с помощью системы, сопоставимо с результатами текущих моделей, но при этом требует меньших вычислительных ресурсов. Команда протестировала технологию на нескольких стандартных наборах данных:

  • базу данных Национального института стандартов и технологий (National Institute of Standards and Technology, NIST);
  • набор данных CIFAR-10, содержащий изображения объектов 10 различных классов;
  • набор данных атрибутов CelebFaces, который состоит из более чем 200 000 изображений человеческих лиц.

Ключевое отличие между дискретным и непрерывным пространствами заключается в том, что в дискретном пространстве значения ограничены и не могут быть произвольными в пределах диапазона, в то время как в непрерывном пространстве значения могут быть любыми в пределах определенного спектра. Дискретное и непрерывное пространства отличаются по типу значений, которые они могут содержать:

  1. Дискретное пространство: Значения разделены и отдельны друг от друга. Например, количество людей в комнате (1, 2, 3...) или категории цветов (красный, синий, зеленый). Вы не можете иметь половину человека или цвет, который находится между красным и синим в дискретной категории.
  2. Непрерывное пространство: Значения могут изменяться непрерывно и занимать любую точку в диапазоне. Например, температура в комнате может быть 20.5 градусов, 20.51 градуса, и так далее. Значения не ограничены конкретными отдельными точками.

Технология Blackout Diffusion открывает новые возможности для применения в научных исследованиях и различных областях, таких как текстовые и научные приложения. Кроме того, было доказано, что Blackout Diffusion может значительно сократить время научных симуляции на суперкомпьютерах, способствуя научному прогрессу и сокращая углеродный след вычислительной науки. Некоторые из разнообразных примеров, которые ученые упоминают, — это химические модели для создания лекарств, а также изучение экспрессии генов для понимания биохимических механизмов в живых организмах.