Искусственный интеллект учится понимать отношения между объектами: новый метод позволяет создавать реалистичные и согласованные изображения

Искусственный интеллект учится понимать отношения между объектами: новый метод позволяет создавать реалистичные и согласованные изображения

Искусственный интеллект улучшает наше понимание визуальных отношений.

image

Ученые из Университета Твенте (Нидерланды) разработали новый метод искусственного интеллекта, который может построить сцены из изображений, которые могут служить основой для генерации реалистичных и согласованных изображений. Они недавно опубликовали свои результаты в журнале IEEE Transactions on Pattern Analysis and Machine Intelligence.

Генеративные модели искусственного интеллекта могут создавать изображения по текстовым запросам. Эти модели лучше всего работают, когда они создают изображения одиночных объектов. Создание полных сцен все еще сложно. Михаэль Инг Янг, исследователь из факультета ITC Университета Твенте, разработал новый метод, который может построить сцены из изображений, которые могут служить основой для генерации реалистичных и согласованных изображений.

Люди отлично определяют отношения между объектами. “Мы можем видеть, что стул стоит на полу, а собака идет по улице. Модели искусственного интеллекта находят это сложным”, - объясняет Янг, доцент группы понимания сцены факультета геоинформационной науки и наблюдения за Землей (ITC). Улучшение способности компьютера обнаруживать и понимать визуальные отношения необходимо для генерации изображений, но также может помочь восприятию автономных транспортных средств и роботов.

В настоящее время существуют методы для построения семантического понимания изображения, но они медленные. Эти методы используют двухэтапный подход. Сначала они отображают все объекты на сцене. На втором шаге некоторая специфическая нейронная сеть проходит через все возможные соединения и затем помечает их правильным отношением. Количество соединений, через которые этот метод должен пройти, возрастает экспоненциально с количеством объектов. “Наша модель делает всего один шаг. Она автоматически предсказывает субъекты, объекты и их отношения одновременно”, - говорит Янг.

Для этого одноэтапного метода модель смотрит на визуальные характеристики объектов на сцене и фокусируется на наиболее важных деталях для определения отношений. Она выделяет важные области, где объекты взаимодействуют или связаны друг с другом. Эти техники и относительно небольшие данные для обучения достаточны для определения наиболее важных отношений между разными объектами. Остается только сгенерировать описание того, как они связаны. “Модель обнаруживает, что на примерном изображении человек очень вероятно взаимодействует с бейсбольной битой. Затем она обучается описывать наиболее вероятное отношение: ‘человек-махает-бейсбольная бита’”, - говорит Янг.

Наш канал горячее, чем поверхность Солнца!

5778 К? Пф! У нас градус знаний зашкаливает!

Подпишитесь и воспламените свой разум