Команда создала инструмент, который распознаёт предметы по голосовым командам без предварительной подготовки.

Новая разработка команды Пенсильванского университета показала, как современные технологии искусственного интеллекта меняют подход к навигации для людей с нарушениями зрения. Исследователи создали инструмент NaviSense, который сочетает рекомендации незрячего сообщества и алгоритмы искусственного интеллекта, формируя более точный и гибкий способ поиска предметов вокруг пользователя. Приложение получило признание на конференции SIGACCESS ASSETS 25 в Денвере, где авторы представили результаты и получили награду Best Audience Choice Poster Award.
Создатели отмечают, что многие доступные сегодня решения привязаны к участию операторов поддержки или к заранее загруженным моделям объектов. Такой подход иногда вызывает вопросы конфиденциальности и снижает гибкость. Руководитель проекта объясняет, что необходимость заранее добавлять модели предметов в память сервиса ограничивала возможности пользователей и требовала больших ресурсов. Для преодоления этих ограничений команда объединила возможности языковых и мультимодальных моделей, разместив их на внешнем сервере, к которому подключается приложение. Это позволило системе распознавать предметы по голосовым запросам без предварительной подготовки, анализируя окружающую среду в режиме реального времени.
NaviSense идентифицирует предметы (Caleb Craig/Penn State)
Прежде чем перейти к разработке, команда провела серию интервью с людьми с нарушениями зрения, чтобы получить представление о ключевых трудностях, с которыми сталкивается аудитория. На основании этих данных в NaviSense появились функции, которые отражают реальные потребности пользователей. Приложение не только находит запрошенный объект, но и отсеивает неподходящие варианты, задаёт уточняющие вопросы при необходимости и делает взаимодействие более естественным. После распознавания предмета смартфон направляет человека к цели с помощью вибрации и подсказок по аудиоканалу.
Отдельное внимание команда уделила функции отслеживания движения руки. NaviSense определяет положение телефона и сопоставляет его с обнаруженным предметом, помогая пользователю точнее тянуться в нужном направлении. Эта возможность стала одним из самых востребованных элементов системы, поскольку готовых решений с подобной точностью не существовало.
Для оценки эффективности NaviSense исследователи провели тестирование с участием 12 добровольцев. Участники сравнивали новое приложение с двумя коммерческими продуктами. Испытания показали, что NaviSense быстрее распознаёт предметы и точнее указывает направление, а опыт использования оказался более позитивным. По словам разработчиков, текущее состояние инструмента близко к готовности, однако команде ещё предстоит оптимизировать энергопотребление и повысить эффективность задействованных моделей.
Пенсильванский университет подчёркивает, что подобные проекты направлены на улучшение качества жизни людей и зависят от устойчивого финансирования исследований, которое помогает развивать технологии, поддерживающие безопасность и конкурентоспособность страны.