Умение сидеть на корточках: следующий потребительский интернет-кошмар?

Подключенные устройства быстро распространяются, и этот рост означает, что мы только начинаем ломать голову над потенциальными вариантами использования технологии Интернета вещей (IoT). IoT быстро перешел от основных подключенных к Интернету гаджетов и носимых устройств к более сложным интерактивным функциям, таким как обработка голоса, что, в свою очередь, привело к значительному росту числа голосовых устройств, таких как интеллектуальные динамики.

По данным нового исследования Adobe Analytics, в августе 2018 года 32 процента опрошенных потребителей сообщили, что владеют интеллектуальным динамиком, по сравнению с 28 процентами в январе прошлого года . Уровень внедрения технологии Voice Assistant превзошел даже показатели смартфонов и планшетов — на самом деле, некоторые предсказывают, что к 2020 году 225 миллионов интеллектуальных динамиков появятся в домах по всему миру. Но с каким риском?

Умные колонки стремительно развиваются

Поскольку мы наблюдаем, как эта база интеллектуальных динамиков продолжает расти, мы должны учитывать потенциальные последствия для безопасности, которые эти устройства приносят в дома людей. Одной из таких менее известных угроз, которые мы можем ожидать, является использование навыков, и оно, вероятно, перерастет в законную проблему кибербезопасности.

Устройства с голосовым помощником полагаются на «навыки» или комбинации словесных команд, которые инструктируют помощника выполнить задание. Когда пользователь дает устную команду диктуя фразу или утверждение, устройство регистрирует команду и определяет, какое умение пользователь хотел бы активировать. От включения освещения в вашей гостиной до добавления предмета в список покупок — или даже покупки этих продуктов — для каждой команды, которую вы даете, есть навык (действие), связанные с этой задачей.

Каждый умный помощник имеет возможность стать еще умнее с небольшими программными апплетами, которые позволяют ему запускать процессы автоматически. Эти апплеты будут искать утверждение, а затем действовать по нему, выполняя ряд связанных навыков; например, стоя на кухне, вы можете дать команду своему умному динамику «сыграть немного музыки для ужина», которая находит музыку, а затем активирует ближайший динамик. Но для того, чтобы выполнить команду, устройство должно точно интерпретировать слова пользователя перед тем, как связать команду с определенным действием, который пользователь хотел бы активировать.

В прошлом сентябре Amazon сообщила, что разработчики создали и запустили более 50 000 навыков (действий) Alexa, а более 3500 брендов внесли свой вклад в эту библиотеку. Вполне вероятно, что еще больше навыков и разработчиков начали использовать наборы инструментов для создания новых навыков за четыре месяца, которые уже прошли с момента представления этого отчета.

Нет никаких ограничений для технологии обработки голоса, которая является одновременно захватывающей и тревожной. Вы могли бы даже подумать, что это пространство немного похоже на Дикий Запад — здесь есть неограниченные возможности для инноваций, но с небольшими гарантиями или четким пониманием пользователем рисков, связанных с этой технологией.

Вы имели в виду «олень» или «дорогой» (‘Deer’ or ‘Dear’)?

Что происходит, когда умный динамик подключает своего пользователя к неправильному навыку? Обычно просто разочарование пользователя сопровождается агрессивным повторением предполагаемой команды. Но могут быть и более зловещие выводы.

Технология обработки голоса не всегда правильно интерпретирует команды. В случае с гомофонами или нечеткими командами могут быть допущены ошибки. После тестирования 537 000 аудиозаписей сэмплов речи на платформе Amazon Alexa команда исследователей из Университета Иллинойса в Урбана-Шампейн (UIUC) обнаружила 27 предсказуемых ошибок . Некоторые из них были гомофонами — например, ‘sale’ и ‘sail’ – но некоторые имели разные фонетические структуры, такие как ‘coal’ и ‘call’ или ‘dime’ и ‘time’.

Весь этот потенциал для ошибки подвергает пользователей риску активировать навыки, которые они не намеревались — и поэтому открывает новые возможности для использования киберпреступниками. Плохие актеры могут развивать навыки, которые охотятся на предсказуемые ошибки, в надежде перенаправить команды на вредоносные команды, предназначенные для таких вещей, как предоставление доступа к информации о паролях, домашней сети или даже передаче записей третьим лицам. Это известно, как умение сидеть на корточках (skill squatting).

Возьмите пример «coal» и «call» — хакер может знать, что «call mom» — это обычная фраза, произносимая умному динамику говорящим. Затем они могут развить мошенническое умение, которое запускается кем-то, говорящим «coal mom», совершенно другую фразу, которую вряд ли можно назвать законной командой, но которую умный оратор может легко спутать с намеченной фразой, запустить злоумышленника команду, а затем ссылку на и запустить правильный навык — все, пока пользователь совершенно не знает, что это произошло.

К сожалению для потребителей, исследовательская группа UIUC смогла успешно указать на 25 из 27 предсказуемых ошибок, по крайней мере, один раз — 93% успеха. 

Оружие для атак

Хотя эти атаки еще не были обнаружены в дикой природе, реальные последствия слишком легко представить. Из опыта — а теперь и из исследований — мы знаем, что системы распознавания речи допускают ошибки, которые могут дать киберпреступникам доступ к домашней сети пользователя. Активируя данное действие, неопытный пользователь может позволить злоумышленнику извлечь информацию о своей учетной записи, домашней сети и даже пароли перед запуском запрошенной команды. Поскольку эти устройства обычно работают быстро и без экрана, вредоносное действие будет активировано так быстро, что пользователь не заметит. Как и другие атаки, киберпреступники могут извлечь выгоду из человеческого поведения и предсказуемых ошибок, чтобы перехватить нужные команды и перенаправить пользователей на вредоносные навыки.

Оригинал

Владимир Безмалый

О безопасности и не только