Новый инструмент поддерживает больше сотни языков «из коробки» и обещает значительное улучшение безопасности.
Google представила новый многоязычный текстовый векторизатор RETVec (Resilient and Efficient Text Vectorizer), предназначенный для обнаружения потенциально вредоносного контента, такого как спам и мошеннические письма в Gmail.
RETVec обучен устойчиво реагировать на манипуляции с текстом на уровне символов, включая вставки, удаления, опечатки, гомоглифы и многое другое. Модель разработана на основе новаторского кодировщика символов, способного эффективно кодировать все символы и слова в формате UTF-8.
На платформах, таких как Gmail и YouTube, уже давно используются модели классификации текста для выявления фишинговых атак, неприемлемых комментариев и мошенничества. Однако злоумышленники известны своими контрстратегиями для обхода этих защитных мер, включая применение текстовых манипуляций.
RETVec, уже на старте работающий с более 100 языками, направлен на создание более устойчивых и эффективных текстовых классификаторов как на сервере, так и на устройствах, при этом он отличается повышенной надёжностью и эффективностью.
Векторизация — методология обработки естественного языка (NLP), позволяющая преобразовывать слова или фразы из словаря в соответствующее числовое представление для дальнейшего анализа компьютером.
Эли Бурсзтейн и Марина Чжан из Google отметили: «Благодаря своей новаторской архитектуре RETVec работает "из коробки" на всех языках и со всеми символами UTF-8 без необходимости предварительной обработки текста, что делает его идеальным кандидатом для использования на устройствах, в вебе и при масштабной классификации текста».
Интеграция RETVec в Gmail улучшила обнаружение спама на 38% и снизила количество ложных срабатываний на 19,4%, а также понизила использование моделью тензорных вычислительных устройств (TPU) на 83%.
Модели, обученные с помощью RETVec, демонстрируют повышенную скорость вывода за счёт компактного представления. Уменьшение размера моделей снижает вычислительные затраты и задержку, что критично для масштабных приложений и моделей, работающих на устройствах.