Спам, уходи: RETVec от Google на страже вашей электронной почты

Спам, уходи: RETVec от Google на страже вашей электронной почты

Новый инструмент поддерживает больше сотни языков «из коробки» и обещает значительное улучшение безопасности.

image

Google представила новый многоязычный текстовый векторизатор RETVec (Resilient and Efficient Text Vectorizer), предназначенный для обнаружения потенциально вредоносного контента, такого как спам и мошеннические письма в Gmail.

RETVec обучен устойчиво реагировать на манипуляции с текстом на уровне символов, включая вставки, удаления, опечатки, гомоглифы и многое другое. Модель разработана на основе новаторского кодировщика символов, способного эффективно кодировать все символы и слова в формате UTF-8.

На платформах, таких как Gmail и YouTube, уже давно используются модели классификации текста для выявления фишинговых атак, неприемлемых комментариев и мошенничества. Однако злоумышленники известны своими контрстратегиями для обхода этих защитных мер, включая применение текстовых манипуляций.

RETVec, уже на старте работающий с более 100 языками, направлен на создание более устойчивых и эффективных текстовых классификаторов как на сервере, так и на устройствах, при этом он отличается повышенной надёжностью и эффективностью.

Векторизация — методология обработки естественного языка (NLP), позволяющая преобразовывать слова или фразы из словаря в соответствующее числовое представление для дальнейшего анализа компьютером.

Эли Бурсзтейн и Марина Чжан из Google отметили: «Благодаря своей новаторской архитектуре RETVec работает "из коробки" на всех языках и со всеми символами UTF-8 без необходимости предварительной обработки текста, что делает его идеальным кандидатом для использования на устройствах, в вебе и при масштабной классификации текста».

Интеграция RETVec в Gmail улучшила обнаружение спама на 38% и снизила количество ложных срабатываний на 19,4%, а также понизила использование моделью тензорных вычислительных устройств (TPU) на 83%.

Модели, обученные с помощью RETVec, демонстрируют повышенную скорость вывода за счёт компактного представления. Уменьшение размера моделей снижает вычислительные затраты и задержку, что критично для масштабных приложений и моделей, работающих на устройствах.

Ваш провайдер знает о вас больше, чем ваша девушка?

Присоединяйтесь и узнайте, как это остановить!