
Борьба со спамом по электронной почте — это постоянная, постоянно развивающаяся битва, и новейшая техника Gmail позволила повысить эффективность обнаружения на 38% благодаря улучшенной идентификации текста.
Спамеры часто используют омоглифы (символы, похожие на настоящие буквы), невидимые символы, перенасыщение ключевыми словами и другие «враждебные манипуляции с текстом», чтобы обойти модели классификации текста Gmail, которые выявляют фишинговые атаки, мошенничество и другой вредоносный контент.
Google противостоит этому с помощью RETVec (Resilient & Efficient Text Vectorizer). Этот подход, выпущенный Google Research в открытый доступ, «помогает моделям достигать передовой производительности классификации и значительно снижает вычислительные затраты», поддерживая «любой язык и все символы UTF-8 без необходимости предварительной обработки текста». Это делает его идеальным для использования на устройствах, в Интернете и в других крупномасштабных сценариях:
- «Модели, обученные с помощью RETVec, могут быть бесшовно преобразованы в TFLite для мобильных устройств и периферийных вычислений, благодаря нативной реализации в TensorFlow Text. Для развертывания моделей в веб-приложениях мы предоставляем реализацию слоя TensorflowJS, доступную на Github, и вы можете ознакомиться с демонстрационной веб-страницей с моделью на основе RETVec».
В Gmail RETVec повысил «уровень обнаружения спама по сравнению с базовым показателем на 38%», одновременно снизив как частоту ложных срабатываний (на 19,4%), так и использование тензорных процессоров (на 83%).
RETVec достигает этих улучшений благодаря очень легковесной модели встраивания слов (~200 тыс. параметров), что позволяет нам уменьшить размер модели Transformer при равной или лучшей производительности, а также благодаря возможности разделять вычисления между хостом и TPU эффективным по сети и памяти способом.
Google заявляет, что «тщательно протестировал RETVec» в течение последнего года и «признал его очень эффективным для приложений безопасности и защиты от злоупотреблений».
Если вы хотите использовать RETVec для своих собственных задач или исследований, мы создали учебное пособие, чтобы помочь вам начать работу.

