RETVec, la nueva defensa de Gmail contra el spam y los correos electrónicos maliciosos

RETVec, la nueva defensa de Gmail contra el spam y los correos electrónicos maliciosos

Google ha presentado RETVec, un nuevo vectorizador de texto multilingüe diseñado para detectar contenido potencialmente dañino en Gmail, como spam y correos electrónicos maliciosos. RETVec ha sido entrenado para resistir manipulaciones a nivel de caracteres, como inserciones, eliminaciones, errores tipográficos y sustituciones LEET. Este modelo utiliza un codificador de caracteres innovador que puede codificar eficientemente todos los caracteres y palabras UTF-8. Aunque plataformas como Gmail y YouTube dependen de modelos de clasificación de texto para detectar amenazas, los actores maliciosos siempre buscan formas de evadir estas medidas de defensa. RETVec, que funciona en más de 100 idiomas, tiene como objetivo ayudar a crear clasificadores de texto más resistentes y eficientes tanto en el servidor como en los dispositivos, al mismo tiempo que reduce los costos computacionales. La vectorización es una técnica utilizada en el procesamiento del lenguaje natural (NLP) para asignar representaciones numéricas a palabras o frases, lo que permite realizar análisis adicionales como análisis de sentimientos, clasificación de texto y reconocimiento de entidades nombradas. Según Elie Bursztein y Marina Zhang de Google, RETVec destaca por su arquitectura innovadora que le permite funcionar de inmediato en todos los idiomas y caracteres UTF-8, sin necesidad de preprocesamiento de texto, convirtiéndolo en la opción ideal para la clasificación de texto en dispositivos, web y a gran escala.

El gigante de la tecnología informó que la incorporación del vectorizador a Gmail ha mejorado la capacidad de detección de spam en un 38% en comparación con la base anterior, y ha reducido la tasa de falsos positivos en un 19,4%. Además, se ha logrado disminuir el uso de la Unidad de Procesamiento Tensorial (TPU) del modelo en un 83%. Los modelos entrenados con RETVec presentan una velocidad de inferencia más rápida gracias a su representación compacta. La reducción del tamaño de los modelos permite disminuir los costos computacionales y la latencia, lo cual resulta fundamental para aplicaciones a gran escala y modelos en dispositivos.

Referencia: https://thehackernews.com/2023/11/google-unveils-retvec-gmails-new.html


Deja un comentario


Contacto

  • Calle de la Prosa 136, San Borja Lima
  • (01) 225 1313
  • usuarios@osiptel.gob.pe
  • www.osiptel.gob.pe