Crean un sistema para detectar «spam» en tiempo real en Twitter

Michael McLoughlin / Colpisa

OCIO@

Investigadores de la UNED desarrollan un eficaz método estadístico para dar caza al contenido basura

30 may 2013 . Actualizado a las 21:45 h.

A lo largo de una jornada, son varios los temas que pueden agitar el nido del jilguero más conocido de Internet. Son los famosos y comentados trending topics, pequeños tsunamis de cientos, miles o millones de comentarios que eclipsan otros asuntos que aguardan en algún lugar de Twitter. Un momento en el que algunos aprovechan para lanzar sus redes y colar spam que frecuentemente pasa desapercibido para los sistemas de la plataforma. Ahora, un grupo de investigadores de la UNED han desarrollado un método estadístico basado en técnicas del lenguaje con el que pretenden dar caza a ese contenido basura.

«Básicamente, lo que intentamos es localizar esos mensajes con spam procesando el lenguaje que contienen los distintos tuits», explica Juan Martínez-Romo, uno de los autores del estudio recogido en la revista Expert Systems with Applications. Para comprobar la efectividad de su algoritmo han analizado más de 20 millones de publicaciones -llevan «unos ocho meses» con este trabajo- y 34.000 tendencias. Un proceso que también les ha llevado a revisar nada más y nada menos que unas seis millones de direcciones webs que aparecían en los tuits.

«Obviamente no es lo mismo cuando se habla de un terremoto que cuando, por ejemplo, se habla del embarazo de Britney Spears. Pero se podría decir que hasta un 10% de los mensajes que se intentan publicar en Twitter son contenido basura», aclara Martínez-Romo, quien matiza que muchos de esos intentos se quedan por el camino debido a las medidas de seguridad impuestas por la propia compañía. Su receta, por el momento, ha tenido una gran eficacia: clasificó correctamente el 93,7% de los mensajes maliciosos y en el caso de los aquellos que no lo eran, la tasa de identificación llega hasta el 89,3%.

En tiempo real

«El problema es que hasta ahora la mayoría de sistemas de detección se basaban en cuentas de usuarios», agrega. Un proceso, el de crear un perfil, que es sumamente fácil. «Esto provoca que la eliminación de estas cuentas sea una tarea infructuosa, porque a la vez, esa persona puede ir abriendo otras y seguir enviando contenido», explica. Además, la tarea se extiende en el tiempo porque para calificarle de spammer hay que hacer un seguimiento y que varios de sus comentarios «hayan sido reportados por la comunidad».

La fórmula creada por Martínez-Romo y Lourdes Araujo se «puede implementar» en tiempo real porque tratan los tuits de manera aislada. Combinando técnicas métricas y de lenguaje se analizan, entre otros valores, el número de verbos, sustantivos o adjetivos de cada mensaje. Esto permite construir modelos asociados a cada uno de los temas de debate y señalar los mensajes que se salgan de esa regla. «De esta forma, podemos detectar aquellos que no se correspondan y, por tanto, sean spam», anuncia Araujo.

«Se puede decir que los cibercriminales intentan buscar en vías menos estudiadas como las redes sociales o incluso aplicaciones como WhatsApp para hacer este tipo de ataques», opina Martínez-Romo.