¿Cómo funciona el cálculo del trending topic de Twitter?

12 septiembre, 2013

[versió en Català]

Dado que este es un tema que genera bastante polémica, hemos decidido responder en la medida de lo posible a la pregunta del título. Hay buenas explicaciones por la red, como esta, en las que se basará esta entrada.

Supongo que todos sabemos qué es Twitter: Un servicio de microblogging en forma de red social. Una de las características que nos interesa es que a los comentarios que escribimos les podemos añadir lo que se suele llamar hashtags (etiqueta), en principio, con el objeto de clasificarlos en temas. A partir de los hashtags utilizados por los usuarios, Twitter hace una explotación en la que muestra (globalmente y también por regiones) la tendencia actual (en un horizonte de 24 horas) o lo que conocemos como trending topics. Esto es una lista con los hashtags «que marcan tendencia».

Black-chinned Hummingbird. Imagen CC Attribution-Share Alike 3.0 Unported del usuario Mdf de Wikimedia Commons

El problema que suele darse en Twitter es que los usuarios hacen una suposición respecto a los trending topics: El cálculo de éstos se hace de manera absoluta, numéricamente. Así, suponemos que si el hashtag x aparece en 1000 tweets y el hashtag y en 500, x debe estar más arriba de la lista que y. Pues bien, eso NO es cierto. El algoritmo que se aplica no es sobre valores absolutos de frecuencia sino sobre digámosle «popularidad y frescura». Eso hace que hashtags que se utilizan mucho un cierto día no sean trending topic y los usuarios vean una sombra de censura detrás.

Entonces ¿cómo funciona el algoritmo que calcula trending topics? Pues bien, Tweeter no lo ha «liberado» por lo que no os puedo escribir el pseudocódigo, pero sí que han intentado explicarlo:

“The new algorithm identifies topics that are immediately popular, rather than topics that have been popular for a while or on a daily basis, to help people discover the ‘most breaking’ breaking news from across the world. We think that trending topics which capture the hottest emerging trends and topics of discussion on Twitter are the most interesting.» (sección de Ayuda de Twitter)

Efectivamente, el algoritmo no pretende mostrar «lo más twitteado«, sino «lo twitteado más nuevo.» Por lo tanto, cuando un hashtag lleva tiempo siendo usado, se «penaliza» dentro del algoritmo. Es por esto que, si quieres que un cierto hashtag llegue a ser trending topic es importante que los tweets que lo incluyan nada más en un periodo de tiempo limitado. Así pasa con programas de televisión, series, noticias de última hora, etc.

En fin, la estrategia para conseguir un trending topic sería parecida a la que se utilizó para una gran película basada en una obra del gran Chuck Palahniuk que no nombraré: «La primera regla del club de la lucha: Nadie habla sobre el club de la lucha


Atès que aquest és un tema que genera força polèmica, hem decidit respondre en la mesura del possible a la pregunta del títol. Hi ha bones explicacions per la xarxa, com aquesta, en què es basarà l’entrada.

Suposo que tots sabem què és Twitter: Un servei de microblogging en forma de xarxa social. Una de les característiques que ens interessa és que als comentaris que escrivim els podem afegir el que se sol anomenar hashtags (etiqueta), en principi, amb l’objecte de classificar-los en temes. A partir dels hashtags utilitzats pels usuaris, Twitter fa una explotació en la qual mostra (globalment i també per regions) la tendència actual (en un horitzó de 24 hores) o el que coneixem com a trending topics. Això és una llista amb els hashtags «que marquen tendència».

El problema que sol donar-se a Twitter és que els usuaris fan una suposició respecte als trending topics: El càlcul d’aquests es fa de manera absoluta, numèricament. Així, suposem que si el hashtag x apareix en 1000 tweets i el hashtag y en 500, x ha d’estar més amunt de la llista que y. Doncs bé, això NO és cert. L’algorisme que s’aplica no és sobre valors absoluts de freqüència sinó diguem «popularitat i frescor». Això fa que hashtags que s’utilitzen molt un cert dia no siguin trending topic i els usuaris vegin una ombra de censura al darrere.

Llavors com funciona l’algorisme que calcula trending topics? Doncs bé, Tweeter no l’ha «alliberat» pel que no us puc escriure el pseudocodi, però sí que han intentat explicar-lo:

“The new algorithm identifies topics that are immediately popular, rather than topics that have been popular for a while or on a daily basis, to help people discover the ‘most breaking’ breaking news from across the world. We think that trending topics which capture the hottest emerging trends and topics of discussion on Twitter are the most interesting.» (secció d’Ajuda de Twitter)

Efectivament, l’algorisme no pretén mostrar «el més tuitejat» (o piulat), sinó «el tuitejat més nou.» Per tant, quan un hashtag porta temps sent usat, es «penalitza» dins de l’algorisme. És per això que, si vols que un cert hashtag arribi a ser trending topic és important que els tweets que ho incloguin res més en un període de temps limitat. Així passa amb programes de televisió, sèries, notícies d’última hora, etc.

En fi, l’estratègia per a aconseguir un trending topic seria semblant a la que es va utilitzar per a una gran pel·lícula basada en una obra del gran Chuck Palahniuk que no anomenaré: «La primera regla del club de la lluita: Ningú no parla sobre el club de la lluita. «

(Visited 181 times, 1 visits today)
Autor / Autora
Daniel Riera Terren
Comentarios
SEO18 septiembre, 2013 a las 10:05 am

Seguramente, aparte de lo mas nuevo, utilicen también otras opciones y no han dicho nada para que la gente no los pueda manipular tan fácilmente.
Excelente articulo, creía que era justo al revés como Twitter media los Trending Topic.

Responder
dani18 septiembre, 2013 a las 4:12 pm

Hola SEO,
Efectivamanete, Twitter no quiere abrir el código del algoritmo probablemente porque no quieren que se puedan «cocinar» TTs, pero la ingeniería inversa es muy potente, y dado que los tweets son públicos, siempre se pueden analizar a posteriori para aproximar fórmulas. Por la red hay artículos que se atreven a ir más allá y proponen más variables que intervienen en el cálculo. Ahora bien, si hacemos caso a lo que nos dicen los de Tweeter, las variables principales son «cantidad» y «novedad».

Responder
Zoe20 enero, 2015 a las 11:36 pm

Hola Dani.
Muy interesante el artículo, aunque es de 2013 sabes si hoy en día «2015» esto sigue siendo así? quiero decir, para ser TT sigue valiendo con cantidad y novedad?

Un saludo.

Responder
dani21 enero, 2015 a las 8:51 am

Hola Zoe,

Efectivamente, la filosofía sigue siendo la misma. De hecho, ellos mismos lo indican en las FAQ del portal de twitter: «This algorithm identifies topics that are popular now, rather than topics that have been popular for a while or on a daily basis, to help you discover the hottest emerging topics of discussion on Twitter that matter most to you.»

Saludos.

Responder
giovino23 septiembre, 2015 a las 5:22 am

Bueniiiiisimo. y que me dices de la cantidad de tuit que se generan entre un minuto a otro? eso tiene mucho que ver? lo he notado con twitter blinder. es confiable esa aplicación?

Responder
    dani25 septiembre, 2015 a las 8:29 am

    La cantidad de tuits que se generan de un minuto a otro puede ser parte de la variable «popularidad» dentro del algoritmo de twitter. El único problema es que al no poder ver el algoritmo (en principio, entiendo que para evitar que la gente lo aproveche para hacer subir sus temas) no podemos saber con seguridad qué peso le dan a cada variable. Aun así, tal como dices, podemos sospechar de ciertos comportamientos que influyen dicho cálculo haciendo «ingeniería inversa». Para esto, servicios como el que comentas (twitter binder) son bastante útiles y normalmente fiables (ya que utilizan recursos – normalmente librerías para acceder a datos, estadísticas, etc. – proporcionados por el propio twitter).

    Responder
Deja un comentario