menéame

Analizando Menéame con Graphext

Las 10K historias más comentadas en la historia de Menéame

El pasado mes de octubre hablábamos sobre “Las 100 noticias más comentadas en la historia de Menéame”. Pues bien, nos hemos quedado con ganas y hemos querido ir más allá.

Si también hablábamos sobre el papel que juega la información, y más aún en la era digital, hoy queremos mostrar el papel que Menéame ha jugado a lo largo de su historia.

Desde el año 2005, año en el que nació Menéame, hemos vivido seis legislaturas con sus correspondientes Gobiernos, el inicio de la crisis financiera (2008), la muerte de Osama Bin Laden (2011), seis Olimpiadas, el segundo gobierno de Barack Obama (2012), la abdicación del Rey Juan Carlos (2014), Brexit y la victoria de Donald Trump (2016) y un interminable listado de acontecimientos que han protagonizado la portada de Menéame en estos trece años. Todos estos acontecimientos han tenido una repercusión social que de alguna manera también ha estado presente gracias a los comentarios. Esto es lo que hemos analizado: las 10.000 historias más comentadas (con mayor repercusión) en la historia de Menéame.

Para hacerlo más interesante llamamos a nuestros amigos de Graphext para que nos hicieran el trabajo más fácil.

La ciencia de datos

Esta es la representación gráfica de las 10.000 historias más comentadas en la historia de Menéame:

Cada uno de los nodos (puntos), representa una historia. Para entender mejor cómo se origina ese gráfico partimos de los criterios que la herramienta ha analizado. Estos criterios van desde el autor, etiquetas incluidas en la historia, número de votos, karma, palabras que componen la historia, url de la fuente e idioma.

La conexión, color, tamaño y localización de cada uno de los nodos tiene que ver con el número de similitudes que cada uno de ellos tiene con el conjunto.

Por ejemplo, aquellas historias que hablan de una temática en concreto aparecerán no sólo del mismo color, sino también agrupadas en un localización específica del gráfico.

Si dentro de ese conjunto el índice de votos, comentarios y karma es alto, el tamaño del nodo será mayor.

Historias con más de 1.000 votos

La agrupación de nodos del mismo color se denomina clúster. Dentro de cada uno de ellos, si las palabras utilizadas, url de la fuente e idioma son los mismos, aparecerán más próximos. Por lo contrario, si la similitud de estos datos es menor, el nodo estará más alejado y se aproximará al clúster que comparta esas similitudes, de ahí que nodos de distintos clústers lleguen a mezclarse.

Clústers

Para facilitar la búsqueda, la herramienta permite filtrar por cada uno de los criterios mediante gráficos de barras y que ayudan a entender aún más, las conclusiones.

Conclusiones y datos curiosos


Resultado del análisis podemos destacar:

  • Clústers: en primer lugar encontramos historias relacionadas con las palabras “Luis Bárcenas, Partido Popular y Rajoy”, que componen el 2% del total, exactamente 205 historias. Seguido encontramos historias con las palabras “energía, millones de euros y precio”, entre otras, que componen cerca de otro 2% del total, exactamente 186 historias.
  • Usuarios: Ratoncolorao encabeza el listado con 112 historias en portada seguido de IgnatiusJReilly con 88.
  • Hashtags: a pesar de que introducir un hashtag en la historia no es lo más común (solo se han identificado 221 historias), #acampadasol y #spanishrevolution se llevan la palma.
  • Etiquetas: internacional es la etiqueta más utilizada con un 18% del total seguido de economía, con un 15%.
  • Votos: apenas 185 historias del total han conseguido más de 1.000 votos.
  • Karma: 53 son las historias con un índice de karma próximo a 20,00.
  • Sentimiento: las historias con una connotación negativa (por debajo de cero) componen el 7% del total. Aproximadamente 650 historias.
  • URL: eldiario.es es el medio más utilizado seguido de elpais.com y publico.es. Cada uno compone un 4% del total. 
  • Idioma: sin lugar a duda el español es el idioma más utilizado aunque encontramos más de 2.000 historias en inglés. Esto denota el interés por la prensa internacional. 

Ya se han realizado estudios previos sobre Menéame utilizando la ciencia de datos y que iremos mencionando en siguientes publicaciones. Entre ellas, explicaciones sobre el origen y comportamiento de trolls 😛