Nos pidieron una lista de noticias relacionadas con el #15m para hacer análisis de tendencias (y una tesis de máster). La lista completa (al día de hoy) de las noticias relacionadas está disponible en 15m.txt [720 KB].

A partir de ese lista hicimos un análisis de las palabras y hashtags más usados y contabilizados por días. El resultado es el gráfico siguiente (clic para ampliar):

La tabla de datos numéricos puede obtenerse de hashtags-15m.txt [3 KB]. Para la clasificación se han usado las siguientes expresiones regulares:

[sourcecode language=»python»]
regexs[‘nolesvotes’] = r’no *les *votes’
regexs[‘democraciarealya’] = r’#dry|democracia *real *ya’
regexs[‘acampadasol’] = r’acampada *(sol|madrid)’
regexs[‘acampadabcn’] = r’acampada *(bcn|barcelona)’
regexs[‘spanishrevolution’] = r’spanish *revolution’
regexs[’15m’] = r’#15m|\s15m\s|15-M\s’
regexs[’19j’] = r’#19j|\s19j\s|19-J\s’
[/sourcecode]

El fichero completo con el texto, título y etiquetas de cada noticia está disponible en 15m-full.txt.gz [620 KB]

Nota: si dos palabras claves aparecen en la misma noticia, estas cuentan (una sólo vez) para cada una de sus categorías. El total único por día es la última columna, representada en el siguiente gráfico:

Actualización 24 de junio

Hemos hecho el mismo estudio pero para los comentarios y notas en Menéame. Estos son los gráficos correspondientes:

El fichero de resultados está disponilble en hashtags-15m-comentarios.txt.

Actualización 24/6 15 hs: datos actualizados con la búsquedas insensibles a mayúsculas y minúsculas, es decir, se usa el re.I de las expresiones regulares de Python.