Estaba preparando unas transparencias para la IMAD 2.0 en Palma e hice la gráfica de las noticias publicadas desde el principio del Menéame agrupadas por sitios o blogs.
El resultado está en la imagen de abajo. Se puede observar que es una long tail, pero con un pico bastante escarpado y una cola muy larga (el gráfico está podado por la parte superior).
Al momento de sacar las estadísticas había 26121 noticias publicadas, de 8077 blogs o sitios diferentes.
Me llamó la atención esa curva, así que miré por dónde estaba el 50%, así obtuve que el 50% de las noticias publicadas corresponden a las primeras 250 posiciones, que incluyen hasta las que tienen 12 noticias publicadas. En la tabla de abajo está la lista de los 250 primeros (también se puede ver la «nube» de esos datos actualizado en tiempo real).
La reflexión y algunas conclusiones… para la conferencia y/o mi blog personal. Todavía no tengo idea 🙂
Actualización: de los 250 primeros sitios, 164 (66%) son blogs o publicaciones digitales no ligados a medios tradicionales. Del total de 13.084 noticias publicadas de esos sitios, 5.929 (45%) corresponden a esos blogs o sitios. No es para festejar, pero tampoco está nada mal, sobre todo teniendo en cuenta que el resto del 50% de la cola tendrán una proporción mayor de blogs. Quizás sólo se trate de whishful thinking, pero no tengo la voluntad suficiente para clasificar casi 8.000 urls diferentes. Si hay un voluntario, puede bajarse la lista completa de noticias publicadas por sitios (230 KB).
Segunda actualización: Fernand0 analiza la curva.
Pingback: meneame.net
Es posible que lo que observas no sea más que una manifestación del «richer gets richer» y que se manifiesta en muchas otras métricas en redes tecnológicas y sociales. Por ejemplo: el número de páginas que enlazan a una página web también está descrito por una cola-larga. Y eso es debido a que cuanto más popular es una página, más links adquiere. Yo creo que los enlaces a noticias a menéame son sencillamente un reflejo de esto.
Pingback: www.teknear.com
Esta «cola escarpada» corresponde a una distribución de Zipf, donde la web (objeto) en la posición i tiene una probabilidad de acceso de 1/(i^a), y la constante ‘a’ suele estar comprendida entre 0 y 2.
Esto no es sólo característico de Meneame, sino que todo el tráfico de la red se distribuye de este modo: la mayor parte de accesos corresponden a un grupo pequeño de lugares. Esto se acentúa más (‘a’ mayor) en comunidades con características comunes, como el idioma o país.
Por eso pueden funcionar tan bien los proxys cachés.
Un saludo.
http://www.useit.com/alertbox/zipf.html
Pingback: Blog Comunicación - Comunicación global para políticos, empresas, clubes… » » Uso de las redes sociales como fuente de información de los medios de comunicación
Pingback: Bitácora
He aprovechado estos datos para comentarlos en http://www.eldia.es/blogs/blog/bitacora/La-larga-cola-de-Internet/
¿Podrías facilitarme datos complementarios para realizar un estudio más extenso o crear un código para ofrecerlo desde meneame?
Pingback: Audiencias en la Red | Enrique Castro...o cómo sobrevivir a la blogocosa
Pingback: Los dominios más meneables