Este comentario de Digg, Wikipedia y el mito de la democracia en la web 2.0 (original) me sorprendió bastante. Luego padre me pasó el enlace The Power of Digg Top Users (One Year Later) donde confirman y matizan los resultados (básicamente dice que en 2006 los 100 usuarios más activos contribuyeron con el 56.41%, en 2007 esa cifra se redujo al 43.8%).

Quería conocer las mismas estadísticas en Menéame y ponerlas en contexto para obtener más información. Esta mañana, 21 de marzo de 2008, las hice con los datos de los últimos doce meses.

En esos doce meses se enviaron 193.708 noticias (149.401 sin contar las descartadas) de 21.530 usuarios distintos. De ellas se publicaron 17.175 noticias (11,5%) de 4.221 usuarios diferentes. Los 100 usuarios que más publicaron suman en total 6.264 noticias, el 36,47% del total. También se puede decir que los 239 usuarios más activos contribuyeron al 50% del total.

La siguiente gráfica muestra el el acumulado de publicadas ordenados descendentemente por el número de publicadas.

acumulada ordenado por publicadas

La línea roja es el acumulado del total de publicadas (expresado porcentualmente) y la línea azul es la regresión de potencia (o power regression o log-log) del porcentaje de publicadas de cada usuario. Como se puede observar el porcentaje de publicadas es inversamente proporcional al número de publicadas, algo relativamente normal debido que los que tienen más publicadas también tienen muchas noticias enviadas.

Es importante visualizar mejor esa diferencia entre número de publicadas y porcentaje de publicación, ya que es buena medida de la «endogamia». La siguiente imagen es al misma pero está ordenada descendentemente por este ratio de publicadas/enviadas.

acumulada ordenado por ratio de publicadas

La línea roja vuelve a ser el acumulado de noticias publicadas, la azul indica el porcentaje de publicadas versus enviadas y la línea azul más gruesa es la regresión exponencial.

La diferencia fundamental es que los 100 usuarios con mejores ratio de publicadas contribuido con el 0.77% de las publicadas totales. Los 2.313 usuarios con mejores ratios, el 55%, han contribuido al 50% de las noticias publicadas.

La siguiente es una gráfica de enviadas, publicadas y porcentaje ordenado por el número de noticias publicadas.

publicadas, enviadas

La línea azul en el número de noticias publicadas, la roja es una regresión log-log del número de enviadas y la línea amarilla es la regresión del porcentaje de publicadas.

La siguiente imagen es similar pero esta vez ordenado por el número de envíos.

ordenada por número de env�os

La línea roja son el número de envíos, la azul el número de publicadas y la amarilla la regresión del porcentaje de publicadas versus enviadas.

Conclusiones

  • La media de publicaciones es de un 11,5% sin contar descartadas, 8,9% contando a todas.
  • La contribución a las publicadas es proporcional –aunque sublineal– al número de envíos. Que sea proporcional indica que en general no hay «grupos de promoción» (aka «mafia») generalizados. El hecho que además sea sublineal (a medida que aumente el número de publicadas y enviadas el ratio de publicación disminuye) lo reafirma. Nota: a esta afirmación hay que tomarla con pinzas, son datos genéricos y no detectan «grupos pequeños» (aunque tampoco es malo que existan «grupos con intereses comunes») o tendencias generales o mayoritarias de la «temática de envíos».
  • El porcentaje de publicadas de usuarios es inversamente proporcional al número de envíos (hay anomalías muy raras, camachosoft que es el segundo en número de envíos, 1.745, pero con un porcentaje muy bajo, 5,27%… gracias por la paciencia).
  • A pesar que Menéame tiene unos 20 veces menos usuarios registrados que Digg, los 100 usuarios más activos contribuyen a un porcentaje sensiblemente inferior, la «curva de distribución» de las publicadas es mucho más «plana». Nota: tampoco debe entenderse como crítica a Digg, o de pretender ser mejor que ellos, quizás la curva tan empinada de Digg se deba simplemente a que tiene más «fans» y entusiastas obsesionados en compartir enlaces.
  • Para los curiosos de el principio 20-80 de Pareto, en el Menéame estamos un poco por debajo. El 20% de usuarios que publicaron en un año contribuyeron con el 71,97% de las publicadas.

Los datos crudos

Se puede bajar la hoja de cálculo OpenOffice con todos los datos usados para estas gráficas. Los datos han sido obtenidos de la base de datos con el siguiente script:

import MySQLdb

total_published = 0
db = MySQLdb.connect(...);

cur = db.cursor();
cur.execute("select user_id, user_login_register, count(link_id) as l from links, users where  \
                  link_author = user_id and link_date > date_sub(now(), interval 1 year) and \
                  link_status = 'published' group by user_id order by l desc");

for data in cur.fetchall():
    cur_user = db.cursor()
    cur_user.execute("select count(*) from links where \
                                 link_date >  date_sub(now(), interval 1 year) \
                                 and link_author = %d" % (data[0]))
    (sent,) = cur_user.fetchone()
    cur_user.close()
    total_published += data[2]
    print "%s\t%d\t%d\t%d" % (data[1], data[2], sent, total_published)