estadísticas, menéame, opinión

¿Cómo es la contribución de los usuarios?

Este comentario de Digg, Wikipedia y el mito de la democracia en la web 2.0 (original) me sorprendió bastante. Luego padre me pasó el enlace The Power of Digg Top Users (One Year Later) donde confirman y matizan los resultados (básicamente dice que en 2006 los 100 usuarios más activos contribuyeron con el 56.41%, en 2007 esa cifra se redujo al 43.8%).

Quería conocer las mismas estadísticas en Menéame y ponerlas en contexto para obtener más información. Esta mañana, 21 de marzo de 2008, las hice con los datos de los últimos doce meses.

En esos doce meses se enviaron 193.708 noticias (149.401 sin contar las descartadas) de 21.530 usuarios distintos. De ellas se publicaron 17.175 noticias (11,5%) de 4.221 usuarios diferentes. Los 100 usuarios que más publicaron suman en total 6.264 noticias, el 36,47% del total. También se puede decir que los 239 usuarios más activos contribuyeron al 50% del total.

La siguiente gráfica muestra el el acumulado de publicadas ordenados descendentemente por el número de publicadas.

acumulada ordenado por publicadas

La línea roja es el acumulado del total de publicadas (expresado porcentualmente) y la línea azul es la regresión de potencia (o power regression o log-log) del porcentaje de publicadas de cada usuario. Como se puede observar el porcentaje de publicadas es inversamente proporcional al número de publicadas, algo relativamente normal debido que los que tienen más publicadas también tienen muchas noticias enviadas.

Es importante visualizar mejor esa diferencia entre número de publicadas y porcentaje de publicación, ya que es buena medida de la «endogamia». La siguiente imagen es al misma pero está ordenada descendentemente por este ratio de publicadas/enviadas.

acumulada ordenado por ratio de publicadas

La línea roja vuelve a ser el acumulado de noticias publicadas, la azul indica el porcentaje de publicadas versus enviadas y la línea azul más gruesa es la regresión exponencial.

La diferencia fundamental es que los 100 usuarios con mejores ratio de publicadas contribuido con el 0.77% de las publicadas totales. Los 2.313 usuarios con mejores ratios, el 55%, han contribuido al 50% de las noticias publicadas.

La siguiente es una gráfica de enviadas, publicadas y porcentaje ordenado por el número de noticias publicadas.

publicadas, enviadas

La línea azul en el número de noticias publicadas, la roja es una regresión log-log del número de enviadas y la línea amarilla es la regresión del porcentaje de publicadas.

La siguiente imagen es similar pero esta vez ordenado por el número de envíos.

ordenada por número de env�os

La línea roja son el número de envíos, la azul el número de publicadas y la amarilla la regresión del porcentaje de publicadas versus enviadas.

Conclusiones

  • La media de publicaciones es de un 11,5% sin contar descartadas, 8,9% contando a todas.
  • La contribución a las publicadas es proporcional –aunque sublineal– al número de envíos. Que sea proporcional indica que en general no hay «grupos de promoción» (aka «mafia») generalizados. El hecho que además sea sublineal (a medida que aumente el número de publicadas y enviadas el ratio de publicación disminuye) lo reafirma. Nota: a esta afirmación hay que tomarla con pinzas, son datos genéricos y no detectan «grupos pequeños» (aunque tampoco es malo que existan «grupos con intereses comunes») o tendencias generales o mayoritarias de la «temática de envíos».
  • El porcentaje de publicadas de usuarios es inversamente proporcional al número de envíos (hay anomalías muy raras, camachosoft que es el segundo en número de envíos, 1.745, pero con un porcentaje muy bajo, 5,27%… gracias por la paciencia).
  • A pesar que Menéame tiene unos 20 veces menos usuarios registrados que Digg, los 100 usuarios más activos contribuyen a un porcentaje sensiblemente inferior, la «curva de distribución» de las publicadas es mucho más «plana». Nota: tampoco debe entenderse como crítica a Digg, o de pretender ser mejor que ellos, quizás la curva tan empinada de Digg se deba simplemente a que tiene más «fans» y entusiastas obsesionados en compartir enlaces.
  • Para los curiosos de el principio 20-80 de Pareto, en el Menéame estamos un poco por debajo. El 20% de usuarios que publicaron en un año contribuyeron con el 71,97% de las publicadas.

Los datos crudos

Se puede bajar la hoja de cálculo OpenOffice con todos los datos usados para estas gráficas. Los datos han sido obtenidos de la base de datos con el siguiente script:

import MySQLdb

total_published = 0
db = MySQLdb.connect(...);

cur = db.cursor();
cur.execute("select user_id, user_login_register, count(link_id) as l from links, users where  \
                  link_author = user_id and link_date > date_sub(now(), interval 1 year) and \
                  link_status = 'published' group by user_id order by l desc");

for data in cur.fetchall():
    cur_user = db.cursor()
    cur_user.execute("select count(*) from links where \
                                 link_date >  date_sub(now(), interval 1 year) \
                                 and link_author = %d" % (data[0]))
    (sent,) = cur_user.fetchone()
    cur_user.close()
    total_published += data[2]
    print "%s\t%d\t%d\t%d" % (data[1], data[2], sent, total_published)

16 comentarios en “¿Cómo es la contribución de los usuarios?

  1. Pingback: meneame.net

  2. asterix

    No hay mafia, pero creo que existe un error democratico en meneame, que son los votos negativos, en una democacia se vota una cosa o no se vota, pero no se puede contabilizar eso de votos negativos a otro por que seria una escabechina.

    Imaginense que en eleciones tuviesesmos opcion de votar negativos a pp o psoe, los de mas poder mediatico podrian frir al otro a negativos.

  3. asterix: en menéame no elegimos ni un parlamento ni un senado, la metáfora es cosa tuya. Para hacerla bien (si es que es posible) tienes que considerar un estado donde se presentan unos 600 partidos políticos cada día, porque esa es la cantidad de noticias que en 24h puede recibir menéame.

  4. asterix

    Ya pero ahora existe una enfermedad que se llama Karmafobia y cualquiera que quieré decir lo que piensa o no lo dice, o suelta la coletilla de «me vais a freir a negativos». Y por este motivo creo que prevalece la opinión los otros, no por mafia si no por miedo a los negativos.

  5. Un post muy interesante y muy instructivo, salvando el hecho de que, por lo que he podido leer en otros blogs, se critican las (supuestas, todavía no demostradas) mafias de Menéame tanto por el efecto promoción de noticias, como por el descarte de éstas. Son dos factores muy distintos a tener en cuenta.

    En cualquier caso, Menéame reduce el riesgo spameador de sus usuarios, y por tanto incrementa la diversificación, frente a lo que se favorece en Digg (por ejemplo, a través de la opción «Shout it»). Eso es evidente.

    Saludos

  6. Ese post no lo conocía. Muy interesante también.

    En cualquier caso, mi punto, que definitivamente no he sabido explicar convenientemente, es que (siempre desde un punto de vista hipotético) de existir una mafia a ésta le resultaría más fácil descartar noticias que conseguir publicarlas. Sencillamente por una cuestión de asimetría en cuanto al número de votos necesarios para llevar a cabo una u otra cosa.

    Con ello lo que quiero poner de manifiesto es que si queremos defender a Menéame de los ataques que recibe por parte de unos pocos bloggers, el argumento a emplear no debería basarse en las tasas de publicación (que sí, que podrían mostrar cierta actitud endogámica, pero es un argumento que se puede quedar cojo), sino a través de la concentración de votos negativos, lo que, por otra parte, sería francamente difícil analizar, pues llegado a un número determinado número de votos la noticia se descarta.

    De todas maneras, no sé si aquí o en tu blog, ya comenté que el verdadero problema es que hay mucho resentido en Menéame que no consigue promocionar sus noticias y se le toman como algo personal. Vamos, que deberían salir más a la calle en lugar de escribir críticas sobre nuestra comunidad.

  7. Rita

    Hola! Estoy interesada en el algoritmo de karma que se utiliza, lo necesito para un trabajo de investigación. Quería saber si hay algún documento/artículo donde esté explicado con detalle. He mirado el código (karma6.php) pero es difícil de seguir… además necesitaría el script de la base de datos. ¿Cómo me bajo la versión en producción del SVN? Os agradecería alguna pista 🙂

    Por cierto, mi OO no abre la hoja de cálculo con los datos en crudo, ¿le ha pasado a alguien lo mismo?

    Gracias! Y enhorabuena por el proyecto!

  8. raquel

    Hola! Interesante artículo, enhorabuena 🙂

    Me gustaría saber cuál es la dirección para bajarme la version2 del SVN. Tengo la intención de reutilizar el código para hacer un estudio similar.

    Gracias!!

Deja un comentario

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.