Archivo de la categoría: problemas

Parada de mantenimiento de emergencia

Actualización: acabó satisfactoriamente a las 2:35, o 0:35 UTC. Disculpad las molestias.

Resumen

Esta madrugada, 20 de setiembre a las 2 AM hora española continental una menos en Canarias, o mejor, a las 00:00 horas UTC cortaremos el servicio por mantenimiento urgente de la base de datos. Esperamos que no tarde más de media hora, pero como el procedimiento es relativamente complejo, podría tomar hasta una hora.

Explicación larga

Llevábamos varias semanas con microcortes (y algunos no tan micro) en Menéame. Se debían a una sobrecarga de la base de datos. Después de optimizar todo lo optimizable, logramos reducir la frecuencia y el efecto negativo, pero aún así, aparecen unas pocas veces al día.

La base de datos central (tenemos otra esclava) es un sistema RDS Multi AZ, consiste de dos servidores, uno siempre es el primario y el otro el secundario. Si el primario falla, automáticamente se migra (failover) al otro que está sincronizado y listo para hacer de nuevo máster.

Nuestro problema eran saturaciones repentinas de la base de datos Multi AZ. Aunque abrimos incidencias y explicamos a soporte de Amazon AWS, aseguraban no encontrar el problema, hasta esta mañana que después que le pasamos más datos. Se pusieron a analizar en profundidad y encontraron el problema: el que tenemos de secundario ahora tiene problemas de hardware que le hace bajar el rendimiento, como está sincronizado con el principal, a veces le provoca esos picos que no puede manejar. Para solucionarlo tenemos que librarnos de ese secundario y hacer que se arranque con uno diferente, es el procedimiento que nos han pedido que hagamos (abajo la explicación del técnico de Amazon).

Para evitar seguir teniendo estos problemas (que sabemos ocurrirán) mañana o los días que demoremos, hemos decidido hacerlo esta misma madrugada, en poco más de dos horas.

Disculpas por esta interrupción, y disculpas por las molestias ocasionadas las últimas semanas. Esperamos que a partir de esta madrugada las cosas funcionen mucho más suavemente.

De nuevo, disculpas.

As you pointed out with the CloudWatch metrics that you noted, your RDS database instance has been experiencing some occasions of increased and unexpected write latencies, which also correlate to a dramatic increase in database connections, and then resulting in issues with the ability to use the database. We drilled down deeper in to the metrics for your RDS instance, and found that a data volume on the Multi-AZ Secondary host system for your RDS database instance has been under-performing. As transactions in a Multi-AZ RDS setup are synchronous, this would cause performance issues to been experienced throughout the transaction process when they happen, such as during your experience.

Given the Mutli-AZ structure of your RDS instance, you do have the ability to take steps to help remedy the situation from your side. We recommend taking the following steps during a time when you can perform database maintenance for your application:
1) Take a database backup snapshot – this is always recommended before performing any maintenance. Also check that your read replica is in-synch for added backup.
2) Update your RDS database instance from Multi-AZ to Single-AZ – this will disconnect and remove the Secondary host system which is currently seen to have the under-performing data volume. It will also place your RDS instance in a state of not having fail-over redundancy, so be sure to have taken a backup snapshot.
3) Once the change to Single-AZ is complete, update your RDS database instance back to Multi-AZ – this will rebuild a new Secondary host system for your RDS database instance, synchronize your data, and restore the fail-over redundancy.

Sin conectividad en Amazon Irlanda

Desde las 17:30 GMT el web no funciona. El motivo és un problema de conectividad en Amazon Irlanda debido a un problema eléctrico. Os pedimos disculpas y esperamos que lo solucionen pronto. En esta web (pestaña Europe) podéis seguir el estado del centro de datos que nos afecta. Hemos abierto la incidencia y tenemos poca información. Intentaremos publicarla a medida que tengamos más detalles. De momento parece que la cosa es grave: Sigue leyendo

Sobre los problemas de esta madrugada y el cambio a www.meneame.net

Disculpas por el tiempo que estuvo inaccesible el web con el dominio meneame.net (no así m.meneame.net y http://www.meneame.net).

Nuestros servidores web están detrás de un balanceador de carga de Amazon EC2 (web-balancer-177968158.eu-west-1.elb.amazonaws.com). Está documentado que el balanceador puede tener varias direcciones IP dependiendo del tráfico, por lo que en el DNS hay que usar un CNAME (es como un “enlace simbólico”) apuntando al nombre y no a la IP. Sigue leyendo

Migración de los servidores a Amazon EC2

Hoy 27 de diciembre ya hemos comenzado a migrar la base de datos hacia los servidores de Amazon EC2 en Dublín. A partir de las 23 hs peninsular (22 hs UTC) interrumpiremos el servicio media hora para terminar de migrar los últimos cambios y modificar y empezar a propagar los datos del DNS a la nuevas IP.

Para los lectores españoles el “ping” será un poco peor y a nosotros nos costará un poco más caro, pero necesitábamos una arquitectura más sofisiticada y flexible para tener mayor fiabilidad (la de nuestro hosting empeoró sustancialmente los últimos meses), mejor escalabilidad [*] y sistemas de backups.

Aunque llevamos varios días de prueba y modificando el código para adaptarlo a la arquitectura de Amazon EC2 seguramente aparecerán algunos problemas. Disculpad por las molestias, lo hacemos para poder seguir creciendo y ofrecer buena velocidad.

[*] Ya tenemos configurado para auto escalarse con la carga (crea –y quita– automáticamente los servidores web que hagan falta) y con un balanceador de carga que se asegura que se envían las conexiones a las instancias que funcionan correctamente.

Los problemas de conectividad de las últimas horas


Me acaba de llamar un técnico de redes de Veloxia/Ferca para contarme el problema que están teniendo. Lo resumo de memoria.

Ayer después de la migración les empezó a dar problemas un “latiguillo” interno (de unos 20 m) de fibra óptica que da un enlace (interno) de 10 gpbs. Pensaron que era un problema de conectores, los han limpiado y vuelto a poner y parecía que funcionaba. Al poco tiempo volvió a fallar, por lo que cambiaron los conectores por unos nuevos. A las pocas horas volvió a fallar, cambiaron los tres tramos de la fibra óptica.

Esta mañana volvió a dar problemas nuevamente por lo que han cambiado por fibra nueva y los router/switches Cisco de ambos extremos (creo que me dijo eran  6500). Ahora “parece” estabilizado nuevamente, pero no saben todavía cuál fue o es el problema, ni siquiera si es de harware o software, por eso han cambiado todo. Están instalando una fibra paralela con sus respectivos switches para evitar que se vuelvan a producir esos problemas ante un eventual nuevo fallo de una de las fibras.

Estamos preparados para migrar a Amazon S3 si el problema persiste, pero una migración de ese tipo llevaría varias horas de estabilización (con sus posibles problemas generados por necesitar al menos 3 instancias grandes o medias). Confiamos en que solucianarán estos incovenientes preferimos esperar por ahora.

Perdón por las molestias.

Servidores inaccesibles


14:10: Ambos servidores de meneame.net están inaccesibles. Parece problemas de red y/o enrutado. Ya hemos abierto la avería y estamos intentando contactar para tener más información. En cuanto sepamos informaremos.

Perdón por las molestias.

14:17: Están acesibles nuevamente, son problemas de red porque los servidores han estado en marcha. No sabemos que ha pasado.

14:19: Vemos que desde algunas redes (por ejemplo Vodafone) todavía no se puede acceder. Desde otras hay pérdidas importantes de paquetes. Por eso suponemos que han hecho cambios en routers o rutas.

14:25: La red parece estabilizada.

14:30: Festejo prematuro, vuelven a estar inaccesibles.

14:34: Vuelve la red, pero con pérdidas de paquetes.

14:36: Está estabilizada, no hay pérdidas de paquetes.

Miniaturas de imágenes, Shareaholic, Friendfeed y problemas con la base de datos

Desde hace poco más de 24 horas está funcionando el sistema de imágenes miniaturas de cada enlace. La selección es completamente automática sin la mínima intervención de los usuarios (no queríamos dar todavía más trabajo). Por ahora éstas sólo se generan cuando una noticia entra en el “promote” (i.e. tiene karma más o menos alto y supera el mínimo para que sea analizado por el programa de promoción). Si véis noticias con poco karma pero con una miniatura es que estamos haciendo pruebas y ajustes al algoritmo de selección [*].

En pocos días agregaremos, poco a poco, miniaturas de lso vídeos de Youtube, Vimeo y los demás sistemas que tengan un API para obtenerlas.

[*] Diez o veinte años atrás hubiésemos dicho que se trata de un programa de inteligencia artificial, hoy sólo podemos decir que es un abuso desmedido de las expresiones regulares :-)

Shareaholic

Hace un momento nos escribió Jay Meattle, co-fundador de Shareaholic, para avisarnos que ha pedido de varios de sus usuarios han incluido al Menéame. Muchas gracias.

I had several users of Shareaholic request that Menéame be integrated into the add-on, and they got their wish today!

Shareaholic makes it easy for you to submit the web page you’re on to your favorite sharing or bookmarking service.  You also have the option to e-mail the web page directly to a friend.

Menéame en Shareaholic

Menéame en Shareaholic

Friendfeed

Es antigua pero no lo habíamos comentado. Friendfeed también nos incluyó desde el principio en su versión en castellano (las noticias votadas por un autor). Con la información que envía el Menéame en sus RSS, en Friendfeed también se visualiza la miniatura y la geolocalización de la noticia (si las tienen).

Menéame en Friendfeed

Menéame en Friendfeed

La base de datos

Ayer hemos tenido problemas con una veintena de noticias. De forma aleatoria y sin causa aparente fueron completamente eliminadas. Al final pudimos recuperar a todas desde un backup periódico de pocas horas atrás pero nos quedamos sin saber que había pasado. Lo único que habíamos hecho es agregar cuatro campos a la tabla de enlaes para guardar la información de las miniaturas, pero no tocamos nada del software que pudise afectar.

Hace unas horas hubo problemas con el URL de algunas noticias, no se guardaban al momento del envío. Hicimos un “repair” de la tabla de enlaces y todo parece correcto ahora mismo

mysql> repair table links;
+---------------+--------+----------+----------+
| Table         | Op     | Msg_type | Msg_text |
+---------------+--------+----------+----------+
| meneame.links | repair | status   | OK       |
+---------------+--------+----------+----------+
1 row in set (26.41 sec)

mysql> optimize table links;
+---------------+----------+----------+----------+
| Table         | Op       | Msg_type | Msg_text |
+---------------+----------+----------+----------+
| meneame.links | optimize | status   | OK       |
+---------------+----------+----------+----------+
1 row in set (2.52 sec)

Nuestro principal y único sospechoso por ahora es un bug de la configuración del Mysql y AppArmor en la Ubuntu 8.04 (que es la que usamos en el servido de base de datos) ya que nosotros tenemos modificado al menos un par de parámetros que están afectados (table_cache=1000 y max_connections=1000) . Disculpas por las molestias ocasionadas.

Cambio de la hora del servidor a UTC

Por una cuestión de mirarse siempre el ombligo, hemos usado desde siempre la zona horaria de Europa Occidental (la que toca a Balears y toda la península). Está mal desde el principio, hay mucha gente que visita Menéame que no es de la misma zona horaria.

Pero era aún peor, en cada cambio de hora de verano-invierno se generaban multitud de problemas –en la fisgona, orden de los votos y noticia, etc.– una hora antes y una hora después de cada cambio.

Aunque lo sufrimos varias veces en los casi tres años, no podíamos encontrar una solución “buena”. Hoy me quedé aposta y preparado para lograr entender el problema. Así me dí cuenta que son los conversores del tipo TIMESTAMP los que fallan. Me bastó con una verficación:

select count(*) from votes where vote_date > now();

Así me salieron multitud de votos que estaban en el “futuro”, lo mismo pasaba con enlaces o comentarios, a pesar que lo único que se hace al crear la fila es insertar con el “now()”.

Visto que era un problema que no podíamos resolver de forma lógica en el programa del Menéame a menos que dejemos de usar el tipo TIMESTAMP, hemos optado por poner el servidor en la hora UTC –se solucionaron los problemas restantes inmediatamente– para que no vuelva a ocurrir. Ya modifiqué las tres funciones que muestran fechas para que indiquen la zona horaria del servidor –algo que también debería haber estado desde el principio.

Disculpas por las molestias, sobre todo a los que han sufrido las distorsiones temporales de la fisgona más de una vez.

Nota: las horas en la fisgona siempre se han mostrado en la zona local del ordenador cliente. Eso no ha cambiado.

Migración de servidores el domingo 28 de setiembre

En las últimas semanas hemos tenido un incremento importante de tráfico, con picos que casi ponían al límite al servidor de base de datos actual. Ya tenemos en marcha otros servidores más potentes (el central de la base de datos es un Dual Quad de 8GB de RAM).

Este domingo entre las 10 y 13 hs GMT+2 –sólo depende de que tengamos el nivel de cafeína adecuado– haremos la migración hacia los nuevos servidores. En total no tardará más de 10 minutos, quizás los DNS tarden un poco más, pero en ningún caso debería tomar más de 20 minutos.

Minutos antes de comenzar la migración avisaremos en el Nótame.

Perdón por las molestias.

Un usuario molesto, con razón

Recibimos bastantes quejas en el Menéame por envíos de sitios que han plagiado y/o copiado al sitio original y no lo citan ni cumplen con las habituales CC con exigencia de citar al original. En estos casos solemos cambiar el enlace si no hay dudas sobre el plagio, incluso tuvimos que penalizar o prohibir el envío de sitios donde se detectaron plagios. Nos suele ocasionar bastantes discusiones, pero al menos podemos remediar aunque sea parcialmente el malestar ocasionado al blogger o autor original.

Hoy nos ha tocado un caso bastante extraño y que no podíamos hacer nada por remediarlo. Un usuario del menéame hace un comentario y otro “medio digital” lo copia textualmente sin citar al autor original. Por supuesto no  cumple con la licencia para el contenido que usamos en el Menéame.

Amigos ‘admin’ de Menéame

[...] la web de http://www.periodistadigital.com, se han montado una noticia a base de copiar textualmente el comentario íntegro de una traducción del danés que puse, junto con el enlace al diario danés «Ekstra Bladet» (www.eb.dk), en Menéame.net ( http://meneame.net/story/polemica-entre-espana-dinamarca-calienta-titular-periodico-danes-espan/1#comment-1 )

Periodista Digital, [...] escriben (pegan) en http://blogs.periodistadigital.com/deportes.php/2008/08/18/honor-regata-nacion-dinamarca-4747?blog=120&c=1&page=1&more=1&title=honor-regata-nacion-dinamarca-4747&tb=1&pb=1&disp=single todo lo que yo he traducido del diario danés sin dar el más mínimo crédito a la fuente de la información en castellano que es mi comentario en Menéame.net.

No contentos con copiar este comentario, confunden la sección «Nationen» (La Nación) del diario danés Ekstra Bladet con el nombre del periódico en sí y, ponen en boca de «Un alto delegado del comité danés» inexistente, lo que en realidad es un comentario de un lector del diario danés.

[...]

Os adjunto los ‘screendump’ de la página de Periodista Digital, por si deciden cambiarla para evitar las pruebas del plagio.

Y aquí debajo también os adjunto el texto de ambos enlaces.

Un saludo

Malahostia
Usuario de Menéame.

Hemos verificado la queja del usuario y tiene razón, el artículo referido era en gran parte un copy&paste de la traducción de su comentario, es entendible su enfado. Lo único que podemos hacer al usuario “malahostia” es disculparnos, y hacer público su caso.

Pues eso, disculpas. De paso nuestro más firme desacuerdo con el autor de la “noticia”: estamos a favor, queremos potenciar el reuso de contenido –de hecho nos enorgullece–, pero así también hay que respetar  la licencia libre de los contenidos del Menéame, es fácil y está enlazada en el pie de cada página.