Archivo de la categoría: problemas

Parada de mantenimiento de emergencia

Actualización: acabó satisfactoriamente a las 2:35, o 0:35 UTC. Disculpad las molestias.

Resumen

Esta madrugada, 20 de setiembre a las 2 AM hora española continental una menos en Canarias, o mejor, a las 00:00 horas UTC cortaremos el servicio por mantenimiento urgente de la base de datos. Esperamos que no tarde más de media hora, pero como el procedimiento es relativamente complejo, podría tomar hasta una hora.

Explicación larga

Llevábamos varias semanas con microcortes (y algunos no tan micro) en Menéame. Se debían a una sobrecarga de la base de datos. Después de optimizar todo lo optimizable, logramos reducir la frecuencia y el efecto negativo, pero aún así, aparecen unas pocas veces al día.

La base de datos central (tenemos otra esclava) es un sistema RDS Multi AZ, consiste de dos servidores, uno siempre es el primario y el otro el secundario. Si el primario falla, automáticamente se migra (failover) al otro que está sincronizado y listo para hacer de nuevo máster.

Nuestro problema eran saturaciones repentinas de la base de datos Multi AZ. Aunque abrimos incidencias y explicamos a soporte de Amazon AWS, aseguraban no encontrar el problema, hasta esta mañana que después que le pasamos más datos. Se pusieron a analizar en profundidad y encontraron el problema: el que tenemos de secundario ahora tiene problemas de hardware que le hace bajar el rendimiento, como está sincronizado con el principal, a veces le provoca esos picos que no puede manejar. Para solucionarlo tenemos que librarnos de ese secundario y hacer que se arranque con uno diferente, es el procedimiento que nos han pedido que hagamos (abajo la explicación del técnico de Amazon).

Para evitar seguir teniendo estos problemas (que sabemos ocurrirán) mañana o los días que demoremos, hemos decidido hacerlo esta misma madrugada, en poco más de dos horas.

Disculpas por esta interrupción, y disculpas por las molestias ocasionadas las últimas semanas. Esperamos que a partir de esta madrugada las cosas funcionen mucho más suavemente.

De nuevo, disculpas.

As you pointed out with the CloudWatch metrics that you noted, your RDS database instance has been experiencing some occasions of increased and unexpected write latencies, which also correlate to a dramatic increase in database connections, and then resulting in issues with the ability to use the database. We drilled down deeper in to the metrics for your RDS instance, and found that a data volume on the Multi-AZ Secondary host system for your RDS database instance has been under-performing. As transactions in a Multi-AZ RDS setup are synchronous, this would cause performance issues to been experienced throughout the transaction process when they happen, such as during your experience.

Given the Mutli-AZ structure of your RDS instance, you do have the ability to take steps to help remedy the situation from your side. We recommend taking the following steps during a time when you can perform database maintenance for your application:
1) Take a database backup snapshot – this is always recommended before performing any maintenance. Also check that your read replica is in-synch for added backup.
2) Update your RDS database instance from Multi-AZ to Single-AZ – this will disconnect and remove the Secondary host system which is currently seen to have the under-performing data volume. It will also place your RDS instance in a state of not having fail-over redundancy, so be sure to have taken a backup snapshot.
3) Once the change to Single-AZ is complete, update your RDS database instance back to Multi-AZ – this will rebuild a new Secondary host system for your RDS database instance, synchronize your data, and restore the fail-over redundancy.

Sin conectividad en Amazon Irlanda

Desde las 17:30 GMT el web no funciona. El motivo és un problema de conectividad en Amazon Irlanda debido a un problema eléctrico. Os pedimos disculpas y esperamos que lo solucionen pronto. En esta web (pestaña Europe) podéis seguir el estado del centro de datos que nos afecta. Hemos abierto la incidencia y tenemos poca información. Intentaremos publicarla a medida que tengamos más detalles. De momento parece que la cosa es grave: Sigue leyendo

Sobre los problemas de esta madrugada y el cambio a www.meneame.net

Disculpas por el tiempo que estuvo inaccesible el web con el dominio meneame.net (no así m.meneame.net y http://www.meneame.net).

Nuestros servidores web están detrás de un balanceador de carga de Amazon EC2 (web-balancer-177968158.eu-west-1.elb.amazonaws.com). Está documentado que el balanceador puede tener varias direcciones IP dependiendo del tráfico, por lo que en el DNS hay que usar un CNAME (es como un “enlace simbólico”) apuntando al nombre y no a la IP. Sigue leyendo

Migración de los servidores a Amazon EC2

Hoy 27 de diciembre ya hemos comenzado a migrar la base de datos hacia los servidores de Amazon EC2 en Dublín. A partir de las 23 hs peninsular (22 hs UTC) interrumpiremos el servicio media hora para terminar de migrar los últimos cambios y modificar y empezar a propagar los datos del DNS a la nuevas IP.

Para los lectores españoles el “ping” será un poco peor y a nosotros nos costará un poco más caro, pero necesitábamos una arquitectura más sofisiticada y flexible para tener mayor fiabilidad (la de nuestro hosting empeoró sustancialmente los últimos meses), mejor escalabilidad [*] y sistemas de backups.

Aunque llevamos varios días de prueba y modificando el código para adaptarlo a la arquitectura de Amazon EC2 seguramente aparecerán algunos problemas. Disculpad por las molestias, lo hacemos para poder seguir creciendo y ofrecer buena velocidad.

[*] Ya tenemos configurado para auto escalarse con la carga (crea –y quita– automáticamente los servidores web que hagan falta) y con un balanceador de carga que se asegura que se envían las conexiones a las instancias que funcionan correctamente.

Los problemas de conectividad de las últimas horas


Me acaba de llamar un técnico de redes de Veloxia/Ferca para contarme el problema que están teniendo. Lo resumo de memoria.

Ayer después de la migración les empezó a dar problemas un “latiguillo” interno (de unos 20 m) de fibra óptica que da un enlace (interno) de 10 gpbs. Pensaron que era un problema de conectores, los han limpiado y vuelto a poner y parecía que funcionaba. Al poco tiempo volvió a fallar, por lo que cambiaron los conectores por unos nuevos. A las pocas horas volvió a fallar, cambiaron los tres tramos de la fibra óptica.

Esta mañana volvió a dar problemas nuevamente por lo que han cambiado por fibra nueva y los router/switches Cisco de ambos extremos (creo que me dijo eran  6500). Ahora “parece” estabilizado nuevamente, pero no saben todavía cuál fue o es el problema, ni siquiera si es de harware o software, por eso han cambiado todo. Están instalando una fibra paralela con sus respectivos switches para evitar que se vuelvan a producir esos problemas ante un eventual nuevo fallo de una de las fibras.

Estamos preparados para migrar a Amazon S3 si el problema persiste, pero una migración de ese tipo llevaría varias horas de estabilización (con sus posibles problemas generados por necesitar al menos 3 instancias grandes o medias). Confiamos en que solucianarán estos incovenientes preferimos esperar por ahora.

Perdón por las molestias.

Servidores inaccesibles


14:10: Ambos servidores de meneame.net están inaccesibles. Parece problemas de red y/o enrutado. Ya hemos abierto la avería y estamos intentando contactar para tener más información. En cuanto sepamos informaremos.

Perdón por las molestias.

14:17: Están acesibles nuevamente, son problemas de red porque los servidores han estado en marcha. No sabemos que ha pasado.

14:19: Vemos que desde algunas redes (por ejemplo Vodafone) todavía no se puede acceder. Desde otras hay pérdidas importantes de paquetes. Por eso suponemos que han hecho cambios en routers o rutas.

14:25: La red parece estabilizada.

14:30: Festejo prematuro, vuelven a estar inaccesibles.

14:34: Vuelve la red, pero con pérdidas de paquetes.

14:36: Está estabilizada, no hay pérdidas de paquetes.

Miniaturas de imágenes, Shareaholic, Friendfeed y problemas con la base de datos

Desde hace poco más de 24 horas está funcionando el sistema de imágenes miniaturas de cada enlace. La selección es completamente automática sin la mínima intervención de los usuarios (no queríamos dar todavía más trabajo). Por ahora éstas sólo se generan cuando una noticia entra en el “promote” (i.e. tiene karma más o menos alto y supera el mínimo para que sea analizado por el programa de promoción). Si véis noticias con poco karma pero con una miniatura es que estamos haciendo pruebas y ajustes al algoritmo de selección [*].

En pocos días agregaremos, poco a poco, miniaturas de lso vídeos de Youtube, Vimeo y los demás sistemas que tengan un API para obtenerlas.

[*] Diez o veinte años atrás hubiésemos dicho que se trata de un programa de inteligencia artificial, hoy sólo podemos decir que es un abuso desmedido de las expresiones regulares :-)

Shareaholic

Hace un momento nos escribió Jay Meattle, co-fundador de Shareaholic, para avisarnos que ha pedido de varios de sus usuarios han incluido al Menéame. Muchas gracias.

I had several users of Shareaholic request that Menéame be integrated into the add-on, and they got their wish today!

Shareaholic makes it easy for you to submit the web page you’re on to your favorite sharing or bookmarking service.  You also have the option to e-mail the web page directly to a friend.

Menéame en Shareaholic

Menéame en Shareaholic

Friendfeed

Es antigua pero no lo habíamos comentado. Friendfeed también nos incluyó desde el principio en su versión en castellano (las noticias votadas por un autor). Con la información que envía el Menéame en sus RSS, en Friendfeed también se visualiza la miniatura y la geolocalización de la noticia (si las tienen).

Menéame en Friendfeed

Menéame en Friendfeed

La base de datos

Ayer hemos tenido problemas con una veintena de noticias. De forma aleatoria y sin causa aparente fueron completamente eliminadas. Al final pudimos recuperar a todas desde un backup periódico de pocas horas atrás pero nos quedamos sin saber que había pasado. Lo único que habíamos hecho es agregar cuatro campos a la tabla de enlaes para guardar la información de las miniaturas, pero no tocamos nada del software que pudise afectar.

Hace unas horas hubo problemas con el URL de algunas noticias, no se guardaban al momento del envío. Hicimos un “repair” de la tabla de enlaces y todo parece correcto ahora mismo

mysql> repair table links;
+---------------+--------+----------+----------+
| Table         | Op     | Msg_type | Msg_text |
+---------------+--------+----------+----------+
| meneame.links | repair | status   | OK       |
+---------------+--------+----------+----------+
1 row in set (26.41 sec)

mysql> optimize table links;
+---------------+----------+----------+----------+
| Table         | Op       | Msg_type | Msg_text |
+---------------+----------+----------+----------+
| meneame.links | optimize | status   | OK       |
+---------------+----------+----------+----------+
1 row in set (2.52 sec)

Nuestro principal y único sospechoso por ahora es un bug de la configuración del Mysql y AppArmor en la Ubuntu 8.04 (que es la que usamos en el servido de base de datos) ya que nosotros tenemos modificado al menos un par de parámetros que están afectados (table_cache=1000 y max_connections=1000) . Disculpas por las molestias ocasionadas.