Archivo de la categoría: hosting

Parada de mantenimiento de emergencia

Actualización: acabó satisfactoriamente a las 2:35, o 0:35 UTC. Disculpad las molestias.

Resumen

Esta madrugada, 20 de setiembre a las 2 AM hora española continental una menos en Canarias, o mejor, a las 00:00 horas UTC cortaremos el servicio por mantenimiento urgente de la base de datos. Esperamos que no tarde más de media hora, pero como el procedimiento es relativamente complejo, podría tomar hasta una hora.

Explicación larga

Llevábamos varias semanas con microcortes (y algunos no tan micro) en Menéame. Se debían a una sobrecarga de la base de datos. Después de optimizar todo lo optimizable, logramos reducir la frecuencia y el efecto negativo, pero aún así, aparecen unas pocas veces al día.

La base de datos central (tenemos otra esclava) es un sistema RDS Multi AZ, consiste de dos servidores, uno siempre es el primario y el otro el secundario. Si el primario falla, automáticamente se migra (failover) al otro que está sincronizado y listo para hacer de nuevo máster.

Nuestro problema eran saturaciones repentinas de la base de datos Multi AZ. Aunque abrimos incidencias y explicamos a soporte de Amazon AWS, aseguraban no encontrar el problema, hasta esta mañana que después que le pasamos más datos. Se pusieron a analizar en profundidad y encontraron el problema: el que tenemos de secundario ahora tiene problemas de hardware que le hace bajar el rendimiento, como está sincronizado con el principal, a veces le provoca esos picos que no puede manejar. Para solucionarlo tenemos que librarnos de ese secundario y hacer que se arranque con uno diferente, es el procedimiento que nos han pedido que hagamos (abajo la explicación del técnico de Amazon).

Para evitar seguir teniendo estos problemas (que sabemos ocurrirán) mañana o los días que demoremos, hemos decidido hacerlo esta misma madrugada, en poco más de dos horas.

Disculpas por esta interrupción, y disculpas por las molestias ocasionadas las últimas semanas. Esperamos que a partir de esta madrugada las cosas funcionen mucho más suavemente.

De nuevo, disculpas.

As you pointed out with the CloudWatch metrics that you noted, your RDS database instance has been experiencing some occasions of increased and unexpected write latencies, which also correlate to a dramatic increase in database connections, and then resulting in issues with the ability to use the database. We drilled down deeper in to the metrics for your RDS instance, and found that a data volume on the Multi-AZ Secondary host system for your RDS database instance has been under-performing. As transactions in a Multi-AZ RDS setup are synchronous, this would cause performance issues to been experienced throughout the transaction process when they happen, such as during your experience.

Given the Mutli-AZ structure of your RDS instance, you do have the ability to take steps to help remedy the situation from your side. We recommend taking the following steps during a time when you can perform database maintenance for your application:
1) Take a database backup snapshot – this is always recommended before performing any maintenance. Also check that your read replica is in-synch for added backup.
2) Update your RDS database instance from Multi-AZ to Single-AZ – this will disconnect and remove the Secondary host system which is currently seen to have the under-performing data volume. It will also place your RDS instance in a state of not having fail-over redundancy, so be sure to have taken a backup snapshot.
3) Once the change to Single-AZ is complete, update your RDS database instance back to Multi-AZ – this will rebuild a new Secondary host system for your RDS database instance, synchronize your data, and restore the fail-over redundancy.

Parada programada para actualizar a Percona

En la madrugada del domingo al lunes 24, a las 2 AM hora peninsular (0 hs UTC), haremos una parada para actualizar los dos servidores de base de datos, de MySQL 5.1 a Percona 5.5. Si todo funciona como lo esperado y simulado, la desconexión no debería llegar a 10 minutos (los pasos que seguiremos).

Disculpad las molestias.

Ampliación de servidores el 13 de noviembre

Durante el día sábado 13 de noviembre vamos a migrar el servidor de la base de datos, esto ocasionará que no se pueda votar o insertar comentarios durante unos pocos segundos en cuanto se haga el cambio de una base de datos a otra. Avisaremos del momento preciso del cambio unos minutos antes por el Nótame (intentaremoss hacerlo en horas de poco tráfico). Sigue leyendo

Parada de los servidores el 11/2 a las 23:55 hs

Actualización: 08:35 Desde hace varios minutos se producen cortes intermitentes en la conexión a Internet al CPD. No nos avisaron nada todavía.

Nos acaban de informar de nuestro proveedor FERCA que el día 11 de febrero a partir de las 23:55 hs harán la mudanza de nuestros servidores al nuevo centro de datos en Alcobendas. Se espera que pueda durar hasta 6 horas.

Disculpad las molestias.

Estimado cliente,

Debido a la integración de Ferca en el grupo acens, durante este año se han planificado diversas mejoras en el servicio que actualmente le ofrecemos. Una de estas mejoras a nivel técnico requiere la unificación de toda la infraestructura de Ferca en el CPD de acens en Alcobendas, Madrid.

Esta concentración de nodos de nuestra red nos permitirá simplificar la topología de la misma para poder reducir notablemente las probabilidades de fallo. Además, al unificar todas las máquinas en un único CPD propio, podremos ofrecerle un servicio técnico más rápido y eficaz al disponer de personal propio 24/7/365 en las mismas instalaciones.

Esta intervención afecta a los siguientes servidores que posee contratados:

[...]

La interrupción del servicio se realizará el día 11/02/2009 a partir de las 23:55 horas.

A pesar de que la ventana de trabajo establece un margen de trabajo de 6 horas, estimamos que el corte efectivo del servicio no será tan prolongado.

Durante este período de tiempo nuestro equipo de técnicos apagará los equipos arriba indicados que serán trasladados al nuevo CPD. Para que el traslado tenga el menor impacto posible se van a realizar movimientos de pequeños grupos de máquinas.

[...]

Novedades: votos a comentarios, anotaciones, cálculo del karma, promote, Amazon EC2 y fútbol

Estos últimos días hemos hecho varias mejoras importantes (si fuésemos anglosajones diríamos algo como estamos realmente excitados). La principal es que los votos a comentarios son públicos desde hace unos días, se muestran en una ventana modal.

Votos de comentarios públicos

La idea de los votos a comentarios es para resaltar a los buenos comentarios y penalizar a aquellos que insultan o provocan gratuitamente. Al principio no pensábamos que hiciese falta hacer público los datos de estos votos, ya que hay suficientes controles para evitar los abusos de negativos y en general funcionan bastante bien.

Pero hay usuarios que abusan y votan negativo sólo para expresar su desconformidad con los argumentos expuestos, otros como “venganza”, esto generaba bastantes cabreos y consultas a los admins.

Así que habíamos decidido hace tiempo hacerlos públicos, sólo nos demoramos porque estábamos buscando la forma de hacerlo usable, simple y que no afecte la velocidad de todo el sitio. Creo que lo hemos logrado, so we are excited:-)

Servidor adicional en Amazon EC2

El otro cambio importante es más técnico y de las tripas del Menéame, pero casi obligaron a acelerar la implementación de las otras  características, tiene que ver con la avalancha de visitas que recibimos durantes las hora siguientes al partido contra Italia, tanto que la primera hora el sitio iba muy lento por llegar al límite de las 800 conexiones simultáneas.

Para prepararnos para el partido contra Rusia tuvimos que hacer modificaciones importantes al código del Menéame –pre-diseñada, pero pendientes de implementar– para permitir agregar servidores y réplicas remotas temporales de la base de datos.

Así fue que implementamos esta característica y ya está funcionan en un servidor alquilado en Amazon EC2 (amazon1.meneame.net). Si esta noche se produce otra vez la saturación lo habilitaremos para que también sirva al dominio meneame.net.

Sólo tiene un problema importante.

Los tiempos de latencias entre los centros de datos de Amazon en EEUU y nuestros servidores de Ferca en Madrid son muy elevados. Cuando un usuario modifica algo –comentario, voto, chat en la fisgona–, el servidor de Amazon tiene que enviar sincrónicamente los datos al de Madrid para que la visualización sea consistente. Así que en estos casos mencionados veréis –si lo habilitamos para después del partido– que la respuesta es lenta [*]. Pero compensa con la velocidad de navegación que aportará.

[*] No habría este problema si tuviésemos todos los servidores en Amazon EC2, pero los tiempos de ping de estos con Europa son muy malos.

Anotaciones

Al permitir tener varios servidores distribuidos y con altas latencias  ya no podíamos usar ficheros estáticos (compartidos vía NFS). Eso nos generó problemas con los logs públicos del promote y del karma que son visibles en el perfil de usuarios. Para solucionarlo hemos implementado un sistema de “anotaciones” de texto que permiten guardar los logs en la base de datos y así ser accesibles desde cualquier servidor.

Está diseñado para ser muy rápida y de uso genérico. En el futuro seguramente usaremos esta característica para otros tipos de avisos.

Cálculo del karma

En el perfil de cada usuario se puede consultar los resultados del karma. Al mismo tiempo que implementamos la visualización de votos comentarios hicimos algo similar para visualizar el log del cálculo.

Al tener las anotaciones hicimos los cambios para adaptarla y además tradujimos todo el texto al castellano, con mensajes más comprensibles.

Además aprovechando las características de las anotaciones, también se añaden en “tiempo real” los registros de cambios en el karma, por ejemplo con registros de incremento de karma por publicación de una noticia, las penalizaciones por votos cowboys, el descarte de noticias, comentarios con spam, etc. Esta información adicional al usuario ayudará a mejorar todavía más la “transparencia” del Menéame.

Promote

Al igual que tuvimos que adaptar el karma, también el log del promote donde se muestra el ajuste de karma que se hace a cada noticia (cada cinco minutos), o cuándo son seleccionadas para publicarse. Ahora tiene una nueva dirección meneame.net/promote.php.

Fútbol

Algunos dicen que el fútbol es pan y circo. Otros lo defienden. A otros les es indiferente (¿recordáis que podéis seleccionar o “anular” categorías en vuestro perfil?).

En cambio a nosotros nos da no sólo problemas y flames, también mucho trabajo de programación… y algo de gastos adicionales. But, it was quite exciting. ;-)

Migrados (y sin Air Madrid)

Tal como avisamos, hemos migrado el servidor al de Ferca Network (por cierto, debo ponerles en el pie de página). Ahora lo tendremos de pruebas varios días, si va bien nos quedamos.

Por favor decidnos en los comentarios cómo os funciona. Esperamos que toda la interacción “ajax” sea mucho más rápida por la reducción de la latencia.

Para los que preguntaban sobre los datos del servidor, abajo van los datos:

Sigue leyendo

Migrando hacia aquí (a una de las dos ejpañas, no sabemos cuál :)

Si todo sale bien esta madrugada haremos la migración hacia un nuevo servidor en Ferca Network. Es más grande y potente (un Dual Duo Xeon de 64 bits), pero lo más importante no es eso –ya que en este no tenemos problemas de carga todavía– sino que estará localizado en España y con pings muchísimos más bajos para los accesos desde Europa (que suman el 75-80% del total). No es ningún problema con el hosting actual, que es una maravilla. Esperamos que los demás países americanos no noten diferencias negativas en los tiempos (salvo EEUU, Canadá y posiblememte México).

Si las pruebas de estos días van bien, ese será el hogar definitivo del menéame, y espero que por un largo período. Estos cambios de casa son bastantes agobiantes y agotadores.

Así que ya sabéis, si a partir de la 1 de la madrugada notáis que no se puede acceder o que aparece el elefante sentado y bebiedno, no pasa nada, serán sólo unos minutos. El servidor en pruebas ahora mismo es web4.meneame.net (la base de datos es temporal).