Posts etiquetados ‘amazon’

Parada programada, sábado 10 de diciembre

diciembre 9, 2011

Este sábado a las 00:00hs UTC (1 de la mañana peninsular española, o sea, en 11 horas) haremos una parada programada de 5 a 10 minutos. Desde Amazon nos avisaron que dos de nuestros servidores centrales serían reiniciados por actualización del softwaree del servidor anfitrión:

One or more of your Amazon EC2 instances have been scheduled for a reboot in order to receive some patch updates. Most reboots complete within minutes, depending on your instance configuration. The instance(s) that will be rebooted and your scheduled reboot time(s) are listed below.

Region        Instance ID    Maintenance Window
=================================================================
eu-west-1       i-12d4e564      2011-12-19 22:00:00 UTC – 2011-12-20 04:00:00 UTC       instance-reboot
eu-west-1       i-f10b2586      2011-12-19 22:00:00 UTC – 2011-12-20 04:00:00 UTC       instance-reboot

No action is required on your part. Each reboot will occur during the corresponding scheduled maintenance window listed above. Note that when a reboot is done, all of your configuration settings are retained. You also have the option to manage these reboots yourself at any time prior to the scheduled maintenance window.

Aunque lo hacen automáticamente sin necesidad de intervención manual, preferimos hacerlo manualmente para asegurarnos de minimizar el tiempo de impacto (haremos las dos simultáneamente), y verificar que quede todo funcionando correctamente luego de los reinicios.

Disculpad las molestias.

Sin conectividad en Amazon Irlanda

agosto 8, 2011

Desde las 17:30 GMT el web no funciona. El motivo és un problema de conectividad en Amazon Irlanda debido a un problema eléctrico. Os pedimos disculpas y esperamos que lo solucionen pronto. En esta web (pestaña Europe) podéis seguir el estado del centro de datos que nos afecta. Hemos abierto la incidencia y tenemos poca información. Intentaremos publicarla a medida que tengamos más detalles. De momento parece que la cosa es grave:

We understand at this point that a lighting strike hit a transformer from a utility provider to one of our Availability Zones in Dublin, sparking an explosion and fire. Normally, upon dropping the utility power provided by the transformer, electrical load would be seamlessly picked up by backup generators. The transient electric deviation caused by the explosion was large enough that it propagated to a portion of the phase control system that synchronizes the backup generator plant, disabling some of them. Power sources must be phase-synchronized before they can be brought online to load. Bringing these generators online required manual synchronization.

Acutalización a la 1:00 GMT:

Amazon recomienda cambiar de zona (fuera de Irlanda) para estar antes en línea. Pero ¿cómo vamos a hacerlo sin los EBS (Elastic Block Storage)inacesibles desde cualquier tipo de comunicación? Tenemos copias en otros lugares, pero de un par de horas antes. Se perderían los últimos movimientos en menéame. Preferimos esperar. Amazon dice:

We are continuing to recover the remaining affected instances. It may be several hours until all remaining instances and volumes can be recovered but we don’t have a firm timeline and it may be longer to bring everything online. We recommend re-launching your instance in a different availability zone in order to get back up and running more quickly.

Acutalización a las 10:00 GMT, 09-08-2011:

A las 05:26 GMT (36 horas después del desastre) finalmente hemos recibido un mensaje de Amazon avisándonos que tres de cuatro instancias ya funcionan. Pero faltaba una. Contiene un volumen (/dev/sdb1) que no responde y no podemos arrancar la cuarta instancia –que además es la principal. Seguimos en contacto con el servicio técnico para que lo recuperen.

Si no lo solucionan obviaremos esos datos (no son importantes) y crearemos una nueva instancia con el resto de volúmenes que ya están recuperados. Esperamos volver hoy. Habrán pasado 48h, disculpad.

Muchas gracias por vuestra paciencia.

Acutalización el 10-08-2011:

Relato en el blog de Ricardo Galli.

Caso cerrado. Disculpad y muchas gracias de nuevo por vuestra paciencia.

Sobre los problemas de esta madrugada y el cambio a www.meneame.net

enero 21, 2010

Disculpas por el tiempo que estuvo inaccesible el web con el dominio meneame.net (no así m.meneame.net y www.meneame.net).

Nuestros servidores web están detrás de un balanceador de carga de Amazon EC2 (web-balancer-177968158.eu-west-1.elb.amazonaws.com). Está documentado que el balanceador puede tener varias direcciones IP dependiendo del tráfico, por lo que en el DNS hay que usar un CNAME (es como un “enlace simbólico”) apuntando al nombre y no a la IP.

El gran problema es que un dominio raíz, como meneame.net, no puede tener un CNAME, los servidores sólo admiten direcciones IP. Usamos en CNAME en los subdominios, como el de imágenes, servidores estáticos y otros (como m.meneame.net y aws.mnmstatic.net) pero queríamos mantener meneame.net sin las www.

En los foros y comentarios de técnicos de Amazon decían que la primera IP de los balanceadores se mantiene estática por mucho tiempo y que no suelen cambiar. Hasta hoy, que a pesar que las monitorizábamos continuamente por alguna razón, a las 3 de la madrugada, a nuestro balanceador le agregaron varias IP y quitaron la primera como “principal” (a algunos les seguía saliendo la misma).

Esa fue la razón que muchos no podían acceder, o que veían la página de otros servidores (posiblemete instancias ajenas o del propio Amazon). Amazon prometió solucionar este problema desde hace tiempo, pero hoy nos ha tocado sufrir sus cambios. Así que hasta que no haya solución nos vemos obligado a redireccionar todo el tráfico a www.meneame.net.

Disculpad las molestias, ha sido básicamente un error de exceso de confianza mío (gallir) por una feature no documentada, de hecho no recomendada. Afortunadamente Benjamí estaba conectado y me llamó inmediatamente.

Nota: No hace falta cambiar ningún enlace hacia menéame, ya se redirecciona automáticamente hacia www.meneame.net

PS: Aprendimos duramente una restricción bastante importante de usar los balanceador de carga de Amazon, y que a pesar que hay hacks (los explican en el foro enlazado en el párrafo anterior), no hay una solución fiable para todo el mundo.


Seguir

Get every new post delivered to your Inbox.

Únete a otros 26 seguidores