Jump to content

Serviços da Google Cloud Platform no datacenter de Paris falham devido a fuga de água e incêndio


Rui Carlos

Recommended Posts

Citação

[...]

On Tuesday, 25 April at 17:20 US/Pacific a water leak in one of our data centers in Paris led to a fire in a battery room. Subsequently, Google experienced an infrastructure failure that affected our europe-west-9 Cloud region, impacting multiple Google Cloud Services.

The water leak initially impacted a portion of europe-west9-a; however, the subsequent fire required all of europe-west9-a and a portion of europe-west9-c to be temporarily powered down. Many regional services were affected while europe-west9-c was partially unavailable. These regional services were restored once europe-west9-c and part of europe-west9-a returned to service.

[...]

Fonte: https://status.cloud.google.com/incidents/dS9ps52MUnxQfyDGPfkY

A notícia já tem uns dias, mas chamou-me a atenção pelo facto do incidente ter levado a que mais do que uma das Availability Zones (AZ) da região tenham falhado.  A ideia das AZ é suposto ser isolar deferentes partes de uma região, de modo a que a probabilidade de falharem em simultâneo no caso de incidentes deste tipo seja muito reduzida, fazendo com que serviços replicados em várias AZ continuem operacionais em case de incidente.

A AWS efectivamente garante que as diferentes AZ de uma região estão fisicamente distanciadas.  Mas a Google decidiu adoptar o termo AZ com um significado diferente, e em certos casos colocar as várias AZ de uma região no mesmo datacenter.

Um pormenor a ter em conta por quem estiver a pensar usar a GCP para deployment de projetos.

 

A análise da timeline do incidente também é interessante.  No início a Google estava a aconselhar o failover da AZ que falhou primeiro para as outras.  Ao fim fim de algumas horas todas as AZ da região falharam, e a recomendação passou a ser failover para outras regiões (coisas que provavelmente muitos clientes não conseguiam fazer, pois o habitual é estarem preparados para failover na mesma região apenas).  Isto mostra que mesmo a Google falhou em prever as implicações da falta de isolamento das AZ.  Se tivessem aconselhado de início a migração para outra região, possivelmente o impacto da falha das AZ adicionais podia ter sido mitigado.

Link to comment
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...

Important Information

By using this site you accept our Terms of Use and Privacy Policy. We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.