Rui Carlos Posted May 14, 2023 at 12:49 PM Report Share #630930 Posted May 14, 2023 at 12:49 PM Citação [...] On Tuesday, 25 April at 17:20 US/Pacific a water leak in one of our data centers in Paris led to a fire in a battery room. Subsequently, Google experienced an infrastructure failure that affected our europe-west-9 Cloud region, impacting multiple Google Cloud Services. The water leak initially impacted a portion of europe-west9-a; however, the subsequent fire required all of europe-west9-a and a portion of europe-west9-c to be temporarily powered down. Many regional services were affected while europe-west9-c was partially unavailable. These regional services were restored once europe-west9-c and part of europe-west9-a returned to service. [...] Fonte: https://status.cloud.google.com/incidents/dS9ps52MUnxQfyDGPfkY A notícia já tem uns dias, mas chamou-me a atenção pelo facto do incidente ter levado a que mais do que uma das Availability Zones (AZ) da região tenham falhado. A ideia das AZ é suposto ser isolar deferentes partes de uma região, de modo a que a probabilidade de falharem em simultâneo no caso de incidentes deste tipo seja muito reduzida, fazendo com que serviços replicados em várias AZ continuem operacionais em case de incidente. A AWS efectivamente garante que as diferentes AZ de uma região estão fisicamente distanciadas. Mas a Google decidiu adoptar o termo AZ com um significado diferente, e em certos casos colocar as várias AZ de uma região no mesmo datacenter. Um pormenor a ter em conta por quem estiver a pensar usar a GCP para deployment de projetos. A análise da timeline do incidente também é interessante. No início a Google estava a aconselhar o failover da AZ que falhou primeiro para as outras. Ao fim fim de algumas horas todas as AZ da região falharam, e a recomendação passou a ser failover para outras regiões (coisas que provavelmente muitos clientes não conseguiam fazer, pois o habitual é estarem preparados para failover na mesma região apenas). Isto mostra que mesmo a Google falhou em prever as implicações da falta de isolamento das AZ. Se tivessem aconselhado de início a migração para outra região, possivelmente o impacto da falha das AZ adicionais podia ter sido mitigado. Rui Carlos Gonçalves Link to comment Share on other sites More sharing options...
Recommended Posts
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now