Quand Azure flanche après une maintenance incendie

A la fin du mois de septembre, plusieurs services Cloud d’Azure ont été interrompus pour les clients d’Europe du Nord. Microsoft vient d’en donner la cause : une vérification de la procédure incendie a mal tourné.

Ce n’est pas un cas d’école, mais cela rappelle que l’erreur humaine est souvent la cause des interruptions de service au sein des datacenters. Le 29 septembre dernier, les tableaux de bord de Microsoft s’affolent en Europe du Nord, indiquent nos confrères de Register. Plusieurs services du Cloud Azure sont tombés. Parmi eux, on retrouve les machines virtuelles, Blue Cache, Azure Monitor, Azure Functions, Time Series Insights, Stream Analytics, HDInsight, Data Factory et Azure Scheduler, et Azure Site Recovery. Au final, le trou noir a duré pendant 7 heures avant de rétablir la situation.

Activation par erreur du système incendie

Dans son enquête, la firme de Redmond a trouvé le coupable. Au sein d’un datacenter de Microsoft, une opération de maintenance sur les systèmes d’extinction d’incendie a mal tourné. Les agents ont par erreur activé le système avec comme conséquence l’arrêt de la climatisation et la libération d’un gaz inerte pour limiter l’alimentation en oxygène du feu.

Privé de refroidissement, les équipements IT (serveurs, stockage, réseau) ont rapidement chauffé au point de dépasser les seuils normaux de températures. Dans certains cas, ces systèmes se sont mis en arrêt automatique pour éviter la surchauffe, mais pas tous.

Un effet domino

Microsoft assure avoir rétabli l’air conditionné au bout de 35 minutes et le refroidissement est rapidement revenu à la normale. Cependant, des serveurs et des baies de stockage ont surchauffé et leur redémarrage a pris un certain temps. Cette interruption a néanmoins eu un effet domino, des VM ont été supprimées pour éviter toute corruption des données, Azure Backup n’était plus disponible provoquant des erreurs dans les sauvegardes et les restaurations, Azure Recovery a perdu sa capacité de basculement, enfin HDInsight, Azure Scheduler et Fonctions n’ont pas pu mener leurs actions car les systèmes de stockage étaient hors service.  Azure Monitor et Data Factory affichait une forte latence et des erreurs, etc…

 

Comme toujours dans ces cas-là, Microsoft présente ses excuses et annonce prendre des mesures pour améliorer la plateforme Azure et les processus pour garantir que de tels incidents ne se reproduisent plus. Dont acte.

Photo credit: seeweb via VisualHunt.com /  CC BY-SA

 

Auteur : Jacques Cheminat

Journaliste pendant 15 ans sur les thématiques, télécoms, réseaux, datacenter, stockage, sécurité, virtualisation, etc..., j'ai choisi d'ouvrir ce blog pour écrire sur tous les sujets IT, les tendances et mes humeurs.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s