Que s’est-il vraiment passé lors de cette panne massive impliquant 8,5 millions de machines Windows ? CrowdStrike, un géant de la cybersécurité, a récemment pointé du doigt un logiciel de test défectueux comme étant à l’origine de cette mise à jour problématique. Mais comment un simple bug peut-il causer autant de chaos en si peu de temps ?
La panne monumentale du célèbre « blue screen of death » (BSOD) a paralysé plusieurs grandes entreprises à travers le monde, touchant des compagnies aériennes, des diffuseurs télévisuels, la Bourse de Londres, entre autres. Alors que les machines Windows étaient prises dans une boucle de démarrage sans fin, les techniciens ont dû accéder physiquement aux machines pour les rétablir. Pourtant, ce problème n’a touché ni les machines Apple ni celles sous Linux. Pourquoi une telle vulnérabilité spécifique à Windows ?
Mais creusons un peu plus. Pour se prémunir contre les attaques DDoS et autres menaces, CrowdStrike utilise un outil appelé Falcon Sensor. Ce capteur fonctionne au niveau du noyau et définit ses mécanismes de défense par le biais de « Template Types ». Or, le 19 juillet, deux nouvelles instances de template ont été mises en ligne. L’une d’elles, bien que n’occupant que 40KB, contenait des données problématiques. Comment une telle erreur a pu passer les contrôles de validation initiale ? Et pourquoi un correctif si petit a-t-il eu un impact si dévastateur ?
La question reste de savoir si CrowdStrike aurait dû prévoir ces mesures dès le départ.
Suite à cet incident, CrowdStrike s’engage à prendre plusieurs mesures pour éviter une répétition de ce genre d’erreur. Parmi celles-ci, on retrouve des tests plus approfondis des mises à jour (tests locaux, tests de charge, tests de stabilité, etc.), des contrôles de validation renforcés et une gestion améliorée des erreurs. Mais est-ce que cela suffira pour regagner la confiance perdue de leurs clients ?
De plus, la société compte déployer une stratégie de déploiement progressif pour ses mises à jour de contenu « Rapid Response ». Ils offriront également à leurs clients un plus grand contrôle sur la distribution de ces mises à jour ainsi que des notes détaillées sur les publications. Mais pourquoi une telle stratégie n’a-t-elle pas été mise en place dès le début ?
Certains analystes et ingénieurs, comme Florian Roth, pensent que CrowdStrike aurait dû anticiper ces problèmes. « CrowdStrike devait être conscient que ces mises à jour, interprétées par les pilotes, pouvaient entraîner des problèmes, » a posté Roth sur X. Pourquoi ne pas avoir envisagé ces mesures de précaution dès le départ ? CrowdStrike pourra-t-il rectifier le tir et éviter de futurs incidents de ce genre ?
Source : Engadget