Que s’est-il réellement passé chez OpenAI le jour où ses services ont connu l’une des pannes les plus longues de leur histoire ? Le géant de l’IA a imputé l’incident à un « nouveau service de télémétrie » qui a mal tourné. Mais comment un tel outil a-t-il pu perturber à ce point l’ensemble de leur écosystème technologique ?
Mercredi dernier, les utilisateurs de ChatGPT, l’innovateur générateur vidéo Sora, et même ceux utilisant l’API d’OpenAI ont été témoins d’importantes interruptions de service à partir de 15 h, heure Pacifique. Bien que OpenAI ait rapidement reconnu le problème, il a fallu près de trois heures pour rétablir la situation. Cette durée est inhabituelle pour une entreprise de cette envergure. Quelles leçons peut-on tirer de cet incident ?
Le postmortem publié jeudi par OpenAI fut sans équivoque : la panne ne provenait ni d’une faille de sécurité ni du lancement d’un nouveau produit. La cause résidait dans un service de télémétrie récemment mis en place pour collecter des métriques Kubernetes. Pourquoi donc, cette mesure a-t-elle échappé aux contrôles initiaux ?
Il semble crucial de se demander si OpenAI aurait pu anticiper cette crise.
La télémétrie, avec sa large empreinte, a accidentellement engendré des opérations API Kubernetes gourmandes en ressources. En simplifiant, cette surcharge a affecté la plupart des grands clusters Kubernetes de la société. Un incident technique qui soulève une question : comment OpenAI pouvait-il ignorer l’impact que cette modification aurait sur ses opérations internes ?
Concrètement, qu’est-ce que tout cela signifie pour les utilisateurs finaux ? En perturbant le fonctionnement DNS, essentiel pour transformer les adresses IP en noms de domaine lisibles par tous, cette panne a considérablement compliqué la navigation en ligne. Pourquoi une entreprise aussi avancée sur le plan technologique a-t-elle pris le risque de déployer un service sans en estimer pleinement les conséquences ?
Cette somme de dysfonctionnements montre bien que plusieurs systèmes et processus ont échoué en même temps, compliquant la tâche des ingénieurs pour remédier rapidement à la situation. OpenAI, conscient de ses erreurs, prévoit maintenant d’installer des mesures rigoureuses pour éviter qu’un tel événement ne se reproduise. Mais sont-elles suffisantes pour regagner la confiance des utilisateurs et partenaires ?
Avec des propositions pour améliorer les déploiements progressifs et de nouveaux mécanismes pour garantir l’accès de ses équipes d’ingénieurs aux serveurs API Kubernetes, OpenAI se veut rassurant. Cependant, ces annonces suffiront-elles à effacer l’impression laissée par cette panne d’envergure ? Finalement, cette série d’événements nous pousse à nous demander : quelle est la prochaine étape pour OpenAI afin d’assurer une stabilité sans faille à l’avenir ?
Source : Techcrunch