Aucune cyberattaque mais un fichier de fonctionnalités élargi a créé une erreur logicielle dans les systèmes de Cloudflare, provoquant la panne de certains services en ligne pendant des heures.
Le mardi 18 novembre, plusieurs services en ligne tels qu’OpenAI, X et Ikea ont été indisponibles pendant des heures. Après plus de trois heures, les sites web fonctionnaient à nouveau correctement. Une cyberattaque n’était pas à l’origine des dysfonctionnements techniques, mais plutôt une erreur dans la configuration interne du système Bot Management. Le PDG de Cloudflare explique dans un article de blog ce qui s’est exactement passé.
Fichier de fonctionnalités élargi
« Le problème n’a pas été causé directement ou indirectement par une cyberattaque ou des activités malveillantes de quelque nature que ce soit », souligne Matthew Prince, PDG de Cloudflare dans un article de blog.
lire aussi
Cloudflare connaît une panne mondiale : X et OpenAI touchés
Selon Cloudflare, la panne a été causée par une modification des droits d’accès d’un système de base de données. Cette modification a fait que le système a involontairement inclus plusieurs entrées dans un soi-disant fichier de fonctionnalités. Ce fichier joue un rôle dans le fonctionnement du système Bot Management de Cloudflare. En raison de l’erreur, la taille du fichier a doublé.
Erreur logicielle
Le fichier a ensuite été automatiquement distribué à toutes les machines du réseau de Cloudflare. Le logiciel réseau, responsable du routage du trafic, dépend du fichier mais avait une limite définie pour la taille maximale du fichier. Lorsque le fichier a dépassé cette limite, le logiciel a échoué sur plusieurs systèmes.
Soupçon de DDoS
Initialement, l’équipe pensait qu’il s’agissait d’une attaque DDoS à grande échelle, mais après des investigations supplémentaires, la véritable cause a été identifiée. Cloudflare a pu arrêter le processus de distribution et déployer une version antérieure et fonctionnelle du fichier. Vers 14h30, le réseau a commencé à se rétablir. À 17h06, tous les systèmes étaient à nouveau opérationnels.
« Nos excuses pour l’impact sur nos clients et sur Internet en général. Compte tenu de l’importance de Cloudflare dans l’écosystème Internet, toute panne de l’un de nos systèmes est inacceptable », déclare Prince dans l’article de blog. Il fournit également un rapport approfondi de ce qui s’est exactement passé et quels systèmes et processus ont échoué.
