Cloudflare a testé Mythos Preview dans ses propres dépôts et a partagé ses conclusions.
L’émergence de modèles d’IA avancés a bouleversé le monde de la cybersécurité. Auparavant, l’IA aidait principalement à l’automatisation et à l’analyse, mais il existe désormais des modèles capables de détecter, de tester et de combiner des vulnérabilités de manière autonome. L’un des exemples les plus frappants est Mythos Preview, un modèle expérimental d’Anthropic testé dans le cadre du Project Glasswing. Cloudflare a tenté l’expérience.
Qu’est-ce que le Project Glasswing ?
Le Project Glasswing est un programme de recherche qui teste les cyber-capacités de modèles d’IA avancés. L’objectif est double : d’une part, examiner comment l’IA peut aider les équipes de sécurité à découvrir plus rapidement les vulnérabilités et, d’autre part, comprendre les risques qui surviennent lorsque de tels modèles tombent entre de mauvaises mains.
Dans le cadre de ce projet, des acteurs tels qu’AWS, Apple, Broadcom, Cisco, Google, Microsoft et The Linux Foundation ont eu accès à Mythos Preview, un modèle d’Anthropic qui n’est pas encore public. Cloudflare a utilisé ce modèle pour analyser plus de cinquante de ses propres dépôts et projets open source. Les résultats montrent à quel point l’IA évolue rapidement, passant du statut d’« assistant intelligent » à celui d’un système qui réfléchit activement comme un chercheur en sécurité expérimenté.
Qu’est-ce qui rend Mythos particulier ?
Selon Cloudflare, les capacités de Mythos vont au-delà de celles des modèles d’IA précédents. Ces derniers pouvaient certes détecter des bugs, mais ne dépassaient souvent pas le stade de l’analyse théorique. « Mythos va beaucoup plus loin », affirme Cloudflare. « Le modèle peut combiner plusieurs petites vulnérabilités pour former une chaîne d’exploitation complète. » En pratique, les attaquants utilisent rarement un seul bug ; ils enchaînent plusieurs points faibles pour finir par prendre le contrôle d’un système. Mythos s’est avéré capable de reconstruire ce processus de manière autonome.
En outre, le modèle génère également des preuves de concept (proof-of-concepts). Il écrit le code qui active la vulnérabilité, compile ce code dans un environnement de test et vérifie si l’attaque fonctionne réellement. En cas d’échec, le modèle ajuste son hypothèse et réessaie. Cette méthode de recherche itérative se rapproche singulièrement de la manière dont travaillent les chercheurs humains.
Non seulement puissant, mais aussi imprévisible
Mythos a parfois refusé spontanément d’exécuter certaines tâches offensives. Ces « garde-fous organiques » sont apparus sans couches de sécurité explicites. Pourtant, ce comportement s’est avéré incohérent. Une même commande pouvait soudainement être exécutée dans un autre contexte. Selon Cloudflare, cela montre clairement que de tels modèles nécessitent des mécanismes de sécurité supplémentaires avant de pouvoir être largement diffusés. Se fier uniquement à la retenue spontanée du modèle ne suffit pas lorsque les systèmes d’IA peuvent exploiter des vulnérabilités de manière autonome.
Un défi majeur de la recherche de vulnérabilités pilotée par l’IA reste l’énorme quantité de faux positifs. Les modèles ont tendance à voir des problèmes partout et formulent souvent leurs résultats avec prudence : « possible », « potentiel » ou « théoriquement exploitable ». Pour les équipes de sécurité, cela représente une charge de travail supplémentaire considérable. Chaque signalement suspect doit faire l’objet d’un examen manuel. Cloudflare souligne que Mythos est, là encore, plus performant que les modèles précédents. Comme il fournit plus souvent des codes d’exploitation fonctionnels, les vulnérabilités réellement critiques sont identifiées plus rapidement.
Un système étendu
Cloudflare a rapidement découvert qu’il était peu utile de lancer un agent d’IA sur l’intégralité d’une base de code. Les grands dépôts contiennent trop de contexte, ce qui fait perdre le fil aux modèles et leur fait oublier des détails lorsque leur fenêtre contextuelle est saturée. C’est pourquoi l’entreprise a mis en place une protection étendue : un système dans lequel plusieurs agents d’IA spécialisés collaborent en parallèle. Certains agents effectuent des reconnaissances, d’autres recherchent des classes d’attaques spécifiques, tandis que des agents de validation distincts vérifient si les vulnérabilités trouvées sont réellement exploitables.
L’impact de ces systèmes va au-delà de la simple détection de vulnérabilités. Selon Cloudflare, les entreprises devront repenser l’intégralité de leur architecture de sécurité. Accélérer le déploiement des correctifs ne suffit plus lorsque les attaquants utilisant l’IA peuvent développer de nouveaux exploits en quelques heures. L’accent se déplace donc vers la résilience structurelle : une meilleure segmentation, des contrôles d’accès plus stricts et des systèmes capables de neutraliser les vulnérabilités avant même qu’un correctif ne soit disponible.
Le Project Glasswing démontre surtout une chose : l’IA n’est plus seulement utilisée pour construire des logiciels, mais aussi pour les attaquer et les défendre activement. Cela rendra la cybersécurité non seulement plus rapide, mais aussi plus complexe dans les années à venir.
