Une étude de Cloudflare révèle que les cybercriminels utilisent l’injection de requêtes pour tromper les modèles d’IA et contourner la détection de codes malveillants. Les manipulations subtiles et les astuces structurelles s’avèrent efficaces, avec parfois une chute du taux de détection jusqu’à 12 %.
L’équipe Cloudforce One de Cloudflare a examiné sept modèles d’IA pour comprendre leur raisonnement et leur vulnérabilité à la manipulation. À mesure que les organisations s’appuient davantage sur des systèmes autonomes et de grands modèles de langage, le périmètre de sécurité se déplace également. Une surface d’attaque croissante en dehors du réseau traditionnel nécessite de nouvelles stratégies de sécurité, d’autant plus que les modèles d’IA pilotent désormais des processus organisationnels cruciaux.
Le rapport de Cloudflare démontre que les attaquants utilisent des leurres, des blocs de texte qui influencent émotionnellement ou déroutent les modèles d’IA. Ces leurres sont déployés pour inciter les auditeurs de sécurité à approuver du code malveillant.
Méthode de contournement de 1 %
Une conclusion frappante est la zone dite de contournement de 1 %. Lorsque les leurres représentent moins de 1 % d’un fichier, le taux de détection de l’IA chute à 53 %. Des signaux subtils orientent la capacité de raisonnement du modèle sans éveiller les soupçons de l’auditeur ou du modèle lui-même.
De plus, les chercheurs ont découvert une courbe en U de la tromperie : les tentatives modérées d’influencer l’IA réussissent souvent, mais les tentatives excessives, dépassant les mille commentaires, déclenchent au contraire une alerte entraînant le marquage du code comme frauduleux. L’efficacité de l’attaque dépend donc fortement du volume et de la subtilité des leurres utilisés.
Selon Cloudflare, le piège contextuel constitue la plus grande menace. En dissimulant des charges utiles trompeuses dans des bundles de bibliothèques volumineux tels que les SDK React, le taux de détection a été réduit à 12 %. Cette technique épuise l’attention du modèle d’IA, rendant la détection ciblée presque impossible.
Profilage linguistique
L’étude souligne également un profilage linguistique dans les modèles d’IA. Ainsi, certains modèles marquent les commentaires en russe ou en chinois comme risqués, quel que soit le contenu réel du code. Parallèlement, des langues moins connues comme l’estonien bénéficient plus facilement d’une relation de confiance, ce qui indique des stéréotypes intégrés au sein des modèles.
