Une recherche montre que les mécanismes de sécurité intégrés dans ChatGPT et d’autres modèles d’IA peuvent être contournés en utilisant du jargon technique.
ChatGPT et d’autres modèles d’IA peuvent être bernés avec du jargon technique. Des chercheurs d’Intel Labs et de deux universités américaines publient un article dans lequel ils décrivent comment ils ont pu tromper plusieurs outils d’IA populaires en utilisant un langage complexe et technique. De cette façon, ils ont réussi à jailbreaker ChatGPT, Gemini et Meta LLama.
Le terme « jailbreaker » englobe les techniques qui contournent les mécanismes de sécurité intégrés des modèles d’IA. En bref, vous faites faire aux modèles des choses qu’ils sont justement programmés pour ne pas faire. Cela peut être fait avec de mauvaises intentions, mais jailbreaker des modèles est aussi un sport olympique dans le monde académique.
lire aussi
Claude 4 Opus n’est pas étranger au chantage
Jargon technique
Les chercheurs ont découvert que rendre les prompts excessivement complexes en utilisant beaucoup de jargon technique est très efficace à cet effet. En langage académique, cette tâche spécifique s’appelle surcharge d’informations. Le modèle est submergé d’informations complexes de sorte qu’il exécute docilement la demande interdite.
La technique aurait été appliquée avec succès sur différentes versions de ChatGPT (GPT-4o et GPT-3.5-Turbo), Gemini (2.0) et Meta Llama (3.1). Selon les chercheurs, les chances de « succès » avec leur technique sont jusqu’à trois fois plus élevées qu’avec d’autres méthodes de jailbreak connues. Même les API de modération développées par les entreprises d’IA ou des tiers externes ne font pas le poids face au jargon technique.
En plus d’un article, ils rendent également public un outil, InfoFlood, qui convertit automatiquement les prompts en langage technique. L’outil mémoriserait notamment quels termes techniques fonctionnent bien ou moins bien et adapterait les prompts en conséquence. À utiliser uniquement à des fins académiques, bien sûr.
Les modèles d’IA peuvent être détournés de différentes manières par des cybercriminels et des fraudeurs. En jouant habilement avec les prompts, vous pouvez faire écrire à ChatGPT des mails frauduleux ou du code malveillant pour vous. Mais parfois, les modèles d’IA sont l’appât pour des cyberattaques.
