Après une analyse de 700 000 conversations avec Claude, Anthropic a découvert un code moral auto-créé par le modèle d’IA.
Anthropic examine si Claude adhère aux valeurs préétablies par l’entreprise. Pour ce faire, plus de 700 000 conversations anonymisées ont été analysées. Dans la plupart des conversations, Claude a agi correctement, mais dans 308 000 conversations, le modèle d’IA présente un comportement déviant. Anthropic qualifie ce phénomène de « taxonomie empirique des valeurs de l’IA ».
Cinq valeurs principales
Les valeurs que Claude emploie se répartissent en cinq catégories : pratique, axée sur la connaissance, relationnelle, éthique et expressive. « Au final, 3 307 valeurs uniques ont été identifiées, allant de l’autonomie à la pensée stratégique », déclare Saffron Huang à VentureBeat. Claude adapte ses valeurs au contexte. Pour les conseils relationnels, il met l’accent sur le « respect mutuel », tandis que pour l’analyse d’événements historiques, la « précision » est primordiale.
Les chercheurs ont également examiné la manière dont Claude gère les valeurs des utilisateurs. Dans 28,2 % des conversations, il était fortement d’accord avec elles, ce qui semblait parfois excessivement complaisant. Dans 6,6 % des cas, il reformulait les valeurs : il les reconnaissait, mais ajoutait de nouvelles perspectives, souvent via des conseils psychologiques ou relationnels.
Dans trois pour cent des cas, Claude s’est opposé aux valeurs des utilisateurs. Ainsi, les chercheurs savent qu’il trace lui-même une limite morale. Claude porte à ce moment-là son propre jugement et reflète ainsi les valeurs humaines. « Dans ces moments-là, quelque chose qui ressemble aux convictions les plus profondes de Claude émerge », explique Huang.
Du support utilisateur aux limites morales
Il est remarquable que Claude manifeste parfois des valeurs qui ne sont pas conformes à sa formation, comme la domination. Ces cas sont probablement dus à des tentatives délibérées des utilisateurs de contourner les directives et indiquent des vulnérabilités dans la sécurité des systèmes d’IA. En rendant publics son ensemble de données et les résultats de l’étude, Anthropic souhaite être transparent sur la façon dont l’IA se comporte effectivement envers les humains.
lire aussi