Anthropic publie une nouvelle constitution qui décrit le comportement du modèle d’IA Claude.
Anthropic a publié une nouvelle constitution pour le modèle d’IA Claude. Dans l’annonce, on peut lire ce qui suit : « Il s’agit d’une description détaillée de la vision d’Anthropic sur les valeurs et le comportement de Claude ; un document holistique qui explique le contexte dans lequel Claude opère et le type d’entité que nous attendons de Claude. »
Version mise à jour
La constitution précédente date de 2023 et était, selon l’entreprise, une liste de principes isolés qui n’étaient pas assez spécifiques. « Nous ne devons pas seulement spécifier ce que nous attendons d’eux ; les modèles d’IA doivent comprendre pourquoi nous voulons qu’ils se comportent d’une certaine manière », a déclaré Anthropic.
La nouvelle version est basée sur quatre exigences générales. Premièrement, Claude doit être globalement sûr, en refusant les actions interdites et en étant plus transparent sur ses décisions. De plus, il doit être « vraiment utile » et agir en fonction du contexte de l’utilisateur. Les autres piliers sont l’action éthique et le respect de directives internes spécifiques, telles que la protection contre le jailbreaking et la gestion correcte des applications externes.
Entraînement et évaluation
Le document fait partie de l’ensemble de données d’entraînement de Claude. Sur la base du document, Claude génère des données d’entraînement synthétiques qui l’aident à apprendre et à comprendre la constitution. Il peut ainsi traduire la vision en un outil utilisable pour ses réponses, et ainsi respecter les règles. Si Claude donne une réponse qui ne correspond pas à la constitution, les utilisateurs peuvent envoyer des commentaires à Anthropic.
lire aussi
