À partir du 24 avril, GitHub utilisera les interactions avec son assistant de codage Copilot pour perfectionner le modèle sous-jacent.
GitHub annonce dans un blog de nouvelles conditions d’utilisation pour son assistant de codage Copilot. À partir du 24 avril, les interactions avec l’assistant, qu’il s’agisse des entrées, des sorties ou des extraits de code, serviront à l’entraînement de l’IA. Ces nouvelles conditions s’appliquent à la version gratuite de Copilot Chat, ainsi qu’aux versions Pro et Pro+.
Les utilisateurs Business et Enterprise sont exemptés, tout comme les étudiants et les enseignants. GitHub part du principe d’un consentement tacite : les développeurs qui ne souhaitent pas que leur code soit utilisé pour l’entraînement de l’IA doivent se rendre dans les paramètres pour chercher le menu d’exclusion (opt-out).
Quelles données GitHub souhaite-t-il utiliser ?
Dans l’article de blog, le chef de produit Mario Rodriguez explique pourquoi GitHub modifie ses conditions d’utilisation. « En participant, vous aidez nos modèles à mieux comprendre les flux de travail de développement, à proposer des suggestions de modèles de code plus précises et plus sûres, et à améliorer leur capacité à détecter d’éventuels bogues avant leur mise en production. » En résumé : GitHub veut que Copilot apprenne d’exemples concrets du monde réel.
Pour ce faire, GitHub affirme avoir besoin des données suivantes :
- Les sorties du modèle qui ont été acceptées ou modifiées ;
- Les entrées du modèle, y compris les extraits de code affichés ;
- Le code entourant la position de votre curseur ;
- Les commentaires et la documentation que vous avez rédigés ;
- Les noms de fichiers et la structure du dépôt (repository) ;
- Les interactions avec les fonctionnalités de Copilot (par ex. les chats) ; et
- Les retours sur les réponses
Privé ≠ confidentiel
Selon les nouvelles conditions, les dépôts « privés » ne resteront plus totalement confidentiels. GitHub collecte les données d’interaction des sessions d’utilisation actives. Seule l’activation de l’option d’exclusion vous préserve de l’entraînement de l’IA.
L’annonce suscite peu d’enthousiasme chez les développeurs actifs sur la plateforme, qui ne voient pas d’un bon œil le fait de nourrir un modèle d’IA avec leur code. Pourtant, il n’est pas surprenant que GitHub finisse par s’intéresser aux données des utilisateurs. Copilot Chat est mis à disposition gratuitement depuis fin 2023, et la gratuité n’est jamais totale dans le monde de l’IA. Cela vaut également pour les chatbots populaires comme ChatGPT et Google Gemini.
GitHub cite Anthropic et Microsoft, qui utilisent un système d’exclusion similaire pour l’entraînement de l’IA. OpenAI considère cela comme un effort superflu et alimente son assistant de codage Codex avec du code GitHub publiquement visible. Dans ce contexte, GitHub a au moins le mérite de le demander poliment.
