Microsoft renforce le développement de l’IA multilingue en Europe grâce à de nouvelles collaborations avec des instituts de recherche, un programme de mise à disposition de jeux de données linguistiques ouverts et un financement pour des projets dans les langues européennes sous-représentées.
Microsoft lance de nouvelles initiatives pour mieux adapter les systèmes d’IA à la diversité linguistique de l’Europe. L’objectif est de développer des modèles d’IA qui comprennent mieux les langues européennes. L’expansion des données multilingues pour les modèles d’IA est au cœur de ces plans, avec des points d’appui à Strasbourg et des collaborations avec des institutions et chercheurs européens.
Strasbourg au centre
À Strasbourg, l’entreprise place du personnel du Microsoft Open Innovation Center (MOIC) et du AI for Good Lab. Ces équipes développeront et partageront des jeux de données multilingues en collaboration avec le laboratoire ICube de l’Université de Strasbourg.
La collaboration comprend également le financement de deux chercheurs postdoctoraux et un million de dollars de crédits cloud Azure. Microsoft rendra accessibles ses propres jeux de données multilingues, tels que les données textuelles de GitHub et les données vocales, aux développeurs européens. Ces jeux de données seront diffusés via des plateformes comme Hugging Face, en collaboration avec Common Crawl, où des locuteurs natifs aident à annoter les données dans différentes langues européennes.
Jeux de données
À partir du 1er septembre, les organisations pourront soumettre des propositions pour mettre à disposition des collections de textes numériques pour le développement de l’IA dans dix langues européennes sous-représentées, dont l’estonien, le slovaque, le maltais, le grec et l’alsacien. L’objectif est de partager ces jeux de données de manière responsable et éthique. Les projets sélectionnés recevront des crédits cloud et un support technique.
lire aussi
« Microsoft peine à promouvoir Copilot »
Outre la collecte de données, Microsoft travaille également sur l’amélioration des techniques de traitement pour les langues ayant des systèmes d’écriture différents, comme le grec, le cyrillique ou l’arabe. L’entreprise vise ainsi à améliorer la précision et la fiabilité des systèmes d’IA dans les langues européennes moins courantes.
Enfin, le MOIC et l’AI for Good Lab publient un plan technique pour le développement de jeux de données multilingues et de modèles linguistiques locaux. Ils soutiennent la recherche, partagent des outils et collaborent avec des institutions comme le Barcelona Supercomputing Center et le Basque Center for Language Technology. L’objectif est de rendre l’IA plus accessible au sein des communautés linguistiques européennes.
Responsabilité ou concurrence ?
Microsoft présente l’accent mis sur l’IA multilingue comme un projet culturel dans lequel elle souhaite prendre ses responsabilités. Les petits pays avec des langues uniques sont en effet fortement sous-représentés sur Internet. On trouve encore pas mal de néerlandais sur le web mondial, mais d’autres langues comme l’estonien et le letton sont extrêmement sous-représentées.
D’autre part, cette diversité ouvre justement des portes aux projets locaux. Par exemple, la start-up lettone Convershake travaille sur des modèles d’IA pour les centres de contact, entraînés pour les langues locales avec des termes de niche. Le letton est l’une des langues les moins représentées en ligne.
« Les LLM sont aujourd’hui performants en anglais, mais ne peuvent pas vraiment gérer les petites langues, et certainement pas avec un vocabulaire spécialisé », déclare le cofondateur Emīls Vāvere à ce sujet. Le fait que Microsoft veuille maintenant activement embrasser les langues minoritaires est, dans cette perspective, également un mouvement pour concurrencer les entreprises locales.