OpenAI et Microsoft dévoilent de nouveaux modèles vocaux

OpenAI et Microsoft dévoilent de nouveaux modèles vocaux
Image générée par l'IA

OpenAI et Microsoft ont annoncé simultanément deux nouveaux modèles vocaux d’IA

Tant OpenAI que Microsoft ont présenté aujourd’hui de nouveaux modèles d’IA optimisés pour la génération vocale. Les modèles mettent l’accent sur la rapidité, le naturel et l’efficacité, et peuvent être largement utilisés, du support client à la génération de podcasts basés sur du texte.

OpenAI lance gpt-realtime

« Gpt-realtime est notre modèle vocal le plus puissant à ce jour », peut-on lire dans un article de blog. Il génère une voix réaliste et fluide, et peut même changer de ton ou de langue au milieu d’une phrase. Les développeurs peuvent également facilement donner des instructions au modèle pour effectuer des tâches spécifiques, telles que la citation d’articles de support technique dans un chatbot.

Une nouvelle fonction permet également aux utilisateurs de télécharger des images, par exemple une capture d’écran d’un problème logiciel. Cela rend gpt-realtime adapté aux applications avancées dans le support technique. Les développeurs peuvent accéder au modèle via l’API Realtime, désormais disponible pour tous.

Microsoft lance MAI-Voice-1 et MAI-1-preview

Microsoft présente à son tour MAI-Voice-1, qui fait partie de l’assistant Microsoft Copilot. Le modèle est conçu avec l’efficacité énergétique comme priorité : une minute de voix est générée en moins d’une seconde, avec un seul GPU. MAI-Voice-1 recevra à l’avenir des modèles spécialisés pour différents objectifs d’utilisation.

En outre, Microsoft dévoile MAI-1-preview, un puissant modèle d’IA multimodal entraîné sur 15 000 puces Nvidia H100. En utilisant une architecture de type « mixture-of-experts », seules des parties du modèle sont utilisées par invite. MAI-1-preview est pour l’instant uniquement accessible aux utilisateurs de test, mais arrivera bientôt dans Copilot.

Microsoft travaille déjà sur un successeur, entraîné sur un supercluster avec les dernières puces GB200 de Nvidia. Plus d’informations à ce sujet suivront ultérieurement, écrit le géant technologique dans l’annonce.