OpenAI travaillerait sur un nouveau modèle d’IA optimisé pour l’audio avec une parole plus naturelle.
OpenAI développerait un nouveau modèle d’IA spécifiquement optimisé pour les applications audio. L’accent serait mis sur une parole naturelle et une interaction en temps réel.
C’est ce que rapporte The Information, sur la base de sources proches des projets. Le modèle devrait surpasser les modèles audio actuels d’OpenAI, en particulier dans les conversations nécessitant une interaction rapide.
Une parole plus naturelle
Selon le rapport, OpenAI construit le nouveau modèle sur une nouvelle architecture. Le modèle audio en temps réel actuel de l’entreprise, GPT-realtime, est basé sur l’architecture de transformateur classique. Il n’est pas encore clair si OpenAI abandonne complètement les transformateurs, ou si elle mise sur une variante adaptée ou plus efficace.
Certains systèmes traitent la parole directement, tandis que des modèles similaires convertissent d’abord l’audio en spectrogrammes. Comme pour Whisper et d’autres modèles audio, il est probable qu’OpenAI propose plusieurs variantes du nouveau modèle, avec différents profils de qualité et de performance.
io Products
OpenAI travaillerait sur un appareil audio qui devrait sortir d’ici un an environ. Selon des informations antérieures, cela pourrait se transformer en une gamme complète de produits, comprenant notamment un haut-parleur intelligent et des lunettes intelligentes.
Cette ambition est soutenue par l’acquisition d’io Products. Il s’agit du studio de design de Jony Ive, qu’OpenAI a évalué à 6,5 milliards de dollars l’année dernière. Le Financial Times a rapporté en octobre qu’Ive travaille sur un appareil compact qui sera placé sur un bureau ou une table.
Le modèle devrait être lancé d’ici fin mars
