VALL-E de Microsoft ne prend que trois secondes pour imiter votre voix

Microsoft présente VALL-E, une technologie capable d’imiter les voix de manière réaliste à partir de courts enregistrements. Le modèle d’IA est même entraîné à reproduire des émotions.

On vit une époque intéressante sur le plan des développements de l’intelligence artificielle. Après qu’OpenAI nous a impressionnés avec Dall-E et ChatGPT, c’est maintenant à Microsoft de sortir un beau bijou d’IA. Via GitHub, Microsoft propose une démonstration de VALL-E, un système d’IA capable d’imiter les voix.

VALL-E est un modèle de langage neuronal destiné à la synthèse de la parole à partir du texte. Un document de recherche précise que le modèle a été entraîné avec plus de soixante mille heures d’enregistrements vocaux en langue anglaise. C’est pour cette raison que le modèle est déjà capable d’imiter la voix d’une personne avec un grand réalisme en se basant sur un enregistrement de seulement trois secondes.

Le modèle de Microsoft n’est certainement pas le premier de son genre, mais les modèles vocaux d’IA précédents ont toujours eu un son très robotique jusqu’à présent. Le résultat fourni par VALL-E semble beaucoup plus naturel et correspond également mieux au locuteur. Écoutez quelques enregistrements et jugez par vous-même.

vall-e schema — Vue schématique de VALL-E. Source : Microsoft

Émotions et acoustique

En outre, VALL-E est également formé pour inclure les émotions et l’acoustique de l’environnement. Si l’on présente au modèle l’enregistrement d’un appel téléphonique, il reproduira également la voix comme si elle sortait d’un téléphone.

Le modèle lutte encore énormément à rendre les émotions naturelles. Dans la démo, il y a quelques clips où VALL-E essaie d’imiter la colère, la fatigue, la joie et le dégoût. On entend immédiatement que ces émotions sonnent très artificielles et le résultat est meilleur lorsque la voix est neutre.

Défaitisme

Malgré les défauts de beauté, les progrès de VALL-E sont impressionnants. En général, les voix produites sont très réalistes. Si réaliste que les défaiteurs commencent déjà à se manifester. Par exemple, on craint que des technologies telles que VALL-E ne soient utilisées pour la diffusion de fausses informations, car il est encore plus facile de faire prononcer aux gens des mots qu’ils n’ont jamais prononcés.

Conscients des complications éthiques, les chercheurs demandent que des protocoles soient établis afin de garantir que le locuteur puisse toujours donner son autorisation pour utiliser et modifier les enregistrements. Pour l’instant, il ne semble pas non plus que VALL-E sera disponible pour le grand public. Cependant, Microsoft explore déjà à fond la manière dont elle peut utiliser ChatGPT pour intégrer la technologie de l’IA dans Office et Bing.

Cookie	Duration	Description
__gads	1 year 24 days	Le cookie __gads, défini par Google, est stocké sous le domaine DoubleClick et permet de suivre le nombre de fois où les utilisateurs voient une publicité, de mesurer le succès de la campagne et de calculer ses revenus. Ce cookie ne peut être lu qu'à partir du domaine sur lequel il est installé et ne permet pas de suivre les données lors de la navigation sur d'autres sites.
_ga	2 years	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
_gid	1 day	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
cli_user_preference	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont stockées dans un cookie, afin que nous le sachions lors de votre prochaine visite.
CONSENT	2 years	YouTube place ce cookie via les vidéos YouTube intégrées et enregistre des données statistiques anonymes.
cookielawinfo*	1 year	Ce cookie garantit que notre notification de cookies fonctionne correctement. Vos préférences sont enregistrées dans un cookie afin que nous sachions quand vous nous rendrez visite la prochaine fois.
IDE	1 year 24 days	Les cookies Google DoubleClick IDE sont utilisés pour stocker des informations sur la façon dont l'utilisateur utilise le site web afin de lui présenter des annonces pertinentes et en fonction de son profil.
itdaily_lang	1 year	Ce cookie est nécessaire pour masquer la notification du pays. La notification du pays est affichée lorsque vous visitez le site web à partir d'un pays. C'est pourquoi nous proposons également une édition spécifique de ITdaily. Vous pouvez masquer cette notification grâce à ce cookie.
itdaily_theme	1 year	Ce cookie enregistre si vous voulez activer la version darkmode ou normale.
PHPSESSID	1 day	Ce cookie provient d'applications PHP standard. Le cookie est utilisé pour stocker et identifier une session d'utilisateur. Il s'agit d'un cookie de session qui est immédiatement supprimé lorsque vous fermez le navigateur.
test_cookie	15 minutes	Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
viewed_cookie_policy	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont enregistrées dans un cookie afin que nous puissions connaître votre prochaine visite.
wordpress_*	30 days	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.
wp-*	1 day	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
itdaily_views	1 hour	Ce cookie est utilisé par notre propre système pour suivre les utilisateurs sur le site web.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
VISITOR_INFO1_LIVE	5 months 27 days	Un cookie défini par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	session	Le cookie YSC est défini par YouTube et est utilisé pour suivre les vues des vidéos intégrées dans les pages YouTube.

VALL-E de Microsoft ne prend que trois secondes pour imiter votre voix

Émotions et acoustique

Défaitisme

actualités liées

newsletter