Microsoft garde le modèle de synthèse vocale en interne : trop réaliste

ai spraakgenerator

Vall-e 2 peut imiter des voix humaines, de manière sinistrement réaliste. Le résultat est tellement convaincant que l’outil ne quittera peut-être jamais le laboratoire de Microsoft.

Microsoft Vall-e est un générateur d’IA vocal. Une première version a été dévoilée en janvier 2023 et pouvait imiter la voix d’une personne sur la base d’un fragment de quelques secondes. Vall-e 2 est encore plus performante et peut même imiter des voix sur lesquelles elle n’a pas été spécifiquement formée. Il suffit de quelques secondes pour que Vall-e 2 adopte des variations de prononciation et d’intonation pour produire un discours artificiel.

Les voix des assistants d’IA sont souvent très robotiques, mais ce n’est absolument plus le cas avec Vall-e 2. Les chercheurs de Microsoft qui ont formé le modèle affirment que Vall-e 2 est le premier modèle de synthèse vocale à atteindre « l’équivalence humaine ».

Risque d’abus

Et c’est exactement la raison pour laquelle les chercheurs de Microsoft pensent qu’il est judicieux de garder le modèle à l’intérieur. Bien que les chercheurs voient des applications potentielles dans l’éducation, le divertissement, le journalisme et d’autres domaines, le risque d’abus serait trop grand. « Vall-e 2 est un simple projet de recherche », lit-on noir sur blanc.

Dès la première version de Vall-e, les défaitistes étaient inquiets des conséquences qu’aurait la mise à disposition du public d’un modèle de discours réaliste. Avec une telle technologie, il est possible de faire dire aux gens des choses qu’ils n’ont jamais dites, ou de leur faire croire au téléphone que vous êtes quelqu’un d’autre. Un employé d’une entreprise de Hong Kong s’est déjà fait avoir par une copie IA de son patron, une erreur qui a coûté des millions.

newsletter

Abonnez-vous gratuitement à ITdaily !

Category(Required)
This field is for validation purposes and should be left unchanged.
retour à la maison