Google Deepmind annonce une nouvelle version de son générateur de vidéos Veo. Veo 2 améliore la qualité des vidéos et a une meilleure compréhension de la physique et de la cinématographie.
La première version de Veo, un modèle d’IA capable de générer de courts clips vidéo à partir d’un texte, vient à peine d’être lancée que Google Deepmind annonce déjà son successeur. Veo 2 est disponible dans une version test limitée via la plateforme vidéo VideoFX. Le nouveau modèle peut créer des vidéos beaucoup plus réalistes.
Le nouveau modèle comprend mieux les lois de la physique, expliquent les chercheurs de Google Deepmind dans un blog. Il peut donc mieux capturer les mouvements et les expressions. Il améliore également la qualité de l’image et la durée des vidéos. Veo 2 peut créer des images en qualité 4K et n’est plus limité à des clips d’une minute maximum. La version de test s’en tient toujours à une résolution modeste de 720p, note TechCrunch.
Connaissances cinématographiques
Veo 2 a également reçu un cours de cinématographie pour maîtriser le « langage unique du cinéma », écrit Google dans un blog. Vous pouvez demander au modèle d’adopter un style, d’utiliser un type d’objectif spécifique ou d’appliquer des effets cinématographiques. Par exemple, le modèle doit comprendre que lorsque vous lui demandez d’utiliser un objectif de 18 mm, il doit prendre une photo grand angle.
Dans son blog, Google présente des exemples soigneusement choisis pour illustrer les possibilités offertes par Veo 2. Dans le même temps, il est également honnête quant aux limites. Si les risques d’hallucinations, comme l’ajout d’un doigt supplémentaire, devraient être considérablement réduits, il n’est pas exclu que Veo 2 ajoute des éléments non naturels.
En concurrence avec Sora
Avec Veo 2, Google veut à nouveau s’attaquer à OpenAI. Google s’est empressé de surpasser OpenAI en lançant officiellement Veo au début du mois de décembre. La réaction ne s’est pas fait attendre et, quelques jours plus tard, OpenAI a placé son générateur vidéo Sora sous le sapin de Noël (mais pas en Europe). Aujourd’hui, Google tente de revenir sur le devant de la scène avec Veo 2.
lire aussi
Sora, l’IA vidéo d’OpenAI, trop populaire au lancement
L’IA vidéo semble tranquillement prête à faire une percée. Cela n’est pas sans risque, car plus les images de Veo et de Sora s’améliorent, plus il devient difficile de distinguer les vidéos réalisées par des humains de celles générées par l’IA. Google tente de résoudre ce problème en ajoutant un filigrane invisible aux vidéos produites par Sora.
Par ailleurs, Google reste vague quant à la manière dont il a formé Veo. Il y a de fortes chances qu’il l’ait fait en utilisant l’énorme base de données de YouTube, qui appartient à Google. Le laboratoire Deepmind et la société mère Google invoquent le principe de « fair use » (utilisation équitable) pour former des modèles à l’aide de données publiques.
Google n’est pas seulement actif dans le domaine de la vidéo, mais aussi dans celui des images fixes générées par l’IA. Il a lancé Imagen 3 au début du mois et vient même de dévoiler un tout nouveau générateur d’images , Whisk.