Le nouveau modèle d’IA de Stability AI est capable de générer une scène 3D à partir d’une seule image.
Stability AI présente un nouveau modèle d’IA, Stable Virtual Camera, qui, selon l’entreprise, peut transformer des images 2D en « vidéos immersives avec une profondeur et une perspective réalistes ». Le modèle peut créer une scène 3D à partir d’une seule image. Stable Virtual Camera est actuellement uniquement disponible pour un usage de recherche sous licence non commerciale.
De la 2D à la 3D
L’été dernier, Stability AI avait lancé un modèle qui convertissait une seule vidéo en nouvelles vidéos sous huit perspectives différentes. Le nouveau modèle annoncé ne passe pas de la vidéo au modèle 3D, mais de l’image 2D à la vidéo 3D. Ce modèle de diffusion multi-vues génère de nouvelles représentations d’une scène à partir d’une ou plusieurs images d’entrée sous différents angles de caméra, résultant en une vidéo 3D.
Stable Virtual Camera peut générer des vidéos dans différents formats : carré (1:1), portrait (9:16) et paysage (16:9) avec des rapports d’aspect allant jusqu’à 1 000 images. De plus, le modèle peut générer des vidéos 3D à partir d’une seule ou jusqu’à 32 images d’entrée. L’entreprise précise que dans certains scénarios, tels que des images de personnes, d’animaux ou de structures dynamiques (par exemple, l’eau), les résultats peuvent être de qualité inférieure.
L’utilisateur peut en outre déterminer lui-même les différents angles de caméra pour la vidéo 3D. Le modèle est en effet capable de générer des vidéos qui voyagent le long de chemins de caméra « dynamiques », tels que ‘Spiral’, ‘Dolly Zoom’, ‘Move’, ou ‘Pan’.
Stable Virtual Camera est actuellement uniquement disponible pour un usage de recherche sous licence non commerciale, et peut être téléchargé sur Hugging Face.