Un modèle d’IA chinois crée un monde en 3D à partir d’une seule image

tencent voyager

Tencent dévoile son dernier modèle d’IA, HunyuanWorld-Voyager, qui peut transformer une seule image en un monde virtuel interactif.

Dans un document technique et une contribution GitHub, Tencent explique le modèle d’IA. Le modèle Voyager convertit des images fixes en mondes 3D dans lesquels vous pouvez vous « déplacer ». Voyager permet la reconstruction 3D sans processus de reconstruction traditionnels.

D’une seule image à la 3D

Pour entraîner le modèle, Tencent a collecté plus de 100 000 extraits vidéo provenant de différents ensembles de données. Voyager crée à partir d’une seule image une série de vidéos RVB et de profondeur et intègre des informations visuelles et géométriques pour construire un monde virtuel qui bouge avec vous. Vous pouvez consulter quelques démos via la page GitHub.

La sortie produite par Voyager n’est techniquement pas de la « vraie » 3D. Voyager crée une série de courts cadres 2D, qui sont collés ensemble pour imiter l’illusion d’un monde 3D. Le cache croît automatiquement à mesure que de plus en plus de cadres sont générés. Des points invisibles et modifiés sont ajoutés et les informations superflues sont supprimées. De cette façon, le monde dans lequel vous pouvez vous « promener » reste cohérent.

Une caractéristique frappante de Voyager est la génération simultanée d’images RVB et de profondeur. Il n’est donc plus nécessaire d’utiliser un processus de reconstruction 3D distinct. Grâce à ce mécanisme, les développeurs peuvent immédiatement utiliser du contenu 3D dans des applications telles que des simulations, des environnements virtuels et des présentations de produits numériques.

Selon Tencent, Voyager peut également être utilisé pour des applications telles que le transfert de style 3D, l’estimation de la profondeur vidéo ou la création de mondes virtuels pour la formation et la simulation. Tencent affirme, grâce à des benchmarks, que son modèle obtient des scores élevés en matière de contrôle de la caméra, de cohérence spatiale et de qualité visuelle.

Génie-anguille

Le code est ouvertement disponible via GitHub et Hugging Face, mais Tencent ne publie pas le modèle si facilement. Les restrictions de licence de l’entreprise excluent l’Union européenne, le Royaume-Uni et la Corée du Sud. Pour les applications commerciales qui peuvent atteindre plus de 100 millions d’utilisateurs, Tencent impose des conditions de licence supplémentaires.

Le Voyager de Tencent ressemble beaucoup à Google Genie 3, dévoilé le mois dernier par Google. Google Genie 3 conçoit le monde virtuel en temps réel pendant que vous vous déplacez, et peut également se souvenir de vos étapes précédentes.