Google DeepMind forme des robots « pensants » avec Gemini Robotics 1.5

logo google deepmind

Deux nouveaux modèles de robots de Google DeepMind peuvent réfléchir avant d’agir.

Google DeepMind a dévoilé deux modèles de robots qui collaborent pour permettre aux robots de réfléchir avant d’agir. Gemini Robotics 1.5 (modèle d’action) et Gemini Robotics-ER 1.5 (modèle de raisonnement intégré) apportent les principes de l’IA générative au monde réel. Cela devrait rendre les robots beaucoup plus polyvalents qu’ils ne le sont actuellement.

Deux modèles : un qui pense, un qui agit

DeepMind s’appuie sur les modèles de base de Gemini, mais les a optimisés spécifiquement pour la robotique. L’approche se compose de deux composantes distinctes mais collaboratives :

  • Gemini Robotics-ER 1.5 est un modèle de vision-langage qui raisonne sur une tâche. Il traite les entrées visuelles et les instructions textuelles, peut consulter des outils (tels que la recherche sur le web) et génère un plan d’action en langage naturel : ce qui doit se passer et pourquoi.
  • Gemini Robotics 1.5 est un modèle vision-langage-action (VLA) qui transforme ces étapes en actions robotiques réelles telles que saisir, déplacer et se positionner. Le modèle effectue également de courtes considérations pratiques pour éviter les erreurs ou les mouvements maladroits.

Cette séparation reflète la façon dont les gens travaillent souvent : d’abord planifier, puis exécuter.

Apprendre à travers différents modèles

Selon DeepMind, un avantage important est la capacité de transférer des compétences entre différents « embodiments ». Un modèle qui apprend à travailler avec deux bras peut être appliqué à un robot humanoïde avec des mains plus complexes (Apollo) sans formation approfondie. Ainsi, il ne faut pas construire un modèle complètement nouveau pour chaque plateforme robotique.

Que peuvent-ils faire ?

DeepMind cite quelques exemples comme le tri du linge : le modèle ER divise la tâche en étapes (identifier blanc/couleur, prendre le vêtement, vérifier le matériau, placer dans le bon bac) et le modèle d’action exécute ces étapes physiquement. Les scénarios d’utilisation plus réalistes sont les tâches d’assemblage plus complexes, l’automatisation de laboratoire et le travail en entrepôt où les environnements varient.

Selon DeepMind, cette méthode ouvre la porte à des robots plus généraux et rapidement déployables.

Limites et disponibilité

DeepMind souligne cependant que nous ne sommes pas encore prêts pour un robot domestique qui fait le linge de manière autonome. Gemini Robotics-1.5 (le modèle d’action) est pour l’instant limité aux testeurs de confiance ; le modèle ER avec « simulated reasoning » est maintenant disponible via Google AI Studio pour les développeurs qui souhaitent générer des instructions robotiques et expérimenter avec des flux de travail intégrés.