Nvidia annonce Vera Rubin (une nouvelle fois) : un CPU optimisé pour le GPU Rubin

Nvidia annonce Vera Rubin (une nouvelle fois) : un CPU optimisé pour le GPU Rubin

Nvidia lance son propre processeur Vera dans le cadre de Vera Rubin. Le spécialiste de lIA reprend ainsi un discours similaire à celui du CES, bien que la présentation au GTC 2026 comporte quelques précisions supplémentaires.

Nvidia profite du GTC 2026 pour lancer Vera Rubin. Ceux qui ont suivi l’actualité de Nvidia au CES pourraient éprouver un sentiment de déjà-vu : en janvier également, Nvidia avait déjà introduit Rubin et Vera. Bien que cette annonce fût assez complète, incluant l’introduction des systèmes intégrés Vera Rubin NVL72, l’accent était alors mis sur le nouveau GPU Rubin. Au GTC, le CPU Vera bénéficie d’un coup de projecteur supplémentaire.

Successeur de Grace

Vera succède au CPU Grace de Nvidia. Cette puce a soutenu deux générations de serveurs dIA Nvidia, à commencer par Hopper, suivi de Blackwell. La puce Grace, basée sur ARM, faisait également partie des « superchips » Grace-Hopper et Grace-Blackwell, qui combinaient CPU et GPU.

lire aussi

Nvidia présente Rubin et Vera : 5 fois plus d’inférence que Blackwell et son propre processeur

Vera est également une puce ARM. Le processeur est composé de 88 cœurs de calcul Olympus, développés par Nvidia elle-même. Les cœurs sont compatibles avec le multithreading, permettant à Vera de gérer 176 threads. Vera dispose dun nouveau sous-système de mémoire économe en énergie et supporte la LPDDR5X à 1,2 To/s. La mémoire système sélève à un maximum de 1,5 To, soit trois fois plus que son prédécesseur Grace.

Plus rapide et plus efficace (pour lIA)

Nvidia affirme que Vera est 50 % plus rapide et deux fois plus efficace que les CPU x86. ARM possède en effet un avantage en termes defficacité, et Nvidia a optimisé cette puce pour le type de charges de travail dIA avec lesquelles elle effectue habituellement ses tests de performance. Dans les scénarios auxquels Vera est destinée, cette affirmation semble donc plausible.

Le CPU Vera a en effet été développé en gardant à lesprit les charges de travail dIA. Les compilateurs, les moteurs dexécution, les pipelines danalyse et les charges de travail basées sur des agents fonctionnent de manière optimale sur larchitecture des cœurs de calcul. Vera joue principalement un rôle de chef dorchestre : en fin de compte, ce sont les GPU (Nvidia) qui effectuent le gros des charges de travail dIA.

Plus forts les uns que les autres

À cette fin, Vera est associée au nouveau GPU Rubin, comme annoncé précédemment. La connexion seffectue via linterconnexion NVLink C2C, qui offre une bande passante de 1,8 To/s.

Vera et Rubin se retrouvent ensemble dans les systèmes Vera Rubin NVL72, qui combinent 72 GPU Rubin avec 36 CPU Vera. Vera et Rubin reçoivent à leur tour l’assistance de plusieurs autres puces développées par Nvidia elle-même, notamment les SuperNIC ConnectX-9 et les DPU BlueField-4. Nvidia est fière que les racks NVL72 soient remplis de puces conçues et optimisées en interne.

Le PDG de Nvidia, Jensen Huang, qualifie Vera Rubin de saut générationnel, bien qu’à l’ère de l’IA, nous changions presque plus souvent de génération que de sous-vêtements. Quoi qu’il en soit, Vera Rubin est à nouveau nettement plus rapide que Grace Blackwell. Nvidia affirme qu’un grand LLM doté d’une architecture mixture of experts peut être entraîné avec Vera Rubin en utilisant seulement un quart des GPU par rapport à la génération précédente. L’inférence bénéficie d’un boost encore plus important : le débit est dix fois plus élevé et le coût par jeton dix fois plus bas.

Armoire CPU

Nvidia introduit également une armoire CPU Vera, contenant 265 CPU Vera refroidis par liquide. Cela devrait être pertinent pour les usines dIA à grande échelle, où des (dizaines de) milliers de charges de travail basées sur des agents peuvent sexécuter simultanément. Selon Nvidia, un tel rack CPU peut piloter jusquà 22 500 environnements pilotés par CPU, et ce avec une faible empreinte au sol. Nous ignorons précisément la quantité dénergie nécessaire pour une telle armoire CPU, mais il est permis de supposer que son déploiement nécessite un centre de données très spécialisé.

Les CPU Vera sortent actuellement des chaînes de production. Les premiers systèmes basés sur Vera apparaîtront au cours du second semestre de cette année. Nvidia lavait déjà annoncé en janvier, lorsque laccent était mis sur Rubin.

Tous les grands fabricants de serveurs et hyperscalers adoptent le CPU (et le CPU Rubin), répète Nvidia lors de sa propre conférence. Ils ne mettront pas tous exclusivement en avant les gigantesques systèmes NVL72. Ainsi, HPE annonce aujourdhui des serveurs construits autour dune architecture de référence plus modeste de Nvidia : Nvidia HGX Rubin NVL8, avec huit GPU et, bien sûr, un CPU Vera à lintérieur.

Impact

Les systèmes de Nvidia pour linférence et lentraînement de lIA sont le carburant de lengouement pour lIA. Tous les grands développeurs dIA, dOpenAI à Meta en passant par Google, convoitent autant de systèmes puissants que possible pour construire leurs nouveaux modèles. Vera utilise de la mémoire LPDDR5X, tandis que les GPU Rubin que Vera doit piloter nécessitent environ 288 Go de mémoire HBM4 chacun.

Par serveur, on estime qu’un système Vera Rubin aurait besoin d’environ 1 152 To de capacité SSD pour alimenter adéquatement les puces. Les systèmes impressionnants que Nvidia annonce au GTC sont ainsi directement responsables de la pénurie de mémoire RAM et NAND, ainsi que de la hausse des prix des ordinateurs portables et des smartphones.

lire aussi

Pourquoi la RAM ne cesse d’augmenter et les SSD suivent

Alors que linnovation de Nvidia soutient le développement plus rapide et plus efficace de modèles dIA et de centres de données dinférence toujours plus performants, elle réduit la disponibilité du matériel informatique classique pour les entreprises traditionnelles et les consommateurs du monde entier.

Le fait que Vera Rubin soit plus efficace que Grace Blackwell nest pas, de ce point de vue, un avantage tangible. Ce nest pas parce que les clients commanderont moins de systèmes que la demande de mémoire diminuera. La soif de capacités dentraînement et dinférence dIA reste pour linstant insatiable.