Nvidia présente Rubin CPX : un nouveau type d’accélérateur pour l’inférence complexe

Nvidia présente Rubin CPX : un nouveau type d’accélérateur pour l’inférence complexe

Avec Rubin CPX, Nvidia dévoile un nouveau GPU, conçu sur mesure pour les tâches d’inférence où un contexte important et donc le traitement de nombreux tokens sont essentiels.

Nvidia présente Rubin CPX. Selon le fabricant lui-même, il s’agit d’une nouvelle classe de GPU. La puce est développée sur mesure pour les tâches d’inférence où un contexte étendu est important.

Le contexte fait référence au nombre de paramètres pertinents pour une tâche d’inférence (la génération d’une réponse d’IA). Les charges de travail complexes telles que la génération de vidéos nécessitent un contexte important et le traitement rapide d’énormes quantités de tokens (fragments de données d’IA). La génération d’une heure de vidéo qualitative coûte par exemple un million de tokens. Avec Rubin CPX, Nvidia met sur le marché une puce spécialisée dans ce type d’inférence avec des exigences de contexte massives.

La puce fournit jusqu’à 30 pétaflops de puissance de calcul d’IA, bien que Nvidia calcule avec son propre type de données NVFP4, ce qui rend ce chiffre plutôt arbitraire. La puce dispose de 128 Go de mémoire GDDR7 à bord. Nvidia ne choisit pas HBM car GDDR7 est plus rentable et suffisant pour l’inférence.

Plateforme totale

Nvidia combine la puce Rubin CPX avec des CPU Vera et des GPU Rubin dans la plateforme Nvidia Vera Rubin NVL144 CPX. Il s’agit d’une solution intégrée offrant huit exaflops de calcul d’IA (NVFP4 propre à Nvidia). L’accélérateur est compatible avec la pile logicielle d’IA propre à Nvidia.

Nvidia vise les grands clients (et un chiffre d’affaires élevé) avec cette solution. L’entreprise souligne que chaque investissement de cent millions de dollars dans les systèmes Rubin CPX peut générer cinq milliards de dollars de revenus basés sur les tokens. Ce calcul quelque peu arbitraire montre bien l’échelle que Nvidia a en tête. Nvidia Rubin CPX devrait être effectivement disponible sur le marché fin 2026.