Nvidia estime que l’infrastructure d’IA doit être évaluée en fonction du coût par jeton : un critère sur lequel les nouveaux GPU Blackwell obtiendraient, selon les rapports, d’excellents résultats.
Nvidia déplore dans un article de blog que les entreprises utilisent le mauvais critère pour évaluer l’infrastructure d’IA. Au lieu de considérer le coût par heure de GPU ou les FLOPS par dollar, la véritable référence devrait être le coût par jeton. Il s’agit du coût total pour produire un million de jetons d’IA.
Selon Nvidia, les centres de données sont désormais devenus des « usines d’IA » qui ne fournissent plus seulement de la puissance de calcul, mais produisent surtout de « l’intelligence sous forme de jetons ». C’est pourquoi, selon Nvidia, il n’est pas pertinent d’évaluer l’infrastructure uniquement sur ses performances pures. Il est plus précis d’examiner l’efficacité économique des charges de travail d’IA.
Les jetons y jouent un rôle important. Ce sont de petits fragments de données avec lesquels les modèles d’IA travaillent pour générer du texte, du code ou d’autres sorties. On peut les considérer comme une sorte d’unité de réflexion pour l’IA et comme un indicateur économique pour l’IA. Plus les jetons sont traités rapidement et à moindre coût, plus l’IA est rentable.
Cuisine interne
L’entreprise appuie cette affirmation par une comparaison entre ses propres générations de GPU Hopper et Blackwell. Les utilisateurs doivent cependant encore attendre ces derniers en raison de problèmes d’approvisionnement. Par GPU, Blackwell coûte environ deux fois plus cher que Hopper. Si l’on regarde les FLOPS par dollar, Blackwell est deux fois plus efficace. Mais la production de jetons raconte une autre histoire : Blackwell fournit 65 fois plus de jetons par seconde et par GPU, 50 fois plus de jetons par mégawatt, et le coût par million de jetons est 35 fois inférieur (0,12 dollar contre 4,20 dollars).
Selon Nvidia, les coûts des jetons doivent donc diminuer pour maximiser le chiffre d’affaires. Cela peut se faire en augmentant la production de jetons fournie. Mais comment cette production de jetons est-elle déterminée ? Nvidia la décrit comme un « iceberg de l’inférence ». Le prix d’utilisation d’un GPU pendant une heure est la partie visible au-dessus de l’eau. Ce qui se trouve en dessous, du logiciel à l’architecture réseau, détermine le nombre de jetons qu’un système délivre par seconde, et donc ce que chaque jeton coûterait finalement.

Source : Nvidia
Le coût des jetons comme nouvelle norme
Selon Nvidia, comparer l’infrastructure d’IA sur la base des coûts de calcul ou des FLOPS par dollar donne une image incomplète des coûts d’inférence. L’accent mis sur le coût par jeton est logique, car il permet à Nvidia de démontrer l’efficacité de ses nouveaux GPU et leur capacité à permettre des architectures d’IA peu coûteuses.
En fait, Nvidia change le récit. Alors que le matériel était évalué sur la base d’une mesure de performance objective (FLOPS) et de la consommation qui y est liée, Nvidia veut maintenant convaincre les organisations de regarder les jetons par watt.
Il y a du vrai là-dedans, mais comme Nvidia le dit elle-même, le reste de la pile matérielle et logicielle est également pertinent pour le nombre de jetons traités, et pas seulement le GPU lui-même. Le fait que Nvidia fournisse tout un écosystème logiciel et propose ses GPU dans des solutions complètes avec ses propres processeurs (Vera Rubin et DPU) s’inscrit parfaitement dans cette logique.
Les jetons par watt ne constituent donc pas une mesure objective pour comparer les performances pures d’un GPU, mais ils peuvent offrir un aperçu de l’efficacité d’un système d’IA global. Il n’est donc pas surprenant que Nvidia, en tant que fournisseur d’une pile entièrement intégrée, privilégie les jetons comme unité de mesure.
