Les problèmes signalés l’année dernière avec les puces Blackwell B200 de Nvidia n’ont pas disparu. Un bogue dans le processus de fabrication provoquerait une surchauffe des accélérateurs d’intelligence artificielle.
Les accélérateurs haut de gamme Nvidia Blackwell B200 destinés à l’entraînement à l’IA sont confrontés à des problèmes. C’est ce que rapporte The Information, et bien que Nvidia démente, le média est sûr de son coup. Les problèmes sont liés au même bogue qui a déjà causé des retards.
Délai précédent
En principe, les puces Nvidia B200 devaient sortir de la chaîne de production en volume dès le dernier trimestre 2024. Une erreur de conception a ensuite mis le feu aux poudres. Cette erreur a été commise par Nvidia et concerne la manière dont les puces B200 sont intégrées par TSMC. Nvidia a affirmé avoir corrigé l’erreur à la fin du mois d’octobre.
Il s’avère aujourd’hui que ce n’est pas tout à fait vrai. Les serveurs Blackwell présentent des bogues liés « à la manière dont les puces se connectent ». Il s’agit d’une description vague et il n’y a pas plus de clarté pour le moment. Des rumeurs antérieures suggéraient que la faille était liée à l’intégration des puces B200 via le système d’emballage CoWoS de TSMC. Un tel problème pourrait être décrit comme étant lié à la connexion.
Trop chaud
Le résultat est mesurable : les puces deviennent trop chaudes. Ce qui, à son tour, entraîne de l’instabilité. Entre-temps, The Information sait que des clients importants comme Microsoft, Amazon, Google et Meta s’impatientent. Ils auraient réduit leurs commandes de Blackwell.
Nvidia compte sur des milliards de revenus provenant des grandes entreprises de formation en LLM. Si le fabricant ne parvient pas à mettre Blackwell sur la bonne voie, cet échec pourrait entraîner une réaction négative sur le plan financier. De plus, un faux pas de Nvidia ouvre la porte au rattrapage d’AMD avec ses accélérateurs Instinct. Mais nous n’en sommes pas encore là.
Enfin, nous notons que la Blackwell B200 possède une architecture unique. Il y a peu de chances que les problèmes de cette puce concernent également la série RTX 50 récemment annoncée.