AMD élargit la famille Instinct MI350 avec une nouvelle carte PCIe pour les entreprises souhaitant exécuter l’IA sur site sans transformer leur centre de données.
AMD introduit l’Instinct MI350P PCIe comme nouveau membre au sein de la famille MI350 existante. L’AMD Instinct MI350P est une carte à double emplacement avec prise en charge PCIe 5.0 qui s’adapte aux serveurs standards.
Nouvelle carte, infrastructure existante
L’AMD Instinct MI350P PCIe est conçue comme une carte « drop-in » pour les serveurs standards refroidis par air. Selon AMD, les systèmes peuvent être équipés de jusqu’à huit accélérateurs. L’accent est mis sur l’inférence pour les modèles d’IA de petite, moyenne et grande taille, ainsi que sur les pipelines RAG au sein du propre centre de données.
AMD met en avant cette carte pour les entreprises qui jugent les coûts du cloud moins prévisibles ou qui préfèrent ne pas traiter leurs données à l’extérieur. La connectivité PCIe doit réduire le seuil d’entrée. Selon l’entreprise, les organisations peuvent ainsi déployer des charges de travail d’IA localement, dans les limites existantes de puissance, de refroidissement et d’espace en rack.
AMD voit cette carte comme un moyen de migrer les pipelines d’IA existants vers du nouveau matériel avec des modifications de code limitées. L’Instinct MI350P PCIe doit être déployable du bare-metal aux environnements de production et permet aux entreprises d’exécuter plus de modèles et de servir plus d’utilisateurs au sein de leur centre de données actuel.
Spécifications et performances IA
La carte dispose de 144 Go de mémoire HBM3E avec une bande passante allant jusqu’à 4 To/s. Il est à noter qu’AMD décrit ces 144 Go comme une estimation dans l’annonce. Cela est probablement lié aux pénuries sur le marché de la mémoire, causées par la forte demande de GPU IA tels que celui-ci. AMD revendique pour l’Instinct MI350P PCIe une puissance de calcul estimée à 2 299 TFLOPS et jusqu’à 4 600 TFLOPS en crête pour les calculs avec MXFP4. Cela devrait offrir une marge suffisante pour les charges de travail d’inférence exigeantes.
Le GPU prend notamment en charge MXFP6, MXFP4, FP8 et MXFP8. Pour l’INT8 et le BF16, AMD compte sur la prise en charge de la parcimonie (sparsity) pour accroître l’efficacité. Selon l’entreprise, cette combinaison permet d’atteindre un débit élevé tout en limitant l’utilisation de la mémoire, la consommation d’énergie et les besoins de refroidissement.
