Red Hat lance AI Inference Server

Red Hat lance AI Inference Server : agnostique en termes de modèle, de cloud et de matériel

Red Hat AI Inference Server assure une inférence d’IA efficace et fiable sur diverses infrastructures. Red Hat vous laisse entièrement libre quant au choix du cloud, des modèles et de l’accélérateur que vous utilisez.

Red Hat annonce AI Inference Server lors de son sommet à Boston. Cette solution vise à rendre l’inférence – le moment où un modèle d’IA génère des réponses – plus rapide et plus fiable. Cela nécessite une puissance de calcul importante, en particulier pour les applications à grande échelle. Avec ce serveur, Red Hat souhaite limiter les coûts et les retards qui y sont associés.

Inference Server illustre la conviction de Red Hat en la technologie d’IA ouverte (l’espace est important ici). Selon Red Hat, c’est un problème si les modèles et les données restent à huis clos. Red Hat s’appuie sur des standards ouverts et n’impose aucune technologie. Inference Server fonctionne avec n’importe quel modèle, sur n’importe quel accélérateur et dans n’importe quel environnement cloud.

vLLM

L’outil fonctionne sur la base de vLLM, un projet open source de l’UC Berkeley qui offre un support pour différents modèles d’IA et des fonctionnalités telles que le multi-GPU et le traitement de contexte étendu. De plus, Red Hat intègre la technologie de compression et d’optimisation de Neural Magic. Ainsi, même les grands modèles fonctionnent plus efficacement sur divers types de matériel.

L’AI Inference Server peut être déployé de manière autonome ou intégré à Red Hat Enterprise Linux AI et Red Hat OpenShift AI. D’autres plateformes Linux et Kubernetes sont également prises en charge.

Catalogue de modèles

Bien que les utilisateurs soient libres de choisir leur modèle, Red Hat offre l’accès à un référentiel de modèles sur Hugging Face, avec des modèles validés immédiatement utilisables pour ceux qui ne peuvent pas choisir. Red Hat fournit également un support aux entreprises souhaitant mettre en production des solutions d’IA, avec une garantie de performance et de mises à jour.

Avec ce lancement, Red Hat se positionne comme fournisseur d’une plateforme d’IA générative largement applicable. L’entreprise vise à rendre l’IA accessible aux organisations, indépendamment de leur préférence pour les fournisseurs de cloud, le matériel ou les modèles. La combinaison de vLLM et llm-d devrait créer un écosystème standardisé permettant l’IA générative à grande échelle.

Itdaily - Red Hat lance AI Inference Server : agnostique en termes de modèle, de cloud et de matériel

vLLM

Catalogue de modèles