Le RAG en pratique : de la promesse à la réalité

Le RAG en pratique : de la promesse à la réalité

Generatieve AI is in korte tijd uitgegroeid tot een vaste waarde in tal van bedrijven. Maar wat als je AI niet de juiste info kan aanreiken?  Katy Fokou en Bert Vanhalst van Smals Research geven uitleg in een webinar.

Les chatbots, les assistants internes et l’analyse automatique de documents ne sont plus de la science-fiction. Pourtant, de nombreuses équipes se heurtent rapidement à un problème : les grands modèles linguistiques (LLM) ne disposent pas des données actuelles ou spécifiques à l’entreprise nécessaires pour générer des réponses vraiment utiles.

C’est là qu’intervient la génération augmentée par récupération, ou RAG. Les spécialistes de l’IA de Smals ont récemment discuté, lors d’un webinaire, de ce qu’est le RAG, de la raison pour laquelle il est devenu si populaire, des choix cruciaux lors de la mise en œuvre, des principaux pièges et des leçons pratiques à retenir.

Source : Smals

Qu’est-ce que le RAG et pourquoi est-il si populaire ?

RAG signifie Retrieval-Augmented Generation. Il s’agit d’une architecture dans laquelle un modèle linguistique ne se fie pas uniquement à ses connaissances pré-entraînées, mais extrait également des informations pertinentes de sources de données externes. Ces informations extraites sont ajoutées à l’invite, afin que le modèle puisse générer une réponse basée sur des données actuelles et spécifiques à l’entreprise.

En pratique, le processus se déroule en trois étapes : l’entrée des données, la récupération et la génération. Tout d’abord, les documents, les pages web, les transcriptions ou les bases de données sont collectés via l’ingestion de données, puis nettoyés et divisés en fragments de texte plus petits ou chunks. Cela est nécessaire pour maintenir les coûts à un niveau bas. Ces chunks sont convertis en vecteurs et stockés dans un vectorstore. Ensuite, le système recherche, pour chaque question de l’utilisateur, les informations les plus pertinentes, à l’aide de la recherche vectorielle. Enfin, le modèle linguistique utilise ce contexte pour générer une réponse correcte.

La popularité du RAG est facile à expliquer. La principale raison de mettre en œuvre un RAG est d’utiliser des sources fiables et contrôlées pour répondre à une question. Pourtant, même avec un RAG, les données peuvent être envoyées à un modèle externe. S’il y a des données sensibles, le RAG est exécuté avec un modèle qui fonctionne localement et non dans le cloud. Avec le RAG, ils peuvent réutiliser leurs connaissances existantes, maintenir les réponses à jour et créer simultanément de la transparence en fournissant des sources.

Avec la génération augmentée par récupération, un modèle linguistique peut générer des réponses basées sur des données actuelles et spécifiques à l’entreprise.

Choix de conception importants : invites et modèles

Bien que cela ressemble à un concept facile, un bon RAG nécessite les bons choix techniques et de contenu.

  • Importance de bonnes invites

L’invite est l’étape entre la récupération et la génération. Il ne suffit pas de transmettre uniquement une question et quelques fragments de texte. Une bonne invite contient des instructions claires sur ce que le modèle peut et ne peut pas faire. Par exemple, vous pouvez indiquer si le modèle doit se limiter aux informations fournies, indiquer quand des informations sont manquantes, utiliser un certain style d’écriture et structurer la réponse d’une manière fixe.

La spécification du format de sortie est également importante. La réponse doit-elle tenir en un seul paragraphe ? Les sources doivent-elles être explicitement mentionnées ? Un tableau est-il nécessaire ? Plus il y a de détails, plus la sortie sera contrôlable et cohérente.

  • Choisir le bon LLM

Tous les modèles linguistiques ne fonctionnent pas aussi bien dans un contexte RAG. Dans le webinaire de Smals Research, différents modèles tels que GPT-4o, GPT-5, Mistral Large, Claude Sonnet 3.7 et Gemini 2.5 Flash ont été évalués sur des critères tels que la précision, la latence, le coût et la qualité de la réponse. Gemini et Claude obtiennent de meilleurs résultats sur les questions complexes, mais sont également plus chers et plus lents. Les modèles plus petits ou plus rapides sont souvent suffisants pour les applications FAQ simples.

De plus, la confidentialité joue un rôle. Les modèles open source offrent plus de contrôle sur les données, mais nécessitent leur propre infrastructure et des mesures de sécurité supplémentaires. Les modèles commerciaux sont plus faciles à intégrer, mais entraînent une dépendance et des coûts. Le « meilleur » choix dépend donc fortement du cas d’utilisation.

Récupération : facteur de succès sous-estimé

Une erreur fréquente est de se concentrer sur le modèle linguistique, alors que la récupération est au moins aussi importante. Si les bonnes informations ne sont pas extraites, le modèle ne peut pas non plus générer une réponse correcte.

  • Recherche par mots-clés, sémantique ou hybride ?

Il existe différentes stratégies de recherche. La recherche classique par mots-clés fonctionne bien pour les termes exacts, mais pas pour les synonymes ou les variations. La recherche sémantique utilise des embeddings vectoriels pour comparer les significations. En pratique, une approche hybride, donc une combinaison des deux, donne souvent les meilleurs résultats.

  • Précision ou rappel ?

La récupération consiste à équilibrer la précision (combien de pièces extraites sont pertinentes) et le rappel (combien de pièces pertinentes sont réellement trouvées). Pour le RAG, le rappel est généralement plus important : les informations cruciales manquantes donnent une réponse moins correcte et plus de texte non pertinent supplémentaire, que le modèle linguistique peut souvent ignorer.

  • Reranking et filtrage

Pour améliorer encore la qualité, les résultats peuvent être reclassés avec des modèles de reranking spécialisés. Les filtres de métadonnées, les seuils et la reformulation de requêtes permettent également d’obtenir de meilleurs résultats. Cela nécessite toutefois une puissance de calcul et un travail d’ingénierie supplémentaires.

lire aussi

L’IA est humaine : tout aussi oublieuse et facile à manipuler

Pièges : où cela tourne-t-il souvent mal ?

Bien sûr, il existe également des pièges courants lors de l’utilisation du RAG.

  • L’évaluation est complexe

L’évaluation d’un système RAG s’avère plus difficile que prévu. Les réponses ne sont pas déterministes : il peut y avoir différentes réponses correctes à la même question et la qualité est alors subjective. Une réponse est-elle bonne parce qu’elle est complète, ou parce qu’elle est concise ?

Pour évaluer, deux catégories de métriques sont utilisées : les métriques avec référence – où la sortie générée est comparée à une sortie de référence ou un contexte de référence prédéterminé – et les métriques sans une telle référence. On vérifie si le LLM a halluciné et si la réponse est précise sur la base des informations fournies.

Les systèmes d’évaluation automatique, où un modèle linguistique évalue la sortie générée (« LLM-as-judge »), offrent une évolutivité, mais ne correspondent pas toujours aux évaluations humaines. C’est pourquoi l’évaluation humaine reste indispensable, surtout pour les applications critiques.

  • Les garde-fous sont nécessaires, mais pas étanches

Les garde-fous doivent empêcher un système de produire une sortie indésirable ou nuisible. Pensez aux violations de la vie privée, aux hallucinations, au langage inapproprié ou aux questions hors sujet. Ces couches de sécurité peuvent être appliquées à différents niveaux : à l’entrée, dans l’invite (instructions), via des filtres basés sur des règles ou avec des classificateurs d’IA distincts. Pourtant, les garde-fous ne donnent pas une garantie complète. Les injections d’invite, les contournements créatifs et les nouveaux schémas d’attaque restent un risque. Une surveillance continue et une amélioration itérative sont donc essentielles.

  • Le RAG n’est pas une solution unique

L’une des principales leçons du webinaire est que le RAG doit toujours être adapté à vos besoins. Un assistant de recherche interne a des exigences différentes d’un chatbot public. Les secteurs avec des exigences de précision élevées, tels que les applications médicales ou juridiques, nécessitent également une prudence supplémentaire, des modèles spécialisés et une intervention humaine.

lire aussi

L’adoption de l’IA augmente plus vite que la sensibilisation à la sécurité

Points clés pratiques : comment commencer vous-même avec le RAG

Ceux qui veulent se lancer avec le RAG peuvent suivre un certain nombre de directives concrètes.

  • Commencez par les données

La qualité de vos données détermine directement la qualité de la sortie. Il est important que vous sachiez quelles données vous utilisez pour comprendre la structure, l’exhaustivité et la cohérence. Portez une attention particulière au nettoyage, à la déduplication et à la suppression des informations sensibles. « Garbage in, garbage out » reste vrai.

  • Optimisez de manière itérative

Un système RAG ne se construit pas parfaitement en une seule fois. L’optimisation est un processus itératif où vous ajustez continuellement la récupération, les chunks, les invites et l’évaluation. De petits ajustements peuvent avoir un effet important sur la qualité finale.

  • Adaptez la précision au cas d’utilisation

Toutes les applications ne doivent pas être aussi fiables. Pour un outil de recherche interne, une réponse conceptuellement correcte peut suffire, tandis qu’un chatbot doit être presque sans erreur. Déterminez à l’avance l’impact d’une réponse erronée et adaptez votre architecture en conséquence.

  • Combinez l’homme et la machine

L’évaluation automatique et les garde-fous sont utiles, mais le contrôle humain reste crucial. Surtout pour les applications sensibles, une approche hybride avec des commentaires et une supervision humaine est fortement recommandée.

Conclusion

Le RAG est utile pour utiliser l’IA générative avec vos propres données et ainsi générer des réponses plus pertinentes, mais ce n’est pas une solution magique. Le succès dépend de la qualité des données, de bonnes stratégies de récupération, d’une conception d’invite réfléchie et d’attentes réalistes.

Les entreprises qui souhaitent démarrer avec le RAG peuvent commencer petit, expérimenter avec des groupes d’utilisateurs limités et affiner le système étape par étape.