Un commercial cherche si la clause de résiliation anticipée s'applique à ce client. Une assistante RH veut retrouver la procédure exacte pour un arrêt maladie prolongé. Un technicien se demande quelle référence fournisseur correspond à la pièce n°43-B. Dans les trois cas, la réponse existe quelque part : un contrat type, une note de service, une fiche article. Dans les trois cas, trouver cette réponse prend dix minutes de recherche dans le Drive, un Slack à un collègue, ou un mail qui s'éternise.
Le RAG (Retrieval Augmented Generation) est la technique qui permet à une IA d'aller chercher ces réponses pour vous, dans vos propres documents, au lieu d'inventer. C'est la brique qui transforme un assistant IA générique en collaborateur qui connaît votre entreprise.
Dans cet article, nous expliquons en termes accessibles comment fonctionne un RAG appliqué aux outils métier en PME, la différence entre une approche simple par mots-clés et une approche avancée par embeddings (nous faisons les deux chez Revolucy), les budgets concrets, et surtout les trois pièges qui font rater un projet RAG. Ce n'est pas magique, et quand la documentation est un chaos, aucune IA ne peut sauver le projet.
En bref
| RAG en une phrase | L'IA cherche dans vos documents avant de répondre |
| Deux approches | Mots-clés (simple, contrôlable) ou vectoriel (scalable) |
| Budget RAG sur mesure | 5 000 à 30 000 € HT selon complexité |
| Seuil mots-clés / vectoriel | Environ 300-500 entrées courtes bien curées |
| Condition de réussite n°1 | Documentation propre et à jour en amont |
Le RAG expliqué sans jargon : le stagiaire et la bibliothèque
Imaginez deux stagiaires. Le premier répond à vos questions avec ce qu'il a lu au lycée et à la fac. Il connaît beaucoup de choses générales, mais il ne sait rien de votre entreprise. Quand il ne sait pas, il invente avec assurance. C'est un modèle de langage sans RAG, type ChatGPT grand public.
Le deuxième stagiaire a le même bagage général, mais vous l'avez installé dans votre bibliothèque interne (Drive, wiki, base de procédures). Avant de répondre, il va chercher le document pertinent, le lit, et répond avec les bonnes informations citées. Il dit "je ne sais pas" quand il ne trouve rien. C'est un agent IA avec RAG.
Techniquement, le RAG fonctionne en deux temps. Étape 1, la recherche : quand un utilisateur pose une question, le système cherche dans votre base documentaire les passages les plus pertinents. Étape 2, la génération : ces passages sont ajoutés au prompt envoyé au modèle (Claude, Mistral, GPT), qui rédige une réponse en s'appuyant dessus. L'IA ne "connaît" pas vos documents au sens où ils ne sont pas dans son entraînement. Elle les consulte à chaque question, comme un humain consulte une bibliothèque.
Cette mécanique a un effet majeur : elle réduit drastiquement les hallucinations, ces moments où l'IA invente une réponse plausible mais fausse. Réduire ne veut pas dire supprimer. Nous y reviendrons dans les pièges à éviter.
Deux approches du RAG : mots-clés ou vectoriel
Il existe deux grandes familles techniques pour la phase de recherche. Le choix entre les deux n'est pas une question de "moderne vs dépassé", c'est une question de contexte d'usage.
RAG par mots-clés : simple, transparent, efficace sur petits volumes
Le système indexe vos documents avec des mots-clés éditoriaux (que vous définissez), et pour chaque question utilisateur, il cherche les correspondances. C'est l'approche que nous utilisons dans notre produit Lucy Assist. Concrètement, chaque fiche de la base de connaissances a un titre, un contenu, une catégorie (FAQ, procédure, aide, vocabulaire, règle, astuce), une liste de mots-clés, une priorité, et des pages cibles où elle est particulièrement pertinente. Quand un utilisateur pose une question, un algorithme de scoring remonte les 8 fiches les plus pertinentes et les envoie à Claude, qui rédige la réponse.
Les avantages concrets pour une PME sont sous-estimés. Vous n'avez pas besoin d'infrastructure vectorielle coûteuse, une base PostgreSQL suffit. Le responsable métier peut ajouter ou modifier une fiche dans l'admin Django, et le changement est immédiat, sans réindexation. Vous voyez exactement pourquoi une fiche a été remontée (quel mot-clé a matché, quelle priorité a été appliquée). Si une information critique doit absolument remonter, vous forcez sa priorité. Contrôle éditorial total, zéro boîte noire.
RAG vectoriel : puissant sur gros volumes et sur des formulations variées
L'approche vectorielle (on parle aussi d'embeddings) fonctionne différemment. Chaque document est transformé en un vecteur mathématique qui représente son sens. Quand un utilisateur pose une question, sa question est aussi transformée en vecteur, et le système cherche les documents les plus proches "sémantiquement". L'avantage : le système comprend que "délai de règlement" et "paiement" parlent de la même chose, même sans mot-clé commun. Il gère aussi de très gros volumes de documents sans intervention humaine pour maintenir des listes de mots-clés.
Le coût est supérieur. Il faut une base vectorielle (type Chroma, Pinecone, pgvector), un système de découpage des documents longs en morceaux exploitables (chunking), et un processus de réindexation quand le contenu change. Le résultat est moins transparent : on voit moins bien pourquoi un document a été remonté, ce qui complique l'audit éditorial.
Notre doctrine Revolucy : simple quand possible, vectoriel quand nécessaire
Nous conseillons l'approche par mots-clés jusqu'à environ 300 à 500 entrées documentaires courtes, bien curées, avec un vocabulaire métier stable. Ça couvre la très grande majorité des cas PME : une centaine de procédures internes, un glossaire métier, une FAQ utilisateur, les règles contractuelles courantes. À ce volume, le mots-clés est plus rapide à déployer, moins coûteux en exploitation et plus pilotable par les équipes non techniques.
Nous basculons sur le RAG vectoriel quand le volume documentaire dépasse quelques centaines d'entrées, quand les documents sont longs (contrats de plusieurs pages qui nécessitent du chunking), ou quand le vocabulaire des utilisateurs diverge fortement du vocabulaire éditorial (beaucoup de reformulations, de synonymes, de jargon client différent du jargon interne). Dans ces cas, l'effort d'infrastructure est justifié par le gain de pertinence.
Ce qu'un RAG permet de faire concrètement dans une PME
Cinq cas d'usage qui reviennent le plus souvent chez nos prospects. Le RAG n'est pas une solution en soi, c'est une brique que nous branchons sur un problème métier précis.
Recherche contractuelle. Un commercial ou un juriste interne pose une question sur une clause, l'agent retrouve le bon type de contrat et cite le passage pertinent. Gain direct sur les cabinets, les courtiers, les sociétés de services avec beaucoup de contrats cadres.
Procédures Qualiopi pour organismes de formation. La documentation exigée par Qualiopi est volumineuse et doit être tenue à jour. Un RAG permet aux équipes pédagogiques de retrouver en une question la procédure exacte qui s'applique, avec la version en vigueur.
Base technique et normes métier. Industrie, bureaux d'études, artisanat spécialisé : chaque métier a ses normes (CE, ISO, DTU, référentiels sectoriels). Le RAG évite au technicien de feuilleter un classeur ou d'interroger un collègue senior chaque fois qu'il a un doute.
FAQ client automatisée avec vraies réponses. À la différence d'un chatbot FAQ classique qui renvoie vers trois boutons préconfigurés, un RAG sur votre documentation produit ou votre base de connaissances SAV génère des réponses en langage naturel, sourcées, actualisées dès que vous modifiez la base.
Onboarding de nouveaux collaborateurs. Un nouveau recruté pose toutes les questions stupides qu'il n'ose pas poser à son manager. L'agent répond avec les procédures internes, les accès outils, les contacts clés. Temps d'adaptation raccourci, charge mentale du manager allégée.
Les trois pièges qui font rater un projet RAG
Nous préférons les signaler en amont plutôt que de vous laisser les découvrir après facture.
Piège 1 : "garbage in, garbage out"
Le RAG n'est qu'un outil de recherche dans vos documents existants. Si vos documents sont obsolètes, contradictoires ou incomplets, l'IA récupérera des informations obsolètes, contradictoires ou incomplètes, et les restituera avec l'assurance habituelle des modèles de langage. C'est la règle d'or : votre RAG ne vaut que ce que vaut votre documentation.
Quand un prospect nous sollicite pour un projet RAG et que nous découvrons un Drive où cohabitent trois versions d'un même contrat sans date, où les procédures RH datent de 2019 et où personne ne sait laquelle fait foi, notre réponse est la même : rangez d'abord, on branche l'IA ensuite. C'est moins vendeur, c'est plus honnête, et ça évite un projet qui produit du bruit crédible plutôt que de l'information fiable.
Piège 2 : l'IA qui invente quand elle ne trouve pas
Même avec un RAG, un modèle de langage peut halluciner. Il peut combler un vide en inventant une réponse plausible quand la recherche ne remonte rien. C'est documenté par l'ensemble des chercheurs du domaine : "le RAG ne prévient pas les hallucinations, le modèle peut toujours halluciner autour du matériel source dans sa réponse" .
La parade se construit à deux endroits. Côté prompt système, nous instruisons explicitement l'agent à dire "je ne sais pas" plutôt qu'à inventer. Dans Lucy Assist, nous imposons à l'agent d'utiliser des outils de recherche pour toute donnée factuelle (chiffre, liste, montant) plutôt que de produire la donnée depuis sa "mémoire" générale. Côté base de connaissances, nous configurons le système pour afficher clairement quelles sources ont été utilisées, pour que l'utilisateur puisse vérifier.
Piège 3 : les permissions oubliées
Si votre base documentaire contient des informations sensibles (données RH, grilles salariales, conditions commerciales particulières, documents stratégiques), un RAG sans contrôle d'accès expose tout à tout le monde. Le stagiaire qui demande "comment sont calculés les bonus ?" obtient la grille complète s'il n'y a pas de filtre.
Notre doctrine est de concevoir la gestion des permissions dès le départ, au niveau de la base de connaissances. Chaque entrée est associée à un ou plusieurs rôles autorisés, et le système filtre la recherche selon le rôle de l'utilisateur connecté. C'est un sujet d'architecture que nous tranchons avec vous en phase de cadrage, pas après coup.
Budget, délai et maillon avec vos outils existants
Nos projets RAG sur mesure s'inscrivent dans la fourchette des intégrations IA que nous évoquions pour les agents IA : 5 000 à 30 000 € HT selon la complexité. Un RAG simple par mots-clés, branché sur une base d'une centaine d'entrées, dans un outil métier existant, démarre autour de 5 000 à 10 000 €. Un RAG vectoriel avec chunking, reranking, gestion des permissions par rôle et intégration dans un CRM ou ERP complexe monte à 20 000-30 000 €.
Côté délai, comptez 4 à 8 semaines pour un premier RAG fonctionnel, en supposant que la base documentaire est prête. Si elle ne l'est pas, le délai de rangement éditorial côté client peut doubler cette durée.
Les projets RAG sont souvent éligibles au Crédit d'Impôt Innovation (CII), ce qui permet à nos clients de récupérer 20 % du montant investi en développement. Revolucy est agréée CII 2023-2027, avec un accompagnement SOGEDEV rémunéré au succès pour monter le dossier.
FAQ
Quelle différence entre ChatGPT et un RAG sur ma documentation ?
ChatGPT répond avec ses connaissances générales, limitées à la date de son entraînement et ignorant vos procédures internes. Un RAG sur votre documentation permet à un modèle comme Claude, Mistral ou GPT de consulter vos documents avant de répondre, avec des réponses sourcées dans votre contenu réel. Concrètement, si vous demandez à ChatGPT "quelle est notre politique de congés payés ?", il vous donnera une réponse générique sur le droit français. Un RAG branché sur votre livret d'accueil interne vous donnera votre politique exacte, avec la nuance de votre convention collective et les usages propres à votre entreprise.
Est-ce que le RAG supprime les hallucinations de l'IA ?
Non, il les réduit fortement sans les éliminer. Le RAG limite les hallucinations en fournissant au modèle un contexte factuel issu de vos documents, ce qui réduit les cas où le modèle "invente". Mais les chercheurs du domaine sont unanimes : le modèle peut encore halluciner autour des sources, surtout si la recherche remonte des informations partielles ou si la question sort du périmètre documentaire. La parade passe par trois leviers : un prompt système qui instruit l'IA à dire "je ne sais pas" plutôt qu'à inventer, l'affichage systématique des sources utilisées, et une documentation source de qualité.
Combien ça coûte un RAG en maintenance une fois déployé ?
Principalement deux postes. Les appels API au modèle de langage (Claude, Mistral, GPT) facturés au token consommé : comptez quelques dizaines à quelques centaines d'euros par mois selon le volume d'interactions, un utilisateur occasionnel coûte moins d'un euro par mois, une équipe intensive peut atteindre 10 à 30 € par utilisateur mensuel. Les heures de maintenance Revolucy pour ajuster les règles, mettre à jour la base, corriger les cas d'usage imprévus : notre pack de maintenance 10h à 1 500 € HT couvre en général plusieurs mois de fonctionnement courant.
Mots-clés ou vectoriel : comment choisir pour ma PME ?
Le RAG par mots-clés convient dans la grande majorité des cas PME : jusqu'à 300-500 entrées documentaires courtes, un vocabulaire métier stable, un besoin de contrôle éditorial fort, et un budget serré. Le RAG vectoriel devient nécessaire au-delà, ou quand vos documents sont longs (contrats multi-pages, rapports techniques), ou quand vos utilisateurs formulent leurs questions avec un vocabulaire très différent du vocabulaire interne de vos documents. Nous tranchons en phase de cadrage, à partir de votre volume documentaire réel et d'un échantillon de questions types que posent vos équipes.
Mes documents resteront-ils confidentiels ?
Oui, à deux conditions que nous mettons en place par défaut. Premièrement, les documents restent stockés chez nous chez MonArobase au Mans, hébergeur français aux énergies vertes, hors juridiction américaine et CLOUD Act. Deuxièmement, nous utilisons l'API Claude d'Anthropic sous conditions commerciales, qui stipule explicitement qu'Anthropic n'utilise pas les données envoyées via l'API pour l'entraînement. Nous développons cette logique de souveraineté dans notre article CRM sur mesure et RGPD. Pour les contenus sensibles, nous configurons aussi un système de permissions par rôle au niveau de la base de connaissances.
En résumé
Le RAG est la brique qui transforme une IA générique en collaborateur qui connaît votre entreprise. Deux approches techniques coexistent : les mots-clés (simple, transparent, efficace jusqu'à quelques centaines d'entrées bien curées, ce que nous faisons dans Lucy Assist) et le vectoriel par embeddings (scalable, plus puissant sur gros volumes, plus coûteux). Les deux ont leur place, le choix se fait projet par projet.
La règle qui ne bouge pas : un RAG ne vaut que ce que vaut votre documentation. Avant de brancher une IA sur vos documents internes, assurez-vous qu'ils sont rangés, datés et fiables. Autrement, vous déployez un outil qui restitue du désordre avec assurance, et c'est pire que pas d'outil du tout.
Pour creuser, consultez notre page développement IA sur mesure, notre article précédent sur les agents IA vs chatbots qui pose les bases indispensables, ou notre tour d'horizon des 10 cas d'usage IA dans le CRM et l'ERP. Pour discuter d'un cas concret, prenons rendez-vous.