Introduction
L'IA générique ne connaît pas votre entreprise. ChatGPT peut écrire un email commercial, mais il ne sait pas que votre client Dupont a une remise de 12%, que la pièce MEC-4500 est en rupture depuis mardi, ou que la procédure de contrôle qualité a changé le mois dernier. Pour que l'IA devienne vraiment utile dans votre PME, il faut la connecter à vos documents internes : manuels techniques, procédures, fiches produit, historique client. C'est exactement ce que fait le RAG (Retrieval-Augmented Generation) — et le tout peut fonctionner 100% en local, sans envoyer une seule donnée au cloud. Voici comment, avec un cas concret et les coûts réels.
RAG expliqué simplement
Le RAG combine deux étapes : chercher puis répondre.
Imaginez un expert qui, avant de répondre à votre question, va consulter une bibliothèque de documents pertinents et ne répond qu'en s'appuyant sur ce qu'il a lu. C'est exactement ce que fait le RAG.
Étape 1 — Indexation (une seule fois). Vos documents (PDF, Word, pages web internes, bases de données) sont découpés en "chunks" (morceaux de 200-500 mots) et transformés en vecteurs mathématiques (embeddings). Ces vecteurs sont stockés dans une base vectorielle (ChromaDB, Qdrant, Weaviate). C'est votre "bibliothèque IA".
Étape 2 — Recherche (à chaque question). Quand un utilisateur pose une question, le système la transforme aussi en vecteur et cherche les chunks les plus proches sémantiquement dans la base. Pas une recherche par mots-clés — une recherche par sens. "Quel est le délai de livraison de la MEC-4500 ?" trouve le bon document même si le mot "délai" n'y figure pas.
Étape 3 — Génération (à chaque question). Les chunks pertinents sont injectés dans le prompt du LLM avec la question de l'utilisateur. Le modèle répond en s'appuyant uniquement sur ces documents, pas sur ses connaissances générales. Résultat : une réponse factuelle, sourcée, vérifiable.
L'avantage majeur du RAG vs le fine-tuning : quand un document change, vous le réindexez. Pas besoin de réentraîner le modèle. La mise à jour prend des minutes, pas des semaines. C'est ce qui rend le RAG viable en entreprise, où les documents changent constamment.
Quels documents connecter en priorité
Tous les documents ne méritent pas d'être indexés. Commencez par ceux qui génèrent le plus de questions répétitives.
Priorité 1 — Documentation technique. Fiches produit, manuels d'utilisation, procédures de maintenance, spécifications techniques. C'est le gisement de questions le plus fréquent en PME industrielle : "quelle est la tolérance de la pièce X ?", "quelle huile utiliser pour la machine Y ?", "quelle est la procédure de consignation ?".
Priorité 2 — Procédures internes. Process qualité (ISO 9001, EN 9100), procédures RH (congés, notes de frais, télétravail), procédures sécurité. Ces documents sont rarement lus et constamment recherchés.
Priorité 3 — FAQ et historique support. Tickets clients résolus, FAQ internes, notes techniques. Chaque question résolue dans le passé peut répondre à une question future.
Priorité 4 — Base produit / catalogue. Références, prix, disponibilités, caractéristiques. Pour un assistant commercial ou un chatbot client.
Ce qu'il ne faut PAS indexer : les emails (trop de bruit), les documents obsolètes non archivés (réponses fausses), les données personnelles non nécessaires (risque RGPD).
Stack technique : embeddings + base vectorielle + LLM local
Voici l'architecture type d'un RAG auto-hébergé en PME, telle qu'on la déploie via nos outils IA sur mesure.
Modèle d'embedding : transforme le texte en vecteurs. On utilise typiquement all-MiniLM-L6-v2 (gratuit, léger, 384 dimensions) ou bge-large-fr pour le français. Tourne sur CPU, pas besoin de GPU pour cette partie.
Base vectorielle : stocke et recherche les vecteurs. ChromaDB pour les projets simples (< 50 000 documents), Qdrant pour les projets plus importants (recherche rapide, filtres métadonnées). Les deux sont open source et auto-hébergeables.
LLM local : génère la réponse à partir des documents trouvés. Mistral 7B est notre choix par défaut — bon raisonnement, bonne qualité de français, fonctionne sur GPU 16 Go. En complément, notre article sur le déploiement de LLM open source détaille les options d'infrastructure.
Orchestrateur : LangChain ou LlamaIndex gèrent le pipeline complet (question → recherche → injection contexte → génération → réponse). Le code applicatif fait typiquement 200-500 lignes.
Interface utilisateur : chatbot web (React), widget intégré dans l'intranet, connecteur Teams/Slack, ou API REST pour intégration dans vos outils existants.
Budget infrastructure :
- Serveur : 80-150€/mois (VPS GPU) ou 3 000-5 000€ en CAPEX (workstation dédiée) Une fois l'infrastructure en place, la sécurisation est critique : notre guide pour sécuriser un serveur IA en PME couvre firewall, accès, chiffrement et sauvegardes.
- Logiciels : 0€ (tout open source)
- Développement : 8 000-20 000€ selon complexité
- Indexation initiale : 2-5 jours de travail
Précision et hallucinations : garantir des réponses fiables
Le principal risque du RAG, c'est l'hallucination : le modèle invente une réponse plausible mais fausse. Voici comment le mitiger en contexte professionnel.
Technique 1 — Le prompt de contrainte. Instruire le LLM : "Réponds uniquement à partir des documents fournis. Si l'information n'est pas dans les documents, dis 'je n'ai pas trouvé cette information dans la documentation disponible'." Cette simple instruction réduit les hallucinations de 80%.
Technique 2 — Les sources citées. Chaque réponse inclut les références des documents utilisés (nom du fichier, page, date). L'utilisateur peut vérifier. "D'après la fiche technique MEC-4500 (version 3, page 12), la tolérance est de ±0,02mm."
Technique 3 — Le score de confiance. Le système calcule un score de similarité entre la question et les documents trouvés. En dessous d'un seuil (typiquement 0.7), il ne répond pas et redirige vers un expert humain.
Technique 4 — La supervision humaine. Les premières semaines, un expert vérifie un échantillon de réponses (10-20%). Le taux de réponses correctes doit dépasser 85% avant de déployer largement.
Taux de fiabilité constaté en production chez nos clients : 87-93% de réponses correctes après optimisation. Les 7-13% restants sont correctement identifiés comme "information non trouvée" et redirigés vers un humain.
Cas concret : assistant IA sur 10 000 pages de documentation technique
Contexte : ETI de maintenance industrielle, 250 salariés. 10 000 pages de documentation technique : manuels d'équipements, procédures d'intervention, fiches de sécurité, retours d'expérience. Les techniciens terrain passent en moyenne 30 minutes par jour à chercher une information avant intervention.
Solution déployée :
- RAG auto-hébergé sur serveur OVH (Mistral 7B + ChromaDB)
- 10 000 pages indexées (45 000 chunks)
- Interface chatbot accessible depuis tablette terrain (mode offline partiel)
- Intégration GMAO (contexte intervention injecté automatiquement)
Résultats à 8 mois :
- Temps de recherche documentaire : -25 min/jour/technicien (de 30 à 5 min)
- Sur 80 techniciens : 2 000 min/jour récupérées soit 33h/jour
- Taux de réponses correctes : 91% (après 3 itérations d'optimisation)
- Satisfaction utilisateurs : 4,3/5
- Valorisation gains : ~8 000€/mois en temps productif
Budget : 22 000€ de développement + 5 jours d'indexation + 130€/mois de serveur. ROI : 3 mois.
Facteur clé de succès : la qualité de l'indexation initiale. Les documents mal structurés (scans de mauvaise qualité, PDF non-OCR) dégradent les réponses. L'investissement de 5 jours en nettoyage documentaire a été décisif.
Conclusion
Le RAG est la technologie qui rend l'IA réellement utile en entreprise. Sans lui, l'IA reste générique. Avec lui, elle devient un expert de votre métier, capable de répondre à des questions spécifiques en s'appuyant sur vos propres documents — le tout sans envoyer une seule donnée au cloud.
La bonne approche : commencer par un périmètre restreint (une catégorie de documents, un service pilote), valider la qualité des réponses, puis étendre progressivement.
Pour évaluer si le RAG est pertinent pour votre cas, commencez par notre diagnostic numérique gratuit. Et pour comprendre les enjeux de confidentialité liés à vos documents métier, notre article sur la gestion documentaire en PME complète cette lecture.
Prêt à passer à l'action ?
Diagnostic gratuit en 5 minutes. On identifie vos gains potentiels.
Diagnostic gratuitCap Numerik fait partie de l'écosystème Cap Performances, spécialiste du conseil commercial B2B pour PME industrielles. Pour le pilotage et la performance commerciale de votre PME, découvrez leurs conseil en performance commerciale.