Introduction
En 2026, une PME industrielle n'a plus besoin de payer OpenAI ou Google pour utiliser l'IA. Des modèles de langage open source — Mistral, LLaMA, Qwen, Gemma — atteignent des performances proches des modèles commerciaux sur la plupart des tâches métier. La différence : vous les installez sur votre propre serveur, vos données ne quittent jamais votre infrastructure, et il n'y a pas de facture au token. Pour une PME qui manipule des données sensibles (tarifs, marges, fichiers clients, documentation technique), c'est un changement de paradigme. Encore faut-il savoir quel modèle choisir, quelle infrastructure prévoir et comment déployer. C'est l'objet de cet article, basé sur nos déploiements concrets d'outils IA sur mesure en PME industrielle.
Panorama 2026 des LLMs open source
Le paysage des modèles open source évolue vite. Voici les 4 familles qui comptent en février 2026 pour un usage professionnel en PME.
Mistral (France). Le champion européen. Mistral propose des modèles de 7B à 22B paramètres, avec une qualité de raisonnement remarquable pour leur taille. Mistral 7B reste le modèle le plus déployé en PME française pour son rapport performance/ressources. Mistral Large (22B) rivalise avec GPT-4 sur les tâches de raisonnement complexe. Avantage décisif : licence Apache 2.0, pas de restrictions commerciales, entreprise française soumise au droit européen.
LLaMA (Meta). La famille LLaMA 3 propose des modèles de 8B à 70B paramètres. Le 8B est excellent pour les tâches simples (classification, extraction, résumé). Le 70B est une référence en matière de qualité brute, mais demande une infrastructure conséquente (2 GPU). Licence communautaire permissive, usage commercial autorisé.
Qwen (Alibaba). Souvent sous-estimé en Europe, Qwen 2.5 offre d'excellentes performances multilingues et un rapport qualité/taille parmi les meilleurs du marché. Le Qwen 7B rivalise avec des modèles deux fois plus gros sur certains benchmarks. Attention toutefois à l'aspect géopolitique : certaines PME sensibles préfèrent éviter les modèles d'origine chinoise.
Gemma (Google). Les modèles Gemma 2 (2B et 7B) sont optimisés pour tourner sur du matériel modeste. Le 2B est idéal pour des tâches simples embarquées (classification, extraction de champs). Le 7B offre un bon compromis pour des PME à budget limité.
Notre recommandation pour une PME industrielle française : Mistral 7B comme modèle principal (raisonnement, rédaction, analyse), complété par Gemma 2B pour les tâches d'extraction légères. Cette combinaison couvre 90% des cas d'usage métier pour un coût d'infrastructure minimal.
Infrastructure nécessaire : GPU, RAM, stockage
Parlons matériel et budgets concrets — c'est souvent le frein principal.
Configuration minimale (Mistral 7B quantifié 4-bit) :
- CPU : 8 cœurs
- RAM : 16 Go
- GPU : pas obligatoire (fonctionne en CPU, mais lent)
- Stockage : 50 Go SSD
- Coût VPS : 30-50€/mois (OVH, Scaleway)
- Performance : ~5-10 tokens/seconde (acceptable pour usage interne)
Configuration recommandée (Mistral 7B + GPU) :
- CPU : 8+ cœurs
- RAM : 32 Go
- GPU : NVIDIA T4 (16 Go VRAM) ou RTX 4060
- Stockage : 100 Go NVMe
- Coût VPS GPU : 80-150€/mois
- Performance : ~40-60 tokens/seconde (réponse quasi instantanée)
Configuration avancée (LLaMA 70B ou multi-modèles) :
- CPU : 16+ cœurs
- RAM : 64 Go
- GPU : 2× NVIDIA A10 (24 Go VRAM chacun) ou 1× A100
- Stockage : 200 Go NVMe
- Coût : 300-600€/mois en cloud, ou CAPEX 8 000-15 000€ en serveur dédié
- Performance : ~30-50 tokens/seconde sur le 70B
Alternative CAPEX (achat serveur) : Une workstation reconditionnée avec GPU (type Dell Precision T5820 + RTX 3090) coûte entre 2 500 et 5 000€. Elle fait tourner Mistral 7B à pleine vitesse, sans frais cloud récurrents. ROI en 12-18 mois vs location cloud. C'est l'option que choisissent de plus en plus de PME industrielles qui ont une salle serveur existante. Pour trancher entre CAPEX et OPEX, notre comparatif coûts IA locale vs cloud chiffre précisément le point de bascule pour une PME.
Pour comprendre les enjeux de confidentialité liés au choix d'hébergement, notre article sur l'IA auto-hébergée en PME industrielle détaille les cas d'usage concrets.
Ollama, vLLM, LocalAI : les outils de déploiement
Avoir un modèle et un serveur ne suffit pas. Il faut un outil pour faire tourner le modèle et l'exposer via une API. Trois solutions dominent.
Ollama est le plus simple. Installation en une commande, téléchargement du modèle en une commande, API REST immédiatement disponible. Parfait pour démarrer ou pour un usage mono-utilisateur. Limite : pas optimisé pour la concurrence (plusieurs utilisateurs simultanés).
vLLM est le plus performant. Conçu pour la production, il gère la concurrence, le batching (regroupement de requêtes), et optimise l'utilisation GPU. C'est la solution pour un déploiement multi-utilisateurs avec des exigences de latence. Configuration plus technique.
LocalAI est le plus polyvalent. Compatible avec l'API OpenAI (drop-in replacement), il supporte les modèles texte, image et audio. Idéal si vous avez déjà des outils configurés pour l'API OpenAI — vous changez juste l'URL du serveur.
Notre recommandation : commencez par Ollama pour valider le cas d'usage (30 minutes d'installation). Migrez vers vLLM quand vous passez en production avec plusieurs utilisateurs. Le code applicatif ne change presque pas, les APIs sont compatibles.
Fine-tuning sur vos données métier : quand et comment
Le fine-tuning (entraînement spécialisé) d'un modèle sur vos données est souvent évoqué mais rarement nécessaire.
Quand le fine-tuning se justifie :
- Vocabulaire métier très spécifique (aéronautique, pharmacie, normes ISO)
- Format de sortie rigide et récurrent (rapports normés, fiches qualité)
- Volume d'interactions suffisant (>1 000 exemples annotés)
- Le RAG (voir ci-dessous) ne donne pas des résultats satisfaisants
Quand le RAG suffit (80% des cas) : Le RAG (Retrieval-Augmented Generation) connecte le modèle à vos documents sans le réentraîner. Vous indexez vos manuels, procédures, fiches techniques dans une base vectorielle, et le modèle les consulte à chaque question. C'est plus rapide, moins coûteux, et plus facile à maintenir.
- Coût RAG : 2 000-8 000€ de mise en place
- Coût fine-tuning : 5 000-20 000€ + maintenance récurrente
- Délai RAG : 1-2 semaines
- Délai fine-tuning : 4-8 semaines
Notre approche : on commence toujours par le RAG. Si les résultats ne sont pas satisfaisants après optimisation, on passe au fine-tuning sur les cas d'usage spécifiques qui le justifient. Pour les aspects conformité, notre guide sur les erreurs RGPD en IA auto-hébergée est un complément indispensable.
Cas concret : un assistant technique interne en PME mécanique
Contexte : PME de mécanique de précision, 90 salariés. 400 références produit, 15 ans de documentation technique accumulée (fiches matière, plans, rapports de contrôle, procédures qualité). Les techniciens passent en moyenne 25 minutes par jour à chercher une information technique.
Solution déployée :
- Modèle : Mistral 7B via Ollama, sur serveur OVH dédié (120€/mois)
- RAG : 8 000 documents indexés dans une base ChromaDB
- Interface : chatbot interne accessible depuis le navigateur et Teams
- Développement : 18 jours, soit 12 000€
Résultats à 6 mois :
- Temps de recherche technique : -20 minutes/jour/technicien (de 25 à 5 min)
- Sur 40 techniciens concernés : 800 minutes/jour récupérées soit 13h/jour
- Valorisation : ~3 000€/mois en temps productif récupéré
- Taux de satisfaction utilisateurs : 4,2/5
- Réponses correctes : 87% (les 13% restants redirigent vers un expert humain)
ROI : investissement 12 000€ + 120€/mois. Gain : 3 000€/mois. Break-even : 4,5 mois.
Le point clé du succès : la qualité de l'indexation documentaire. L'équipe qualité a passé 3 jours à nettoyer et structurer les documents avant indexation. Sans ce travail préparatoire, le taux de réponses correctes n'aurait pas dépassé 60%.
Conclusion
Déployer un LLM open source en PME n'est plus un projet de R&D. C'est un projet d'infrastructure, comparable à l'installation d'un serveur de fichiers ou d'un ERP. Les modèles sont matures, les outils de déploiement sont stables, et les coûts sont compatibles avec les budgets PME.
La clé du succès n'est pas le choix du modèle (Mistral, LLaMA ou Qwen feront tous un travail correct). C'est la qualité de l'intégration dans vos process métier : quels cas d'usage, quels documents, quelle interface, quelle formation.
Pour un diagnostic de vos cas d'usage IA et une estimation budgétaire personnalisée, commencez par notre diagnostic gratuit. Et pour comprendre l'intérêt de la formation IA pour vos dirigeants avant de lancer un tel projet, consultez notre guide dédié.
Prêt à passer à l'action ?
Diagnostic gratuit en 5 minutes. On identifie vos gains potentiels.
Diagnostic gratuitCap Numerik fait partie de l'écosystème Cap Performances, spécialiste du conseil commercial B2B pour PME industrielles. Pour le pilotage et la performance commerciale de votre PME, découvrez leurs conseil en performance commerciale.