Architectures avancées
Les techniques qui distinguent un déploiement amateur d'un déploiement industriel : RAG, fine-tuning, distillation, MoE, MCP, API. Le lexique des arbitrages techniques pour dirigeants.
- API IAUne API IA est une interface technique permettant à une application logicielle d'envoyer des requêtes à un modèle d'IA hébergé par un fournisseur, et de récupérer ses réponses. C'est le mode d'accès standard à l'IA en entreprise, par opposition à l'hébergement local du modèle.
- Base vectorielleUne base vectorielle est une base de données spécialisée dans le stockage et la recherche de vecteurs (embeddings). Elle permet de retrouver, pour une requête donnée, les contenus les plus sémantiquement proches dans un corpus, sans correspondance lexicale exacte. C'est le moteur de recherche typique d'un système RAG.
- DistillationLa distillation est une technique qui consiste à transférer la connaissance d'un grand modèle d'IA (modèle enseignant) vers un modèle plus petit (modèle étudiant), tout en préservant l'essentiel des performances. Elle permet de déployer des modèles légers à coût d'inférence réduit, viables sur des infrastructures plus modestes.
- Fine-tuningLe fine-tuning est une technique d'adaptation d'un modèle d'IA déjà entraîné, qui consiste à poursuivre son entraînement sur un jeu de données spécifique à votre cas d'usage. Il modifie les paramètres internes du modèle, par opposition au RAG qui injecte simplement du contexte au moment de la requête.
- Function callingLe function calling est la capacité d'un modèle d'IA à invoquer des fonctions ou des outils prédéfinis pour exécuter des actions dans un système externe. Le modèle retourne un objet structuré (JSON) plutôt que du texte, permettant à l'application d'appeler la fonction et de réinjecter le résultat dans la conversation.
- MCP (Model Context Protocol)Le MCP (Model Context Protocol) est un standard ouvert, introduit par Anthropic en novembre 2024, qui permet à un modèle d'IA de se connecter à des sources de données et des outils externes de manière uniforme. Il évite l'écriture de connecteurs spécifiques pour chaque combinaison modèle-application.
- Modèle open sourceUn modèle open source IA est un modèle de fondation dont les poids et l'architecture sont librement téléchargeables et exploitables sous licence permissive (Apache 2.0, MIT). Il s'oppose au modèle propriétaire (Claude, GPT, Gemini) accessible uniquement via API. Le choix engage souveraineté, coût et flexibilité long terme.
- MoE (Mixture of Experts)Mixture of Experts (MoE) est une architecture de modèle d'IA qui divise le réseau en sous-modèles spécialisés, appelés experts. À chaque token traité, un routeur sélectionne dynamiquement quelques experts, laissant les autres inactifs. Le modèle a la capacité d'un grand modèle mais le coût de calcul d'un plus petit.
- RAG (Retrieval-Augmented Generation)Le RAG (Retrieval-Augmented Generation) est une architecture d'IA qui couple un moteur de recherche dans vos documents à un modèle génératif : le modèle répond en s'appuyant sur vos données métier citables plutôt que sur ses seules connaissances d'entraînement.