Dernière revue : 24 mai 2026

Qu'est-ce que MoE (Mixture of Experts) ? Définition et enjeux pour l'entreprise

Mixture of Experts (MoE) est une architecture de modèle d'IA qui divise le réseau en sous-modèles spécialisés, appelés experts. À chaque token traité, un routeur sélectionne dynamiquement quelques experts, laissant les autres inactifs. Le modèle a la capacité d'un grand modèle mais le coût de calcul d'un plus petit.

Le concept de mixture of experts a été formalisé pour les transformers par Fedus, Zoph et Shazeer en 2021 (Switch Transformer, Google). L'idée : au lieu d'activer la totalité du réseau à chaque inférence, un routeur léger oriente chaque token vers un sous-ensemble d'experts spécialisés, généralement 1 à 8 sur les dizaines disponibles. Conséquence : on peut entraîner et déployer des modèles à des centaines de milliards de paramètres, mais seul un dixième est mobilisé à chaque token. En 2026, la quasi-totalité des modèles frontières utilise une architecture MoE, à l'exception notable de Claude Opus 4.7. GPT-4 totaliserait 1 760 milliards de paramètres répartis sur 16 experts. DeepSeek V3 : 671 milliards de paramètres totaux, 37 milliards actifs par token. Mixtral 8x22B (Mistral) : 141 milliards totaux, 39 milliards actifs. L'avantage compétitif du MoE est si net qu'il est devenu un standard architectural pour les modèles à très grande échelle.

Exemple concret

DeepSeek V3 illustre l'avantage économique du MoE. Le modèle dispose de 671 milliards de paramètres au total, mais n'en active que 37 milliards par token, soit 5,4 % de l'ensemble. Conséquence directe : il atteint des performances comparables à GPT-4 sur la plupart des benchmarks publics, tout en coûtant environ 5,6 millions de dollars à entraîner, contre 78 à 100 millions pour GPT-4. À l'inférence, le coût par token est environ deux fois inférieur à celui de GPT-4 selon les tarifs publics. Cette efficacité explique l'adoption massive du MoE en 2025-2026 : presque tous les modèles frontières l'ont adopté, sauf Anthropic qui maintient une architecture dense pour Claude Opus 4.7.

À demander à votre DSI

« Le modèle que nous utilisons est-il dense ou MoE, et savons-nous pourquoi cela compte ? » Cette question, posée à votre DSI ou à votre prestataire IA, révèle souvent un angle mort de la décision technique. Trois sous-questions à enchaîner. Premièrement, le coût d'inférence par token annoncé reflète-t-il l'activation réelle (par exemple 5 % des paramètres en MoE) ou la taille totale ? Sans cette distinction, le comparatif de prix est trompeur. Deuxièmement, le modèle MoE choisi a-t-il fait l'objet d'un test de stabilité sous charge ? Un effet bien documenté, le routing collapse, peut concentrer 90 % du trafic sur quelques experts et dégrader la qualité moyenne. Troisièmement, notre déploiement nécessite-t-il l'infrastructure VRAM correspondante ? Un modèle MoE de 671 milliards de paramètres exige plusieurs centaines de gigaoctets de mémoire, même si l'activation est minimale.

À voir aussi

Pour aller plus loin

Switch Transformers: Scaling to Trillion Parameter Models, Fedus et al., 2021 (ressource externe)

Sources

Switch Transformers: Scaling to Trillion Parameter Models, Fedus, Zoph & Shazeer, arXiv:2101.03961, 2021. https://arxiv.org/abs/2101.03961 (consulté le 2026-05-24)
DeepSeek-V3 Technical Report, DeepSeek-AI, arXiv:2412.19437, 2024. https://arxiv.org/abs/2412.19437 (consulté le 2026-05-24)

← Retour au glossaire