Dernière revue :

Qu'est-ce que MoE (Mixture of Experts) ? Définition et enjeux pour l'entreprise

Mixture of Experts (MoE) est une architecture de modèle d'IA qui divise le réseau en sous-modèles spécialisés, appelés experts. À chaque token traité, un routeur sélectionne dynamiquement quelques experts, laissant les autres inactifs. Le modèle a la capacité d'un grand modèle mais le coût de calcul d'un plus petit.

Le concept de mixture of experts a été formalisé pour les transformers par Fedus, Zoph et Shazeer en 2021 (Switch Transformer, Google). L'idée : au lieu d'activer la totalité du réseau à chaque inférence, un routeur léger oriente chaque token vers un sous-ensemble d'experts spécialisés, généralement 1 à 8 sur les dizaines disponibles. Conséquence : on peut entraîner et déployer des modèles à des centaines de milliards de paramètres, mais seul un dixième est mobilisé à chaque token. En 2026, la quasi-totalité des modèles frontières utilise une architecture MoE, à l'exception notable de Claude Opus 4.7. GPT-4 totaliserait 1 760 milliards de paramètres répartis sur 16 experts. DeepSeek V3 : 671 milliards de paramètres totaux, 37 milliards actifs par token. Mixtral 8x22B (Mistral) : 141 milliards totaux, 39 milliards actifs. L'avantage compétitif du MoE est si net qu'il est devenu un standard architectural pour les modèles à très grande échelle.

Exemple concret

DeepSeek V3 illustre l'avantage économique du MoE. Le modèle dispose de 671 milliards de paramètres au total, mais n'en active que 37 milliards par token, soit 5,4 % de l'ensemble. Conséquence directe : il atteint des performances comparables à GPT-4 sur la plupart des benchmarks publics, tout en coûtant environ 5,6 millions de dollars à entraîner, contre 78 à 100 millions pour GPT-4. À l'inférence, le coût par token est environ deux fois inférieur à celui de GPT-4 selon les tarifs publics. Cette efficacité explique l'adoption massive du MoE en 2025-2026 : presque tous les modèles frontières l'ont adopté, sauf Anthropic qui maintient une architecture dense pour Claude Opus 4.7.

À voir aussi

Pour aller plus loin

Switch Transformers: Scaling to Trillion Parameter Models, Fedus et al., 2021 (ressource externe)

Sources

  1. Switch Transformers: Scaling to Trillion Parameter Models, Fedus, Zoph & Shazeer, arXiv:2101.03961, 2021. https://arxiv.org/abs/2101.03961 (consulté le 2026-05-24)
  2. DeepSeek-V3 Technical Report, DeepSeek-AI, arXiv:2412.19437, 2024. https://arxiv.org/abs/2412.19437 (consulté le 2026-05-24)

← Retour au glossaire

Adresse copiée