Última revisión:

¿Qué es MoE (Mixture of Experts)? Definición y retos para la empresa

Mixture of Experts (MoE) es una arquitectura de modelo de IA que divide la red en submodelos especializados, llamados expertos. Para cada token tratado, un enrutador selecciona dinámicamente algunos expertos, dejando inactivos a los demás. El modelo tiene la capacidad de un gran modelo pero el coste de cálculo de uno más pequeño.

El concepto de mixture of experts fue formalizado para los transformers por Fedus, Zoph y Shazeer en 2021 (Switch Transformer, Google). La idea: en lugar de activar la totalidad de la red en cada inferencia, un enrutador ligero orienta cada token hacia un subconjunto de expertos especializados, generalmente de 1 a 8 entre las decenas disponibles. Consecuencia: se pueden entrenar y desplegar modelos con cientos de miles de millones de parámetros, pero solo se moviliza una décima parte en cada token. En 2026, la casi totalidad de los modelos frontera utiliza una arquitectura MoE, a excepción notable de Claude Opus 4.7. GPT-4 totalizaría 1 760 mil millones de parámetros repartidos en 16 expertos. DeepSeek V3: 671 mil millones de parámetros totales, 37 mil millones activos por token. Mixtral 8x22B (Mistral): 141 mil millones totales, 39 mil millones activos. La ventaja competitiva del MoE es tan clara que se ha vuelto un estándar arquitectónico para los modelos a muy gran escala.

Ejemplo concreto

DeepSeek V3 ilustra la ventaja económica del MoE. El modelo dispone de 671 mil millones de parámetros en total, pero solo activa 37 mil millones por token, es decir, el 5,4 % del conjunto. Consecuencia directa: alcanza rendimientos comparables a GPT-4 en la mayoría de los benchmarks públicos, costando alrededor de 5,6 millones de dólares de entrenamiento, frente a 78 a 100 millones para GPT-4. En inferencia, el coste por token es aproximadamente dos veces inferior al de GPT-4 según las tarifas públicas. Esta eficiencia explica la adopción masiva del MoE en 2025-2026: casi todos los modelos frontera lo han adoptado, salvo Anthropic, que mantiene una arquitectura densa para Claude Opus 4.7.

Ver también

Para profundizar

Switch Transformers: Scaling to Trillion Parameter Models, Fedus et al., 2021 (recurso externo)

Fuentes

  1. Switch Transformers: Scaling to Trillion Parameter Models, Fedus, Zoph & Shazeer, arXiv:2101.03961, 2021. https://arxiv.org/abs/2101.03961 (consultado el 2026-05-24)
  2. DeepSeek-V3 Technical Report, DeepSeek-AI, arXiv:2412.19437, 2024. https://arxiv.org/abs/2412.19437 (consultado el 2026-05-24)

← Volver al glosario

Dirección copiada