Última revisión: 24 de mayo de 2026

¿Qué es MoE (Mixture of Experts)? Definición y retos para la empresa

Mixture of Experts (MoE) es una arquitectura de modelo de IA que divide la red en submodelos especializados, llamados expertos. Para cada token tratado, un enrutador selecciona dinámicamente algunos expertos, dejando inactivos a los demás. El modelo tiene la capacidad de un gran modelo pero el coste de cálculo de uno más pequeño.

El concepto de mixture of experts fue formalizado para los transformers por Fedus, Zoph y Shazeer en 2021 (Switch Transformer, Google). La idea: en lugar de activar la totalidad de la red en cada inferencia, un enrutador ligero orienta cada token hacia un subconjunto de expertos especializados, generalmente de 1 a 8 entre las decenas disponibles. Consecuencia: se pueden entrenar y desplegar modelos con cientos de miles de millones de parámetros, pero solo se moviliza una décima parte en cada token. En 2026, la casi totalidad de los modelos frontera utiliza una arquitectura MoE, a excepción notable de Claude Opus 4.7. GPT-4 totalizaría 1 760 mil millones de parámetros repartidos en 16 expertos. DeepSeek V3: 671 mil millones de parámetros totales, 37 mil millones activos por token. Mixtral 8x22B (Mistral): 141 mil millones totales, 39 mil millones activos. La ventaja competitiva del MoE es tan clara que se ha vuelto un estándar arquitectónico para los modelos a muy gran escala.

Ejemplo concreto

DeepSeek V3 ilustra la ventaja económica del MoE. El modelo dispone de 671 mil millones de parámetros en total, pero solo activa 37 mil millones por token, es decir, el 5,4 % del conjunto. Consecuencia directa: alcanza rendimientos comparables a GPT-4 en la mayoría de los benchmarks públicos, costando alrededor de 5,6 millones de dólares de entrenamiento, frente a 78 a 100 millones para GPT-4. En inferencia, el coste por token es aproximadamente dos veces inferior al de GPT-4 según las tarifas públicas. Esta eficiencia explica la adopción masiva del MoE en 2025-2026: casi todos los modelos frontera lo han adoptado, salvo Anthropic, que mantiene una arquitectura densa para Claude Opus 4.7.

Preguntar a su director de TI

«¿El modelo que utilizamos es denso o MoE, y sabemos por qué eso importa?». Esta pregunta, planteada a su director de sistemas o a su proveedor de IA, revela a menudo un punto ciego de la decisión técnica. Tres subpreguntas a encadenar. Primero, ¿el coste de inferencia por token anunciado refleja la activación real (por ejemplo, el 5 % de los parámetros en MoE) o el tamaño total? Sin esta distinción, la comparativa de precios es engañosa. Segundo, ¿el modelo MoE elegido ha sido objeto de un test de estabilidad bajo carga? Un efecto bien documentado, el routing collapse, puede concentrar el 90 % del tráfico en algunos expertos y degradar la calidad media. Tercero, ¿nuestro despliegue necesita la infraestructura VRAM correspondiente? Un modelo MoE de 671 mil millones de parámetros exige varios cientos de gigabytes de memoria, incluso si la activación es mínima.

Ver también

Para profundizar

Switch Transformers: Scaling to Trillion Parameter Models, Fedus et al., 2021 (recurso externo)

Fuentes

Switch Transformers: Scaling to Trillion Parameter Models, Fedus, Zoph & Shazeer, arXiv:2101.03961, 2021. https://arxiv.org/abs/2101.03961 (consultado el 2026-05-24)
DeepSeek-V3 Technical Report, DeepSeek-AI, arXiv:2412.19437, 2024. https://arxiv.org/abs/2412.19437 (consultado el 2026-05-24)

← Volver al glosario