Última revisión: 24 de mayo de 2026

¿Qué es la destilación de un modelo IA? Definición y retos para la empresa

La destilación es una técnica que consiste en transferir el conocimiento de un gran modelo de IA (modelo profesor) a un modelo más pequeño (modelo estudiante), preservando lo esencial del rendimiento. Permite desplegar modelos ligeros con coste de inferencia reducido, viables sobre infraestructuras más modestas.

El concepto fue formalizado por Hinton, Vinyals y Dean en 2015 en el paper Distilling the Knowledge in a Neural Network. El principio: en lugar de entrenar el modelo estudiante directamente sobre los datos originales, se le entrena para imitar las salidas (probabilidades, logits) del modelo profesor. El estudiante aprende no solo las respuestas correctas, sino también la confianza relativa que el modelo profesor concede a cada alternativa. Esta información llamada blanda contiene mucha más señal de aprendizaje que las solas etiquetas binarias. DistilBERT (Sanh et al., 2019) es el ejemplo histórico: alcanza el 97 % del rendimiento de BERT siendo 40 % más pequeño y 60 % más rápido en inferencia. En 2026, la casi totalidad de los modelos ligeros desplegados en empresa (Mistral 7B, Llama 3.2 1B, Gemma 2B) son modelos destilados o emparentados. La destilación se ha vuelto el procedimiento estándar de producción de los modelos de inferencia económica.

Ejemplo concreto

Una pyme de servicio al cliente de 50 colaboradores trata 8 000 conversaciones al mes con un asistente de IA. Con un modelo puntero (Claude Sonnet 4.6, GPT-5.4), el coste de inferencia mensual se eleva a unos 320 euros. Al migrar a un modelo destilado de calidad próxima (Llama 3.3 70B Instruct, o un modelo Mistral destilado), el coste cae a 35 euros al mes, es decir, un ahorro de 3 400 euros al año para un caso de uso estrictamente equivalente. La pérdida de calidad, medida sobre 200 conversaciones anotadas, es de 3 puntos sobre la tasa de resolución al primer contacto, lo que sigue siendo imperceptible para los usuarios.

Preguntar a su director de TI

«¿El modelo puntero que utilizamos está realmente justificado, o bastaría un modelo destilado?». Esta pregunta, planteada a su director de sistemas o a su proveedor de IA, puede dividir su factura por 5 a 10 sin degradación perceptible. Tres subpreguntas a encadenar. Primero, ¿hemos comparado objetivamente las salidas de un modelo destilado (Llama 3.3 70B, Mistral 7B destilado, Gemma 2 27B) con nuestro modelo actual sobre 100 casos reales? Si la calidad sigue siendo comparable, el sobrecoste del modelo puntero ya no se justifica. Segundo, ¿este modelo destilado puede funcionar en local o en cloud soberano? Muchos pueden, lo que reduce además la dependencia de un proveedor extranjero. Tercero, ¿con qué frecuencia reevaluamos esta elección? Los modelos destilados evolucionan rápido, un benchmark trimestral debería ser sistemático.

Ver también

Para profundizar

Distilling the Knowledge in a Neural Network, Hinton et al., 2015 (recurso externo)

Fuentes

Distilling the Knowledge in a Neural Network, Hinton, Vinyals & Dean, arXiv:1503.02531, 2015. https://arxiv.org/abs/1503.02531 (consultado el 2026-05-24)
DistilBERT, a distilled version of BERT, Sanh et al., arXiv:1910.01108, 2019. https://arxiv.org/abs/1910.01108 (consultado el 2026-05-24)

← Volver al glosario