Dernière revue :
Qu'est-ce que la distillation d'un modèle IA ? Définition et enjeux
La distillation est une technique qui consiste à transférer la connaissance d'un grand modèle d'IA (modèle enseignant) vers un modèle plus petit (modèle étudiant), tout en préservant l'essentiel des performances. Elle permet de déployer des modèles légers à coût d'inférence réduit, viables sur des infrastructures plus modestes.
Le concept a été formalisé par Hinton, Vinyals et Dean en 2015 dans le paper Distilling the Knowledge in a Neural Network. Le principe : au lieu d'entraîner le modèle étudiant directement sur les données originales, on l'entraîne à imiter les sorties (probabilités, logits) du modèle enseignant. L'étudiant apprend non seulement les bonnes réponses, mais aussi la confiance relative que le modèle enseignant accorde à chaque alternative. Cette information dite molle contient beaucoup plus de signal d'apprentissage que les seules étiquettes binaires. DistilBERT (Sanh et al., 2019) est l'exemple historique : il atteint 97 % des performances de BERT en étant 40 % plus petit et 60 % plus rapide à l'inférence. En 2026, la quasi-totalité des modèles légers déployés en entreprise (Mistral 7B, Llama 3.2 1B, Gemma 2B) sont des modèles distillés ou apparentés. La distillation est devenue le procédé standard de production des modèles d'inférence économique.
Exemple concret
Une PME de service client de 50 collaborateurs traite 8 000 conversations par mois avec un assistant IA. Avec un modèle de pointe (Claude Sonnet 4.6, GPT-5.4), le coût d'inférence mensuel s'élève à environ 320 euros. En migrant vers un modèle distillé de qualité proche (Llama 3.3 70B Instruct, ou un modèle Mistral distillé), le coût tombe à 35 euros par mois, soit une économie de 3 400 euros par an pour un cas d'usage strictement équivalent. La perte de qualité, mesurée sur 200 conversations annotées, est de 3 points sur le taux de résolution au premier contact, ce qui reste imperceptible pour les utilisateurs.
À voir aussi
Pour aller plus loin
Distilling the Knowledge in a Neural Network, Hinton et al., 2015
Sources
- Distilling the Knowledge in a Neural Network, Hinton, Vinyals & Dean, arXiv:1503.02531, 2015. https://arxiv.org/abs/1503.02531
- DistilBERT, a distilled version of BERT, Sanh et al., arXiv:1910.01108, 2019. https://arxiv.org/abs/1910.01108