Dernière revue : 24 mai 2026

Qu'est-ce que la distillation d'un modèle IA ? Définition et enjeux

La distillation est une technique qui consiste à transférer la connaissance d'un grand modèle d'IA (modèle enseignant) vers un modèle plus petit (modèle étudiant), tout en préservant l'essentiel des performances. Elle permet de déployer des modèles légers à coût d'inférence réduit, viables sur des infrastructures plus modestes.

Le concept a été formalisé par Hinton, Vinyals et Dean en 2015 dans le paper Distilling the Knowledge in a Neural Network. Le principe : au lieu d'entraîner le modèle étudiant directement sur les données originales, on l'entraîne à imiter les sorties (probabilités, logits) du modèle enseignant. L'étudiant apprend non seulement les bonnes réponses, mais aussi la confiance relative que le modèle enseignant accorde à chaque alternative. Cette information dite molle contient beaucoup plus de signal d'apprentissage que les seules étiquettes binaires. DistilBERT (Sanh et al., 2019) est l'exemple historique : il atteint 97 % des performances de BERT en étant 40 % plus petit et 60 % plus rapide à l'inférence. En 2026, la quasi-totalité des modèles légers déployés en entreprise (Mistral 7B, Llama 3.2 1B, Gemma 2B) sont des modèles distillés ou apparentés. La distillation est devenue le procédé standard de production des modèles d'inférence économique.

Exemple concret

Une PME de service client de 50 collaborateurs traite 8 000 conversations par mois avec un assistant IA. Avec un modèle de pointe (Claude Sonnet 4.6, GPT-5.4), le coût d'inférence mensuel s'élève à environ 320 euros. En migrant vers un modèle distillé de qualité proche (Llama 3.3 70B Instruct, ou un modèle Mistral distillé), le coût tombe à 35 euros par mois, soit une économie de 3 400 euros par an pour un cas d'usage strictement équivalent. La perte de qualité, mesurée sur 200 conversations annotées, est de 3 points sur le taux de résolution au premier contact, ce qui reste imperceptible pour les utilisateurs.

À demander à votre DSI

« Le modèle de pointe que nous utilisons est-il vraiment justifié, ou un modèle distillé suffirait-il ? » Cette question, posée à votre DSI ou à votre prestataire IA, peut diviser votre facture par 5 à 10 sans dégradation perceptible. Trois sous-questions à enchaîner. Premièrement, avons-nous comparé objectivement les sorties d'un modèle distillé (Llama 3.3 70B, Mistral 7B distillé, Gemma 2 27B) à notre modèle actuel sur 100 cas réels ? Si la qualité reste comparable, le surcoût du modèle de pointe n'est plus justifié. Deuxièmement, ce modèle distillé peut-il tourner en local ou en cloud souverain ? Beaucoup le peuvent, ce qui réduit en plus la dépendance à un fournisseur étranger. Troisièmement, à quelle fréquence ré-évaluons-nous ce choix ? Les modèles distillés évoluent vite, un benchmark trimestriel devrait être systématique.

À voir aussi

Pour aller plus loin

Distilling the Knowledge in a Neural Network, Hinton et al., 2015 (ressource externe)

Sources

Distilling the Knowledge in a Neural Network, Hinton, Vinyals & Dean, arXiv:1503.02531, 2015. https://arxiv.org/abs/1503.02531 (consulté le 2026-05-24)
DistilBERT, a distilled version of BERT, Sanh et al., arXiv:1910.01108, 2019. https://arxiv.org/abs/1910.01108 (consulté le 2026-05-24)

← Retour au glossaire