Dernière revue :
Qu'est-ce que l'inférence en IA ? Définition et enjeux pour l'entreprise
L'inférence est la phase d'utilisation d'un modèle d'IA, durant laquelle le modèle calcule une réponse à partir d'un prompt donné. C'est l'opération facturée par les fournisseurs d'API, distincte de l'entraînement qui est un coût fixe initial.
L'inférence consiste à faire passer une requête à travers le réseau de neurones du modèle pour générer une sortie. Pour un LLM, cela revient à prédire les tokens de la réponse un par un, chaque token nécessitant un passage complet à travers le réseau. Plus le modèle est grand (en nombre de paramètres), plus chaque passage demande de calculs, et plus la latence augmente. Trois variables conditionnent le coût d'inférence : la taille du modèle (plus de paramètres égale plus de calculs par token), le nombre de tokens en entrée et en sortie (proportionnel direct), et la précision numérique utilisée (FP32, FP16, INT8, INT4). La quantification réduit la précision sans dégrader significativement la qualité, et divise proportionnellement la consommation de mémoire et le coût de calcul. L'inférence représente l'essentiel du coût de production d'une application IA : selon les analyses publiques de NVIDIA, environ 80 % du budget IA opérationnel d'une entreprise déployée à l'échelle va à l'inférence, contre 20 % à l'entraînement.
Exemple concret
Selon le rapport Stanford AI Index 2025, le coût d'inférence pour un modèle au niveau de GPT-3.5 (score MMLU 64,8) est passé de 20 dollars par million de tokens en novembre 2022 à 0,07 dollar par million en octobre 2024, soit une réduction par 280 en dix-huit mois. La même qualité, autrefois réservée aux organisations dotées d'un budget IA dédié, est aujourd'hui accessible pour quelques dizaines d'euros par mois à l'échelle d'une PME. Cette baisse continue change l'arbitrage économique : ce qui était hors de portée en 2023 est désormais un poste de dépense secondaire.
À voir aussi
Sources
- Artificial Intelligence Index Report 2025, Stanford HAI, chapitre 1. https://hai.stanford.edu/ai-index/2025-ai-index-report
- Tarifs publics Anthropic Claude API 2026. https://www.anthropic.com/pricing