Dernière revue :

Qu'est-ce que l'entraînement d'un modèle d'IA ? Définition et enjeux

L'entraînement est la phase de construction d'un modèle d'IA, durant laquelle le modèle ingère un corpus massif et ajuste ses milliards de paramètres internes pour apprendre les régularités statistiques de ce corpus. C'est l'opération la plus coûteuse du cycle de vie d'un modèle.

L'entraînement d'un modèle d'IA se décompose en deux phases distinctes. Le pré-entraînement (pre-training) consiste à exposer le modèle à un corpus très volumineux et généraliste (Wikipédia, livres numérisés, code source, archives web) pour qu'il apprenne les structures statistiques du langage. Cette phase dure des semaines à des mois sur des clusters de milliers de GPU. À l'issue, le modèle prédit correctement la suite d'un texte sans connaître votre cas d'usage métier. Le post-entraînement (post-training) couvre les étapes d'alignement et d'adaptation : apprentissage supervisé sur des exemples annotés, apprentissage par renforcement avec feedback humain (RLHF), et fine-tuning sur des données spécifiques. Ces étapes orientent le comportement du modèle vers ce qui est attendu d'un assistant utile (sécurité, ton, format). L'entraînement est une opération à coût fixe élevé. Une fois réalisé, le modèle est figé : pour modifier ses connaissances, il faut soit l'entraîner à nouveau (coûteux), soit lui fournir le contexte à chaque requête via un RAG (économe).

Exemple concret

Selon le rapport Stanford AI Index 2025, le coût de l'entraînement des modèles de frontière a explosé : 670 dollars pour le transformer original de 2017, 4,6 millions de dollars pour GPT-3 en 2020, 78 millions de dollars pour GPT-4 en 2023, et 192 millions de dollars pour Google Gemini Ultra 1.0 en 2024. Llama 3.1 405B de Meta a coûté environ 170 millions de dollars. Cette inflation, estimée à 2,4 fois par an depuis 2016, place l'entraînement des modèles de pointe hors de portée de toute entité hors GAFAM, hors Anthropic, hors les quelques laboratoires concurrents financés en milliards de dollars. Pour une ETI, la question n'est pas d'entraîner, c'est de choisir le bon modèle déjà entraîné.

À voir aussi

Sources

  1. Artificial Intelligence Index Report 2025, Stanford HAI, chapitre 1. https://hai.stanford.edu/ai-index/2025-ai-index-report (consulté le 2026-05-24)
  2. The Rising Costs of Training Frontier AI Models, Cottier et al., arXiv:2405.21015, 2024. https://arxiv.org/abs/2405.21015 (consulté le 2026-05-24)

← Retour au glossaire

Adresse copiée