Dernière revue :

Qu'est-ce que les données d'entraînement IA ? Définition et enjeux pour l'entreprise

Les données d'entraînement sont l'ensemble des textes, images, codes et autres contenus utilisés pour entraîner un modèle d'IA. Leur composition détermine ce que le modèle sait, ce qu'il ignore, ses biais et ses risques juridiques. Une partie majeure du contentieux IA actuel porte sur leur provenance et leur licéité.

Les modèles de fondation sont entraînés sur des corpus de plusieurs trillions de tokens, dont la composition est rarement totalement publique. Trois sources dominent. Le web public, via Common Crawl : plus de 250 milliards de pages indexées, qui constituent la matière première de la plupart des LLM. Les corpus de livres et de presse, dont la légalité d'usage est aujourd'hui contestée : la plainte du New York Times contre OpenAI (décembre 2023, toujours en phase d'instruction en 2026) concerne précisément ce point. Les données générées spécifiquement : annotations RLHF, exemples de fine-tuning, données synthétiques. La traçabilité des données d'entraînement est devenue centrale. L'AI Act européen impose aux fournisseurs de modèles de fondation une documentation publique des sources d'entraînement. Les pratiques restent hétérogènes : Anthropic publie partiellement, Mistral publie peu, OpenAI ne publie pas.

Exemple concret

L'état du contentieux en 2026 illustre l'incertitude juridique. Deux décisions favorables aux laboratoires IA ont été rendues en juin 2025 (Bartz contre Anthropic, Kadrey contre Meta), qualifiant l'entraînement de hautement transformatif et donc protégé par le fair use américain. Mais la plainte phare du New York Times contre OpenAI reste en cours, et la phase de discovery a déclenché, en janvier 2026, une décision de cour ordonnant à OpenAI de fournir 20 millions de logs ChatGPT anonymisés pour évaluer la régurgitation littérale de contenu protégé. Le sujet n'est pas tranché. Pour un dirigeant européen, l'incertitude juridique américaine s'ajoute à la conformité RGPD et AI Act qui sont, elles, parfaitement définies.

À voir aussi

Pour aller plus loin

Plainte The New York Times Company contre Microsoft Corp., S.D.N.Y. No. 23-CV-11195, déposée décembre 2023 (ressource externe)

Sources

  1. The New York Times Company v. Microsoft Corporation, S.D.N.Y. No. 23-CV-11195, déposée décembre 2023, en phase de discovery en 2026. https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf (consulté le 2026-05-24)
  2. Règlement (UE) 2024/1689 sur l'intelligence artificielle (AI Act), articles 53-55 sur les obligations des fournisseurs de modèles de fondation. https://eur-lex.europa.eu/eli/reg/2024/1689/oj (consulté le 2026-05-24)

← Retour au glossaire

Adresse copiée