Última revisión:
¿Qué son los datos de entrenamiento IA? Definición y retos para la empresa
Los datos de entrenamiento son el conjunto de textos, imágenes, códigos y otros contenidos utilizados para entrenar un modelo de IA. Su composición determina lo que el modelo sabe, lo que ignora, sus sesgos y sus riesgos jurídicos. Una parte mayor del contencioso IA actual se refiere a su procedencia y a su licitud.
Los modelos de fundación se entrenan sobre corpus de varios billones de tokens, cuya composición rara vez es totalmente pública. Dominan tres fuentes. La web pública, vía Common Crawl: más de 250 mil millones de páginas indexadas, que constituyen la materia prima de la mayoría de los LLM. Los corpus de libros y prensa, cuya legalidad de uso está hoy en disputa: la demanda del New York Times contra OpenAI (diciembre de 2023, todavía en fase de instrucción en 2026) se refiere precisamente a este punto. Los datos generados específicamente: anotaciones RLHF, ejemplos de fine-tuning, datos sintéticos. La trazabilidad de los datos de entrenamiento se ha vuelto central. El AI Act europeo impone a los proveedores de modelos de fundación una documentación pública de las fuentes de entrenamiento. Las prácticas siguen siendo heterogéneas: Anthropic publica parcialmente, Mistral publica poco, OpenAI no publica.
Ejemplo concreto
El estado del contencioso en 2026 ilustra la incertidumbre jurídica. Dos decisiones favorables a los laboratorios de IA se dictaron en junio de 2025 (Bartz contra Anthropic, Kadrey contra Meta), calificando el entrenamiento de altamente transformativo y por tanto protegido por el fair use estadounidense. Pero la demanda emblemática del New York Times contra OpenAI sigue en curso, y la fase de discovery desencadenó, en enero de 2026, una decisión judicial que ordena a OpenAI proporcionar 20 millones de logs ChatGPT anonimizados para evaluar la regurgitación literal de contenido protegido. El tema no está zanjado. Para un dirigente europeo, la incertidumbre jurídica estadounidense se suma a la conformidad RGPD y AI Act que son, ellas sí, perfectamente definidas.
Ver también
Para profundizar
Fuentes
- The New York Times Company v. Microsoft Corporation, S.D.N.Y. No. 23-CV-11195, presentada en diciembre de 2023, en fase de discovery en 2026. https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf
- Reglamento (UE) 2024/1689 sobre inteligencia artificial (AI Act), artículos 53-55 sobre las obligaciones de los proveedores de modelos de fundación. https://eur-lex.europa.eu/eli/reg/2024/1689/oj