Última revisión: 24 de mayo de 2026

¿Qué son los datos de entrenamiento IA? Definición y retos para la empresa

Los datos de entrenamiento son el conjunto de textos, imágenes, códigos y otros contenidos utilizados para entrenar un modelo de IA. Su composición determina lo que el modelo sabe, lo que ignora, sus sesgos y sus riesgos jurídicos. Una parte mayor del contencioso IA actual se refiere a su procedencia y a su licitud.

Los modelos de fundación se entrenan sobre corpus de varios billones de tokens, cuya composición rara vez es totalmente pública. Dominan tres fuentes. La web pública, vía Common Crawl: más de 250 mil millones de páginas indexadas, que constituyen la materia prima de la mayoría de los LLM. Los corpus de libros y prensa, cuya legalidad de uso está hoy en disputa: la demanda del New York Times contra OpenAI (diciembre de 2023, todavía en fase de instrucción en 2026) se refiere precisamente a este punto. Los datos generados específicamente: anotaciones RLHF, ejemplos de fine-tuning, datos sintéticos. La trazabilidad de los datos de entrenamiento se ha vuelto central. El AI Act europeo impone a los proveedores de modelos de fundación una documentación pública de las fuentes de entrenamiento. Las prácticas siguen siendo heterogéneas: Anthropic publica parcialmente, Mistral publica poco, OpenAI no publica.

Ejemplo concreto

El estado del contencioso en 2026 ilustra la incertidumbre jurídica. Dos decisiones favorables a los laboratorios de IA se dictaron en junio de 2025 (Bartz contra Anthropic, Kadrey contra Meta), calificando el entrenamiento de altamente transformativo y por tanto protegido por el fair use estadounidense. Pero la demanda emblemática del New York Times contra OpenAI sigue en curso, y la fase de discovery desencadenó, en enero de 2026, una decisión judicial que ordena a OpenAI proporcionar 20 millones de logs ChatGPT anonimizados para evaluar la regurgitación literal de contenido protegido. El tema no está zanjado. Para un dirigente europeo, la incertidumbre jurídica estadounidense se suma a la conformidad RGPD y AI Act que son, ellas sí, perfectamente definidas.

A exigir contractualmente

Cinco cláusulas a exigir a todo proveedor de un modelo de IA desplegado en producción en su empresa. Primero, una declaración formal de las categorías de datos de entrenamiento utilizadas (web pública, libros, prensa, código, datos adquiridos bajo licencia), con nivel de granularidad mínimo definido contractualmente. Segundo, una garantía de no utilización de sus datos de negocio transmitidos al modelo para el entrenamiento de versiones futuras, con compromiso escrito. Tercero, la posibilidad de pedir la purga lógica de sus datos en los corpus de fine-tuning, en un plazo contractual máximo. Cuarto, una cláusula de garantía en caso de demanda de terceros por violación de derechos de autor vía el modelo utilizado: ¿quién cubre a quién? Quinto, una obligación de información en 30 días en caso de modificación sustancial del corpus de entrenamiento del modelo. Sin estas cinco cláusulas, el riesgo jurídico se transfiere a su empresa sin contraparte.

Ver también

Para profundizar

Demanda The New York Times Company contra Microsoft Corporation, S.D.N.Y. No. 23-CV-11195, presentada en diciembre de 2023 (recurso externo)

Fuentes

The New York Times Company v. Microsoft Corporation, S.D.N.Y. No. 23-CV-11195, presentada en diciembre de 2023, en fase de discovery en 2026. https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf (consultado el 2026-05-24)
Reglamento (UE) 2024/1689 sobre inteligencia artificial (AI Act), artículos 53-55 sobre las obligaciones de los proveedores de modelos de fundación. https://eur-lex.europa.eu/eli/reg/2024/1689/oj (consultado el 2026-05-24)

← Volver al glosario