Última revisión: 24 de mayo de 2026

¿Qué es el red teaming IA? Definición y retos para la empresa

El red teaming, tomado de la ciberseguridad, es la práctica de probar un sistema de IA simulando intentos de uso adverso: rodeo de las reglas, extracción de datos sensibles, generación de contenidos prohibidos. Busca identificar las vulnerabilidades antes de que un actor malicioso las explote en producción.

El red teaming IA combina tres enfoques. El red teaming manual: expertos (procedentes a menudo de la ciberseguridad, la lingüística, el derecho) intentan hacer descarrilar el modelo mediante prompts elaborados, juegos de rol, rodeos de salvaguardas. El red teaming automatizado: modelos de ataque generan miles de prompts adversariales para explorar el espacio de las vulnerabilidades. Los programas de bug bounty: investigadores externos, remunerados en proporción de las fallas encontradas, prueban el sistema en continuo. Desde 2024, el red teaming se ha convertido en un estándar documental para los laboratorios punteros. Anthropic publica su Responsible Scaling Policy (AI Safety Levels) con exigencias de red teaming por nivel de capacidad. Los AI Safety Institutes (UK AISI, US CAISI) efectúan red teaming externo sobre los modelos de frontera antes del despliegue. El AI Act europeo impone el red teaming para los sistemas de alto riesgo.

Ejemplo concreto

Anthropic documentó en 2025 su protocolo de red teaming para Claude 3.7 Sonnet, probado conjuntamente con el UK AI Security Institute y el US Center for AI Standards and Innovation (CAISI). El trabajo se centró en los riesgos de utilización con fines biológicos, químicos o nucleares. Las agencias gubernamentales identificaron varios vectores de ataque previamente desconocidos, algunos de los cuales llevaron a Anthropic a modificar sus clasificadores en tiempo real antes de la puesta en producción. La transparencia del protocolo, publicada en el informe ASL-3 Deployment Safeguards Report en mayo de 2025, se ha convertido en una referencia para la industria.

A exigir contractualmente

Cuatro cláusulas a exigir en todo contrato con un editor de IA para los sistemas con riesgo (jurídico, financiero, médico, RR.HH.). Primero, la obligación de proporcionar un informe de red teaming previo al despliegue para cada versión mayor del modelo, con lista anonimizada de las vulnerabilidades identificadas y corregidas. Segundo, la frecuencia mínima de red teaming continuo durante la duración del contrato: trimestral para los casos críticos, semestral para los demás. Tercero, la transparencia sobre los organismos terceros implicados (laboratorios académicos, AI Safety Institutes, sociedades especializadas): un red teaming puramente interno es insuficiente. Cuarto, el derecho a una reevaluación contradictoria a su cargo, por un tercero de su elección, sobre sus casos de uso específicos. Estas cláusulas no son personalización de alta gama: son hoy aceptadas por los proveedores serios del mercado.

Ver también

Para profundizar

Strengthening our safeguards through collaboration with US CAISI and UK AISI, Anthropic, 2025 (recurso externo)

Fuentes

Strengthening our safeguards through collaboration with US CAISI and UK AISI, Anthropic, septiembre de 2025. https://www.anthropic.com/news/strengthening-our-safeguards-through-collaboration-with-us-caisi-and-uk-aisi (consultado el 2026-05-24)
AI Safety Level 3 Deployment Safeguards Report, Anthropic, mayo de 2025. https://www.anthropic.com/asl3-deployment-safeguards (consultado el 2026-05-24)

← Volver al glosario