Última revisión:
¿Qué es el red teaming IA? Definición y retos para la empresa
El red teaming, tomado de la ciberseguridad, es la práctica de probar un sistema de IA simulando intentos de uso adverso: rodeo de las reglas, extracción de datos sensibles, generación de contenidos prohibidos. Busca identificar las vulnerabilidades antes de que un actor malicioso las explote en producción.
El red teaming IA combina tres enfoques. El red teaming manual: expertos (procedentes a menudo de la ciberseguridad, la lingüística, el derecho) intentan hacer descarrilar el modelo mediante prompts elaborados, juegos de rol, rodeos de salvaguardas. El red teaming automatizado: modelos de ataque generan miles de prompts adversariales para explorar el espacio de las vulnerabilidades. Los programas de bug bounty: investigadores externos, remunerados en proporción de las fallas encontradas, prueban el sistema en continuo. Desde 2024, el red teaming se ha convertido en un estándar documental para los laboratorios punteros. Anthropic publica su Responsible Scaling Policy (AI Safety Levels) con exigencias de red teaming por nivel de capacidad. Los AI Safety Institutes (UK AISI, US CAISI) efectúan red teaming externo sobre los modelos de frontera antes del despliegue. El AI Act europeo impone el red teaming para los sistemas de alto riesgo.
Ejemplo concreto
Anthropic documentó en 2025 su protocolo de red teaming para Claude 3.7 Sonnet, probado conjuntamente con el UK AI Security Institute y el US Center for AI Standards and Innovation (CAISI). El trabajo se centró en los riesgos de utilización con fines biológicos, químicos o nucleares. Las agencias gubernamentales identificaron varios vectores de ataque previamente desconocidos, algunos de los cuales llevaron a Anthropic a modificar sus clasificadores en tiempo real antes de la puesta en producción. La transparencia del protocolo, publicada en el informe ASL-3 Deployment Safeguards Report en mayo de 2025, se ha convertido en una referencia para la industria.
Ver también
Para profundizar
Strengthening our safeguards through collaboration with US CAISI and UK AISI, Anthropic, 2025
Fuentes
- Strengthening our safeguards through collaboration with US CAISI and UK AISI, Anthropic, septiembre de 2025. https://www.anthropic.com/news/strengthening-our-safeguards-through-collaboration-with-us-caisi-and-uk-aisi
- AI Safety Level 3 Deployment Safeguards Report, Anthropic, mayo de 2025. https://www.anthropic.com/asl3-deployment-safeguards