Última revisión:

¿Qué son las salvaguardas IA? Definición y retos para la empresa

Las salvaguardas son capas técnicas de control, añadidas en entrada o en salida de un modelo de IA, que detectan y bloquean los comportamientos indeseables: prompts maliciosos, fugas de datos, contenidos prohibidos. Son distintas de la alineación, que actúa sobre el comportamiento por defecto del modelo en sí.

Las salvaguardas (en inglés guardrails) intervienen en tres momentos del flujo aplicativo. Aguas arriba, sobre el prompt del usuario: detección de prompt injection, filtrado de los datos sensibles (números de tarjeta, información médica), rechazo de los temas fuera de perímetro. Durante el tratamiento, sobre la generación en curso: clasificadores en tiempo real que vigilan la salida y pueden interrumpirla. Aguas abajo, sobre la respuesta final: validación del formato, detección de contenidos problemáticos (alucinaciones detectables, sesgos, contenidos jurídicamente arriesgados). Existen varios marcos-herramienta en 2026: NeMo Guardrails (NVIDIA, código abierto), LlamaGuard (Meta), AWS Bedrock Guardrails, así como los clasificadores propietarios de Anthropic y OpenAI. La elección de un marco compromete la arquitectura aplicativa y el coste operativo: cada salvaguarda añade latencia (50 a 300 ms) y coste de inferencia. La buena dosificación es de negocio, no técnica: demasiadas salvaguardas matan la productividad, demasiado pocas exponen a incidentes.

Ejemplo concreto

Una mutua de seguro de salud despliega un chatbot para las preguntas corrientes de sus 80 000 afiliados. Antes de las salvaguardas, el modelo respondía a veces a preguntas médicas personales («tengo este dolor, ¿qué es?»), aventurándose en diagnóstico no autorizado. Se añadieron cuatro capas de salvaguardas: un filtro aguas arriba sobre las preguntas médicas personales, redirigidas a un teleasesor; un clasificador en salida que detecta cualquier lenguaje diagnóstico; una lista de términos prohibidos (nombres de medicamentos); un registro de auditoría con marca temporal de todas las intervenciones. El despliegue superó la auditoría jurídica interna en dos semanas en lugar de las seis previstas inicialmente.

Ver también

Para profundizar

AI Safety Level 3 Deployment Safeguards Report, Anthropic, mayo de 2025 (recurso externo)

Fuentes

  1. AI Safety Level 3 Deployment Safeguards Report, Anthropic, mayo de 2025. https://www.anthropic.com/asl3-deployment-safeguards (consultado el 2026-05-24)
  2. NIST AI Risk Management Framework (AI RMF 1.0). https://www.nist.gov/itl/ai-risk-management-framework (consultado el 2026-05-24)

← Volver al glosario

Dirección copiada