Última revisión: 24 de mayo de 2026

¿Qué son las salvaguardas IA? Definición y retos para la empresa

Las salvaguardas son capas técnicas de control, añadidas en entrada o en salida de un modelo de IA, que detectan y bloquean los comportamientos indeseables: prompts maliciosos, fugas de datos, contenidos prohibidos. Son distintas de la alineación, que actúa sobre el comportamiento por defecto del modelo en sí.

Las salvaguardas (en inglés guardrails) intervienen en tres momentos del flujo aplicativo. Aguas arriba, sobre el prompt del usuario: detección de prompt injection, filtrado de los datos sensibles (números de tarjeta, información médica), rechazo de los temas fuera de perímetro. Durante el tratamiento, sobre la generación en curso: clasificadores en tiempo real que vigilan la salida y pueden interrumpirla. Aguas abajo, sobre la respuesta final: validación del formato, detección de contenidos problemáticos (alucinaciones detectables, sesgos, contenidos jurídicamente arriesgados). Existen varios marcos-herramienta en 2026: NeMo Guardrails (NVIDIA, código abierto), LlamaGuard (Meta), AWS Bedrock Guardrails, así como los clasificadores propietarios de Anthropic y OpenAI. La elección de un marco compromete la arquitectura aplicativa y el coste operativo: cada salvaguarda añade latencia (50 a 300 ms) y coste de inferencia. La buena dosificación es de negocio, no técnica: demasiadas salvaguardas matan la productividad, demasiado pocas exponen a incidentes.

Ejemplo concreto

Una mutua de seguro de salud despliega un chatbot para las preguntas corrientes de sus 80 000 afiliados. Antes de las salvaguardas, el modelo respondía a veces a preguntas médicas personales («tengo este dolor, ¿qué es?»), aventurándose en diagnóstico no autorizado. Se añadieron cuatro capas de salvaguardas: un filtro aguas arriba sobre las preguntas médicas personales, redirigidas a un teleasesor; un clasificador en salida que detecta cualquier lenguaje diagnóstico; una lista de términos prohibidos (nombres de medicamentos); un registro de auditoría con marca temporal de todas las intervenciones. El despliegue superó la auditoría jurídica interna en dos semanas en lugar de las seis previstas inicialmente.

A exigir contractualmente

Cinco cláusulas a exigir en todo contrato con un prestatario o un editor de IA que integre salvaguardas en su despliegue. Primero, la documentación exhaustiva de las salvaguardas activadas, por capa (entrada, tratamiento, salida), con su lógica de activación. Sin esta documentación, no podrá auditar ni hacer evolucionar el sistema. Segundo, el derecho a auditar los registros de activación de las salvaguardas, con retención mínima de 12 meses. Tercero, la obligación de información en las 72 horas en caso de incidente de evasión detectado. Cuarto, la transparencia sobre las herramientas-marco utilizadas (NeMo, LlamaGuard, propietaria) y su versión. Quinto, la posibilidad de añadir sus propias salvaguardas de negocio sin reescritura completa, vía una API abierta. La ausencia de cualquiera de estas cláusulas debe desencadenar una renegociación antes de la firma.

Ver también

Para profundizar

AI Safety Level 3 Deployment Safeguards Report, Anthropic, mayo de 2025 (recurso externo)

Fuentes

AI Safety Level 3 Deployment Safeguards Report, Anthropic, mayo de 2025. https://www.anthropic.com/asl3-deployment-safeguards (consultado el 2026-05-24)
NIST AI Risk Management Framework (AI RMF 1.0). https://www.nist.gov/itl/ai-risk-management-framework (consultado el 2026-05-24)

← Volver al glosario