Dernière revue :

Qu'est-ce que les garde-fous IA ? Définition et enjeux pour l'entreprise

Les garde-fous sont des couches techniques de contrôle, ajoutées en entrée ou en sortie d'un modèle d'IA, qui détectent et bloquent les comportements indésirables : prompts malveillants, fuites de données, contenus interdits. Ils sont distincts de l'alignement, qui agit sur le comportement par défaut du modèle lui-même.

Les garde-fous (en anglais guardrails) interviennent à trois moments du flux applicatif. En amont, sur le prompt utilisateur : détection de prompt injection, filtrage des données sensibles (numéros de carte, informations médicales), refus des sujets hors-périmètre. Pendant le traitement, sur la génération en cours : classifieurs en temps réel qui surveillent la sortie et peuvent l'interrompre. En aval, sur la réponse finale : validation du format, détection de contenus problématiques (hallucinations détectables, biais, contenus juridiquement risqués). Plusieurs outils-cadres existent en 2026 : NeMo Guardrails (NVIDIA, open source), LlamaGuard (Meta), AWS Bedrock Guardrails, ainsi que les classifieurs propriétaires d'Anthropic et OpenAI. Le choix d'un cadre engage l'architecture applicative et le coût opérationnel : chaque garde-fou ajoute une latence (50 à 300 ms) et un coût d'inférence. Le bon dosage est métier, pas technique : trop de garde-fous tue la productivité, trop peu expose à des incidents.

Exemple concret

Une mutuelle d'assurance santé déploie un chatbot pour les questions courantes de ses 80 000 adhérents. Avant garde-fous, le modèle répondait parfois à des questions médicales personnelles (« j'ai cette douleur, qu'est-ce que c'est ? »), s'aventurant dans du diagnostic non autorisé. Quatre couches de garde-fous ont été ajoutées : un filtre en amont sur les questions médicales personnelles, redirigées vers un téléconseiller ; un classifieur en sortie détectant tout langage diagnostique ; une liste de termes interdits (noms de médicaments) ; un journal d'audit horodaté de toutes les interventions. Le déploiement a passé l'audit interne juridique en deux semaines au lieu des six initialement prévues.

À voir aussi

Pour aller plus loin

AI Safety Level 3 Deployment Safeguards Report, Anthropic, mai 2025 (ressource externe)

Sources

  1. AI Safety Level 3 Deployment Safeguards Report, Anthropic, mai 2025. https://www.anthropic.com/asl3-deployment-safeguards (consulté le 2026-05-24)
  2. NIST AI Risk Management Framework (AI RMF 1.0). https://www.nist.gov/itl/ai-risk-management-framework (consulté le 2026-05-24)

← Retour au glossaire

Adresse copiée