Dernière revue :
Qu'est-ce que les garde-fous IA ? Définition et enjeux pour l'entreprise
Les garde-fous sont des couches techniques de contrôle, ajoutées en entrée ou en sortie d'un modèle d'IA, qui détectent et bloquent les comportements indésirables : prompts malveillants, fuites de données, contenus interdits. Ils sont distincts de l'alignement, qui agit sur le comportement par défaut du modèle lui-même.
Les garde-fous (en anglais guardrails) interviennent à trois moments du flux applicatif. En amont, sur le prompt utilisateur : détection de prompt injection, filtrage des données sensibles (numéros de carte, informations médicales), refus des sujets hors-périmètre. Pendant le traitement, sur la génération en cours : classifieurs en temps réel qui surveillent la sortie et peuvent l'interrompre. En aval, sur la réponse finale : validation du format, détection de contenus problématiques (hallucinations détectables, biais, contenus juridiquement risqués). Plusieurs outils-cadres existent en 2026 : NeMo Guardrails (NVIDIA, open source), LlamaGuard (Meta), AWS Bedrock Guardrails, ainsi que les classifieurs propriétaires d'Anthropic et OpenAI. Le choix d'un cadre engage l'architecture applicative et le coût opérationnel : chaque garde-fou ajoute une latence (50 à 300 ms) et un coût d'inférence. Le bon dosage est métier, pas technique : trop de garde-fous tue la productivité, trop peu expose à des incidents.
Exemple concret
Une mutuelle d'assurance santé déploie un chatbot pour les questions courantes de ses 80 000 adhérents. Avant garde-fous, le modèle répondait parfois à des questions médicales personnelles (« j'ai cette douleur, qu'est-ce que c'est ? »), s'aventurant dans du diagnostic non autorisé. Quatre couches de garde-fous ont été ajoutées : un filtre en amont sur les questions médicales personnelles, redirigées vers un téléconseiller ; un classifieur en sortie détectant tout langage diagnostique ; une liste de termes interdits (noms de médicaments) ; un journal d'audit horodaté de toutes les interventions. Le déploiement a passé l'audit interne juridique en deux semaines au lieu des six initialement prévues.
À voir aussi
Pour aller plus loin
AI Safety Level 3 Deployment Safeguards Report, Anthropic, mai 2025
Sources
- AI Safety Level 3 Deployment Safeguards Report, Anthropic, mai 2025. https://www.anthropic.com/asl3-deployment-safeguards
- NIST AI Risk Management Framework (AI RMF 1.0). https://www.nist.gov/itl/ai-risk-management-framework