Dernière revue : 24 mai 2026

Qu'est-ce que les garde-fous IA ? Définition et enjeux pour l'entreprise

Les garde-fous sont des couches techniques de contrôle, ajoutées en entrée ou en sortie d'un modèle d'IA, qui détectent et bloquent les comportements indésirables : prompts malveillants, fuites de données, contenus interdits. Ils sont distincts de l'alignement, qui agit sur le comportement par défaut du modèle lui-même.

Les garde-fous (en anglais guardrails) interviennent à trois moments du flux applicatif. En amont, sur le prompt utilisateur : détection de prompt injection, filtrage des données sensibles (numéros de carte, informations médicales), refus des sujets hors-périmètre. Pendant le traitement, sur la génération en cours : classifieurs en temps réel qui surveillent la sortie et peuvent l'interrompre. En aval, sur la réponse finale : validation du format, détection de contenus problématiques (hallucinations détectables, biais, contenus juridiquement risqués). Plusieurs outils-cadres existent en 2026 : NeMo Guardrails (NVIDIA, open source), LlamaGuard (Meta), AWS Bedrock Guardrails, ainsi que les classifieurs propriétaires d'Anthropic et OpenAI. Le choix d'un cadre engage l'architecture applicative et le coût opérationnel : chaque garde-fou ajoute une latence (50 à 300 ms) et un coût d'inférence. Le bon dosage est métier, pas technique : trop de garde-fous tue la productivité, trop peu expose à des incidents.

Exemple concret

Une mutuelle d'assurance santé déploie un chatbot pour les questions courantes de ses 80 000 adhérents. Avant garde-fous, le modèle répondait parfois à des questions médicales personnelles (« j'ai cette douleur, qu'est-ce que c'est ? »), s'aventurant dans du diagnostic non autorisé. Quatre couches de garde-fous ont été ajoutées : un filtre en amont sur les questions médicales personnelles, redirigées vers un téléconseiller ; un classifieur en sortie détectant tout langage diagnostique ; une liste de termes interdits (noms de médicaments) ; un journal d'audit horodaté de toutes les interventions. Le déploiement a passé l'audit interne juridique en deux semaines au lieu des six initialement prévues.

À exiger contractuellement

Cinq clauses à exiger dans tout contrat avec un prestataire ou un éditeur IA qui intègre des garde-fous dans votre déploiement. Premièrement, la documentation exhaustive des garde-fous activés, par couche (entrée, traitement, sortie), avec leur logique de déclenchement. Sans cette documentation, vous ne pourrez pas auditer ni faire évoluer le système. Deuxièmement, le droit d'auditer les journaux d'activation des garde-fous, avec rétention minimale de 12 mois. Troisièmement, l'obligation d'information dans les 72 heures en cas d'incident de contournement détecté. Quatrièmement, la transparence sur les outils-cadres utilisés (NeMo, LlamaGuard, propriétaire) et leur version. Cinquièmement, la possibilité d'ajouter vos propres garde-fous métier sans réécriture complète, via une API ouverte. L'absence de l'une de ces clauses doit déclencher une renégociation avant signature.

À voir aussi

Pour aller plus loin

AI Safety Level 3 Deployment Safeguards Report, Anthropic, mai 2025 (ressource externe)

Sources

AI Safety Level 3 Deployment Safeguards Report, Anthropic, mai 2025. https://www.anthropic.com/asl3-deployment-safeguards (consulté le 2026-05-24)
NIST AI Risk Management Framework (AI RMF 1.0). https://www.nist.gov/itl/ai-risk-management-framework (consulté le 2026-05-24)

← Retour au glossaire