Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

Garde-fous (guardrails)

Garde-fous (guardrails)

Garde-fous (guardrails)

Terme Intermédiaire 🤖 Intelligence artificielle

Mis à jour le

Les garde-fous sont des mécanismes de contrôle appliqués aux entrées et sorties d'un LLM pour bloquer le contenu interdit, sensible ou dangereux et assurer la conformité.

📖 Définition

Les garde-fous (guardrails) sont des mécanismes de sécurité — techniques et de politique — qui encadrent les entrées et les sorties d'un modèle d'IA générative pour empêcher des comportements dangereux, non conformes ou hors-périmètre. Ils forment une couche défensive distincte du modèle lui-même : avant qu'une requête n'atteigne le modèle (garde-fous d'entrée) et avant qu'une réponse ne parvienne à l'utilisateur ou à un autre système (garde-fous de sortie). À l'entrée, ils détectent et bloquent les injections de requête (prompt injection) et tentatives de jailbreak, masquent les données personnelles ou sensibles (PII), filtrent le contenu toxique ou illégal et valident le format. À la sortie, ils bloquent le contenu interdit, empêchent les fuites d'informations confidentielles, vérifient la conformité aux politiques (ne pas donner d'avis médical hors cadre, etc.) et imposent un format strict (JSON valide). Ils s'appuient sur des règles déterministes, des classifieurs ou d'autres modèles filtrants, et peuvent régénérer une réponse (re-prompting) si elle viole une règle. Les garde-fous sont essentiels pour déployer un assistant IA de façon sûre et conforme (AI Act, lois locales).

💬 En termes simples

C'est comme les garde-fous d'un pont et un agent de sécurité à l'entrée : ils ne conduisent pas la voiture (le modèle), mais ils empêchent d'aller dans le décor et filtrent ce qui entre et ce qui sort.

🎯 Exemple concret

Un robot conversationnel d'entreprise : à l'entrée, un garde-fou masque le numéro de carte bancaire qu'un client a collé ; à la sortie, un autre bloque une réponse qui révélerait les données d'un autre client et force un format de ticket valide.

💡 Le saviez-vous ?

Les garde-fous sont une couche SÉPARÉE du modèle : on peut renforcer la sécurité d'un assistant sans réentraîner le LLM, simplement en ajustant les filtres d'entrée et de sortie.

❓ Questions fréquentes

Quelle différence entre garde-fous d'entrée et de sortie ?
Les garde-fous d'entrée filtrent ce qui est envoyé au modèle (injections, PII, toxicité) ; ceux de sortie filtrent ce que le modèle renvoie (contenu interdit, fuites, format) avant affichage.
Les garde-fous remplacent-ils l'alignement du modèle ?
Non : ils s'ajoutent par-dessus. L'alignement rend le modèle plus sûr par nature ; les garde-fous sont une couche de contrôle externe et déterministe, en complément.
🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !