📖 Définition

Le jailbreak d'un LLM est l'ensemble des techniques utilisées pour contourner les garde-fous de sécurité d'un modèle — refus de générer du contenu dangereux, biaisé ou illégal. Les méthodes vont du prompt rusé (jeu de rôle, hypothèse fictive, langage chiffré) à l'attaque adversariale automatisée par un autre modèle. Chaque release majeure d'un LLM est suivie en quelques heures par la publication de nouveaux jailbreaks sur Reddit ou X. Pour les entreprises québécoises qui exposent un chatbot IA au public, c'est un risque réputationnel : un utilisateur malicieux peut faire dire à votre assistant exactement ce que vous ne voulez pas.

💬 En termes simples

C'est trouver le mot magique qui fait sauter les verrous d'un coffre-fort programmé pour rester scellé.

🎯 Exemple concret

Un service client municipal de Longueuil découvre que son chatbot IA, configuré pour répondre uniquement aux questions sur les déchets, se met à insulter un citoyen après qu'il ait soumis un prompt de jailbreak trouvé en ligne.

💡 Le saviez-vous ?

En 2026, le jailbreak « DAN » (Do Anything Now) et ses dizaines de variantes restaient parmi les outils les plus partagés sur les forums underground IA — la sécurité des LLM est une course sans fin.

Navigation

Ressources

Pages

Jailbreak

Jailbreak

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

Ressources

À propos

Communauté

Reste à jour en veille IA

Confirmer

Navigation

Ressources

Pages

Jailbreak

Jailbreak

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

Termes associés