📖 Définition

Un Sparse Autoencoder (SAE) est un type de réseau de neurones spécialisé qui apprend à représenter ses entrées avec un vecteur dont la quasi-totalité des composantes sont nulles — d'où le terme « parcimonieux ». Depuis 2024, les SAE sont l'outil principal de l'interprétabilité mécaniste : entraînés sur les activations internes d'un grand modèle (Claude, GPT, Llama), ils décomposent ces activations denses en milliers de « features » conceptuelles individuelles isolables. Anthropic a démontré qu'on peut ainsi extraire d'un LLM des concepts comme « risque biologique », « code malveillant » ou « ironie » — chacun activable indépendamment. Une révolution silencieuse pour la sécurité IA.

💬 En termes simples

C'est un microscope qui sépare la lumière blanche d'un LLM en couleurs distinctes — chaque couleur est un concept identifiable.

🎯 Exemple concret

Une équipe de recherche en sécurité IA à Montréal utilise un SAE pour identifier dans Llama 3 70B la « feature » qui s'active quand le modèle envisage de jailbreaker — un signal clair pour bloquer la sortie avant qu'elle ne soit générée.

💡 Le saviez-vous ?

En 2026, Anthropic, OpenAI et Google DeepMind avaient chacun publié leurs cartographies SAE de leurs modèles principaux — la « décennie de l'interprétabilité » est en route.

Navigation

Ressources

Pages