Auto-encodeur parcimonieux
SAE — Sparse Autoencoder
📖 Définition
💬 En termes simples
C'est un microscope qui sépare la lumière blanche d'un LLM en couleurs distinctes — chaque couleur est un concept identifiable.
🎯 Exemple concret
Une équipe de recherche en sécurité IA à Montréal utilise un SAE pour identifier dans Llama 3 70B la « feature » qui s'active quand le modèle envisage de jailbreaker — un signal clair pour bloquer la sortie avant qu'elle ne soit générée.
💡 Le saviez-vous ?
En 2026, Anthropic, OpenAI et Google DeepMind avaient chacun publié leurs cartographies SAE de leurs modèles principaux — la « décennie de l'interprétabilité » est en route.