📖 Définition

L'interprétabilité mécaniste est la branche de la recherche en sécurité IA qui cherche à ouvrir la boîte noire des réseaux de neurones — comprendre concrètement quels neurones, quelles couches et quels circuits internes produisent une décision. Plutôt que d'expliquer après-coup une sortie, elle décompose le calcul en composants identifiables. Anthropic et DeepMind ont fait des avancées majeures en 2024-2025 avec les Sparse Autoencoders, qui ont permis d'isoler des « concepts » spécifiques (le concept du Pont du Golden Gate, le concept de mensonge) au sein de Claude 3 Sonnet. Pour les PME québécoises en secteur réglementé, c'est l'avenir de l'auditabilité IA.

💬 En termes simples

C'est dissection neuroanatomique pour IA — au lieu d'observer le comportement, on cartographie les circuits.

🎯 Exemple concret

Une équipe IA d'une banque montréalaise utilise des outils d'interprétabilité mécaniste pour démontrer à l'AMF que son modèle de scoring crédit n'utilise pas le code postal comme proxy discriminatoire — la preuve technique remplace l'explication marketing.

💡 Le saviez-vous ?

En 2026, Anthropic a publié sa cartographie de plus de 30 millions de « features » identifiées dans Claude 3 Sonnet — la première fois qu'on disposait d'un atlas conceptuel d'un grand modèle de production.

Navigation

Ressources

Pages