Améliorer l'alignement des IA avec la méthode MSM
Une étude du programme Anthropic Fellows montre qu'entraîner un modèle linguistique sur des textes expliquant ses valeurs avant de lui enseigner des comportements spécifiques améliore significativement son adhésion à ces valeurs, même dans des situations nouvelles.