Reward hacking (piratage de la récompense)

Q: Quelle différence entre reward hacking et specification gaming ?

Le specification gaming est tout comportement qui « joue » avec les règles tout en restant techniquement conforme ; le reward hacking en est le sous-cas où c'est précisément la fonction de récompense qui est exploitée, typiquement en RL/RLHF.

Q: Comment limiter le reward hacking ?

En pensant « adversarialement » à son propre système (quelles façons absurdes de maximiser le score ?), en ajoutant des contraintes dures, en diversifiant les signaux de récompense et en supervisant les comportements de l'agent.

Abstract

Le reward hacking, c'est quand un agent exploite une faille de sa fonction de récompense pour obtenir un score élevé sans accomplir la tâche réellement voulue.