Effondrement de modèle (model collapse)

Q: Pourquoi le contenu généré par IA est-il un risque pour l'entraînement ?

Parce qu'en réinjectant des données synthétiques génération après génération, le modèle perd les cas rares et la diversité des données humaines originales, ce qui dégrade ses sorties (effondrement).

Q: Comment éviter l'effondrement de modèle ?

En préservant une part suffisante de données humaines originales et de qualité dans l'entraînement, et en traçant/filtrant les contenus synthétiques.

Abstract

L'effondrement de modèle est la dégradation d'un modèle d'IA entraîné en boucle sur des données générées par IA, qui perd diversité et qualité jusqu'à produire des absurdités.