Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

FATE-H et FATE-X

🔢

FATE-H et FATE-X

Aussi appelé : Formal Algebra Theorem Evaluation · FATE benchmark · FATE-M · FATE-H · FATE-X

Terme Avancé 🛠️ Outils et techniques

Mis à jour le

FATE-H et FATE-X sont les niveaux difficile et extrêmement difficile du benchmark FATE, qui teste en Lean 4 la capacité des IA à démontrer des théorèmes d'algèbre de niveau doctorat et recherche.

📖 Définition

FATE (Formal Algebra Theorem Evaluation) est une série de benchmarks en algèbre formelle, publiée par des chercheurs de l'Université Westlake, conçue pour évaluer la capacité des IA à démontrer des théorèmes d'algèbre abstraite et commutative dans Lean 4. La série comprend trois niveaux de difficulté croissants : FATE-M (moyen), FATE-H (difficile) et FATE-X (extrêmement difficile). FATE-H rassemble 100 exercices tirés de manuels de deuxième et troisième cycle, d'examens finaux et d'examens de qualification de doctorat, chacun rédigé à la fois en langage naturel et en Lean 4. FATE-X, également composé de 100 problèmes, va plus loin : c'est le premier benchmark à dépasser à la fois le niveau des examens de qualification doctorale et la couverture de Mathlib, la grande bibliothèque mathématique de Lean, ce qui oblige parfois à formaliser des concepts pour la première fois. Les modèles y sont évalués avec la métrique pass@k (probabilité de réussir en k tentatives) ; les meilleurs modèles ne résolvent qu'un faible pourcentage de FATE-H et presque aucun problème de FATE-X, ce qui en fait un indicateur du chemin restant vers un raisonnement mathématique de niveau recherche.

💬 En termes simples

Si miniF2F et PutnamBench ressemblent à des concours de mathématiques pour étudiants brillants, FATE-H et FATE-X ressemblent plutôt à des problèmes tirés directement des thèses de doctorat et des articles de recherche en algèbre : le niveau de difficulté grimpe d'un cran supplémentaire, jusqu'à des concepts que même la bibliothèque Lean n'a pas encore formalisés.

🎯 Exemple concret

Un modèle qui obtient un score honorable sur miniF2F ou PutnamBench peut voir sa performance chuter drastiquement sur FATE-X, révélant que sa capacité de raisonnement s'effondre dès que les problèmes dépassent le niveau des concours pour atteindre celui de la recherche en algèbre.

💡 Le saviez-vous ?

FATE-X est présenté par ses créateurs comme le premier benchmark qui dépasse à la fois le niveau des examens de qualification doctorale et la couverture de Mathlib : certains de ses problèmes exigent de formaliser en Lean des notions mathématiques qui n'avaient jamais été encodées auparavant.

❓ Questions fréquentes

Quelle est la différence entre FATE-H et FATE-X ?
FATE-H (100 problèmes) correspond au niveau des examens de qualification de doctorat en algèbre ; FATE-X (100 problèmes) va plus loin et dépasse même la couverture de Mathlib, exigeant parfois de formaliser des concepts inédits.
Qui a créé la série de benchmarks FATE ?
Des chercheurs de l'Université Westlake, qui l'ont publiée sous le nom complet « Formal Algebra Theorem Evaluation », avec trois niveaux : FATE-M, FATE-H et FATE-X.
Comment les modèles d'IA sont-ils évalués sur FATE ?
Avec la métrique pass@k, qui mesure la probabilité qu'un modèle trouve une preuve Lean correcte en k tentatives ; les meilleurs modèles actuels réussissent peu sur FATE-H et presque jamais sur FATE-X.

🔗 Termes liés

🏷️ Catégorie parente

🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !