🔢

FATE-H et FATE-X

Aussi appelé : Formal Algebra Theorem Evaluation · FATE benchmark · FATE-M · FATE-H · FATE-X

Terme Avancé 🛠️ Outils et techniques

Mis à jour le 4 juillet 2026

FATE-H et FATE-X sont les niveaux difficile et extrêmement difficile du benchmark FATE, qui teste en Lean 4 la capacité des IA à démontrer des théorèmes d'algèbre de niveau doctorat et recherche.

📖 Définition

FATE (Formal Algebra Theorem Evaluation) est une série de benchmarks en algèbre formelle, publiée par des chercheurs de l'Université Westlake, conçue pour évaluer la capacité des IA à démontrer des théorèmes d'algèbre abstraite et commutative dans Lean 4. La série comprend trois niveaux de difficulté croissants : FATE-M (moyen), FATE-H (difficile) et FATE-X (extrêmement difficile). FATE-H rassemble 100 exercices tirés de manuels de deuxième et troisième cycle, d'examens finaux et d'examens de qualification de doctorat, chacun rédigé à la fois en langage naturel et en Lean 4. FATE-X, également composé de 100 problèmes, va plus loin : c'est le premier benchmark à dépasser à la fois le niveau des examens de qualification doctorale et la couverture de Mathlib, la grande bibliothèque mathématique de Lean, ce qui oblige parfois à formaliser des concepts pour la première fois. Les modèles y sont évalués avec la métrique pass@k (probabilité de réussir en k tentatives) ; les meilleurs modèles ne résolvent qu'un faible pourcentage de FATE-H et presque aucun problème de FATE-X, ce qui en fait un indicateur du chemin restant vers un raisonnement mathématique de niveau recherche.

💬 En termes simples

Si miniF2F et PutnamBench ressemblent à des concours de mathématiques pour étudiants brillants, FATE-H et FATE-X ressemblent plutôt à des problèmes tirés directement des thèses de doctorat et des articles de recherche en algèbre : le niveau de difficulté grimpe d'un cran supplémentaire, jusqu'à des concepts que même la bibliothèque Lean n'a pas encore formalisés.

🎯 Exemple concret

Un modèle qui obtient un score honorable sur miniF2F ou PutnamBench peut voir sa performance chuter drastiquement sur FATE-X, révélant que sa capacité de raisonnement s'effondre dès que les problèmes dépassent le niveau des concours pour atteindre celui de la recherche en algèbre.

💡 Le saviez-vous ?

FATE-X est présenté par ses créateurs comme le premier benchmark qui dépasse à la fois le niveau des examens de qualification doctorale et la couverture de Mathlib : certains de ses problèmes exigent de formaliser en Lean des notions mathématiques qui n'avaient jamais été encodées auparavant.

❓ Questions fréquentes

Quelle est la différence entre FATE-H et FATE-X ?

FATE-H (100 problèmes) correspond au niveau des examens de qualification de doctorat en algèbre ; FATE-X (100 problèmes) va plus loin et dépasse même la couverture de Mathlib, exigeant parfois de formaliser des concepts inédits.

Qui a créé la série de benchmarks FATE ?

Des chercheurs de l'Université Westlake, qui l'ont publiée sous le nom complet « Formal Algebra Theorem Evaluation », avec trois niveaux : FATE-M, FATE-H et FATE-X.

Comment les modèles d'IA sont-ils évalués sur FATE ?

Avec la métrique pass@k, qui mesure la probabilité qu'un modèle trouve une preuve Lean correcte en k tentatives ; les meilleurs modèles actuels réussissent peu sur FATE-H et presque jamais sur FATE-X.

📚 Sources

Westlake University - FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels (arXiv) (Westlake University, 2026)
frenzymath - dépôt GitHub FATE-H (frenzymath, 2026)

🔗 Termes liés

🏷️ Catégorie parente

Benchmark IA Lean 4

Accueil

Outils

Annuaire

Apprendre

FATE-H et FATE-X

FATE-H et FATE-X

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

❓ Questions fréquentes

📚 Sources

🔗 Termes liés

Ressources

À propos

Communauté

Reste à jour en veille IA

Confirmer

Accueil

Outils

Annuaire

Apprendre

FATE-H et FATE-X

FATE-H et FATE-X

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

❓ Questions fréquentes

📚 Sources

🔗 Termes liés

Termes associés