Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

miniF2F

📐

miniF2F

Aussi appelé : mini Formal-to-Formal · mini-F2F

Terme Avancé 🛠️ Outils et techniques

Mis à jour le

miniF2F est un benchmark de 244 problèmes de mathématiques de niveau olympiade, formalisés dans Lean et d'autres assistants de preuve, utilisé pour évaluer la capacité des IA à démontrer des théorèmes.

📖 Définition

miniF2F est un benchmark de mathématiques formelles de niveau olympiade, créé en 2021 par Kunhao Zheng, Jesse Michael Han et Stanislas Polu (alors chez OpenAI), pour comparer des systèmes de démonstration automatique de théorèmes. Il rassemble 244 énoncés provenant de concours comme l'AMC, l'AIME et les Olympiades internationales de mathématiques (OIM), ainsi que de cours de niveau secondaire et universitaire. Chaque énoncé est traduit dans plusieurs assistants de preuve formelle (Lean, Metamath, Isabelle, HOL Light), ce qui permet de mesurer les progrès d'une IA en « formal to formal » : prouver un énoncé mathématique déjà formalisé, dans le même langage formel. Depuis sa publication, miniF2F sert de référence pour évaluer les modèles de langage spécialisés en raisonnement mathématique rigoureux, notamment ceux qui s'appuient sur Lean 4.

💬 En termes simples

C'est un peu comme faire passer le même examen de mathématiques, traduit dans plusieurs langues, à des étudiants formés dans des écoles différentes : on peut ainsi comparer équitablement leurs résultats, peu importe l'assistant de preuve qu'ils utilisent.

🎯 Exemple concret

Un laboratoire qui entraîne un nouveau modèle de raisonnement mathématique le fait tourner sur les 244 problèmes de miniF2F traduits en Lean 4, puis publie son taux de réussite : ce chiffre devient un point de comparaison standard face aux autres modèles testés sur le même jeu de problèmes.

💡 Le saviez-vous ?

Le nom « miniF2F » vient de « formal-to-formal » (F2F) : contrairement à d'autres benchmarks qui demandent de traduire un énoncé en langage naturel vers un langage formel, miniF2F part d'énoncés déjà formalisés et demande seulement de produire la preuve, ce qui isole la capacité de raisonnement pur du modèle.

❓ Questions fréquentes

Combien de problèmes contient miniF2F ?
La version originale (v1) de miniF2F contient 244 énoncés traduits en Lean et en Metamath, avec un sous-ensemble en Isabelle et en HOL Light, provenant de concours comme l'AMC, l'AIME et les OIM.
Qui a créé miniF2F ?
miniF2F a été créé par Kunhao Zheng, Jesse Michael Han et Stanislas Polu, alors chez OpenAI, et présenté dans un article de 2021 intitulé « MiniF2F: a cross-system benchmark for formal Olympiad-level mathematics ».
À quoi sert miniF2F ?
Il sert de référence commune pour comparer la capacité de différents systèmes d'IA, souvent basés sur Lean 4, à démontrer automatiquement des théorèmes mathématiques de niveau concours.

📚 Sources

🔗 Termes liés

🏷️ Catégorie parente

🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !