Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

PutnamBench

🏆

PutnamBench

Aussi appelé : Putnam Bench · Putnam benchmark

Terme Avancé 🛠️ Outils et techniques

Mis à jour le

PutnamBench est un benchmark de 640 problèmes du concours universitaire William Lowell Putnam, formalisés en Lean 4, Isabelle et Coq, utilisé pour évaluer la capacité des IA à démontrer des théorèmes mathématiques complexes.

📖 Définition

PutnamBench est un benchmark de raisonnement mathématique qui formalise 640 problèmes du William Lowell Putnam Mathematical Competition, un concours universitaire nord-américain réputé pour sa difficulté, couvrant les éditions de 1962 à 2024. Chaque problème est traduit dans plusieurs assistants de preuve formelle : Lean 4, Isabelle et, pour un sous-ensemble, Coq, pour un total de 1709 formalisations disponibles. Les problèmes couvrent un large éventail de domaines (algèbre, analyse, théorie des nombres, géométrie, combinatoire) et sont réputés exiger de la créativité mathématique plutôt que l'application mécanique d'une méthode. PutnamBench sert à évaluer des systèmes d'IA de démonstration automatique de théorèmes (neural theorem-provers) : au moment de sa publication, les méthodes existantes ne parvenaient à résoudre qu'une faible proportion des problèmes, ce qui en fait un test exigeant pour mesurer les progrès du raisonnement mathématique formel des modèles d'IA.

💬 En termes simples

C'est comme faire passer à une IA les questions d'un concours universitaire réputé difficile, mais en exigeant en plus que chaque solution soit rédigée dans un langage si précis qu'un ordinateur puisse vérifier lui-même, sans aucune ambiguïté, qu'elle est correcte.

🎯 Exemple concret

Un laboratoire de recherche teste son nouveau modèle de raisonnement sur les 640 problèmes formalisés en Lean 4 de PutnamBench et communique le nombre de problèmes résolus, ce score devenant un indicateur comparable de la progression du raisonnement mathématique de l'IA d'une année à l'autre.

💡 Le saviez-vous ?

Le concours Putnam, dont s'inspire PutnamBench, est réputé pour sa difficulté extrême : il n'est pas rare que la médiane des scores des participants, pourtant déjà des étudiants universitaires très forts en mathématiques, soit proche de zéro sur douze problèmes.

❓ Questions fréquentes

D'où viennent les problèmes de PutnamBench ?
Du William Lowell Putnam Mathematical Competition, un concours de mathématiques universitaire nord-américain réputé pour sa difficulté, couvrant les éditions de 1962 à 2024 : 640 problèmes ont été sélectionnés et formalisés.
Dans quels langages formels PutnamBench est-il disponible ?
Les problèmes sont formalisés en Lean 4 et en Isabelle pour l'ensemble du corpus, et en Coq pour un sous-ensemble, soit 1709 formalisations au total.
PutnamBench est-il facile à résoudre pour une IA ?
Non : à sa publication, les systèmes de démonstration automatique existants, neuronaux comme symboliques, ne parvenaient à résoudre qu'une faible proportion des 640 problèmes.

🔗 Termes liés

🏷️ Catégorie parente

🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !