Seuls trois modèles d'IA réussissent le test CEO-Bench
Le benchmark CEO-Bench simule la gestion d'une startup sur 500 jours pour tester l'intelligence stratégique des IA. Sur 14 modèles testés, seuls trois ont terminé avec un capital supérieur au départ : Claude Fable 5, Claude Opus 4.8 et GPT-5.5.
« Only three models finish their best run above the starting capital of one million dollars: Claude Fable 5 at $47.15 million, Claude Opus 4.8 at $27.8 million, and GPT-5.5 at $21.3 million. » — The Decoder
Que faut-il retenir ?
- CEO-Bench simule la gestion d'une startup sur 500 jours pour tester l'intelligence stratégique des IA.
- L'IA gère NovaMind, une entreprise fictive de logiciels avec zéro client et un million de dollars en banque.
- Seuls trois modèles sur 14 ont terminé avec un capital supérieur au départ : Claude Fable 5, Claude Opus 4.8 et GPT-5.5.
- Claude Fable 5 a atteint 47,15 millions de dollars, le meilleur résultat parmi les modèles testés.
Pourquoi cette nouvelle compte-t-elle ?
Ce test montre que les IA actuelles ont encore du mal à gérer des stratégies à long terme, malgré leurs progrès dans des tâches individuelles. Cela souligne l'importance de développer des modèles capables de piloter des organisations sur des horizons temporels étendus, un défi crucial pour l'avenir de l'IA en entreprise.
47,15 millions de dollars atteints par Claude Fable 5
Public concerné : entreprises
Quels modèles d'IA ont réussi le test CEO-Bench ?
Seuls trois modèles ont terminé avec un capital supérieur au départ : Claude Fable 5, Claude Opus 4.8 et GPT-5.5. Claude Fable 5 a obtenu le meilleur résultat avec 47,15 millions de dollars.