Seuls trois modèles d'IA réussissent le test CEO-Bench

5 min de lecture · The Decoder · Maximilian Schreiner · 28/06/2026 IA générative 8/10 Élevé

Le benchmark CEO-Bench simule la gestion d'une startup sur 500 jours pour tester l'intelligence stratégique des IA. Sur 14 modèles testés, seuls trois ont terminé avec un capital supérieur au départ : Claude Fable 5, Claude Opus 4.8 et GPT-5.5.

« Only three models finish their best run above the starting capital of one million dollars: Claude Fable 5 at $47.15 million, Claude Opus 4.8 at $27.8 million, and GPT-5.5 at $21.3 million. » — The Decoder

Que faut-il retenir ?

CEO-Bench simule la gestion d'une startup sur 500 jours pour tester l'intelligence stratégique des IA.
L'IA gère NovaMind, une entreprise fictive de logiciels avec zéro client et un million de dollars en banque.
Seuls trois modèles sur 14 ont terminé avec un capital supérieur au départ : Claude Fable 5, Claude Opus 4.8 et GPT-5.5.
Claude Fable 5 a atteint 47,15 millions de dollars, le meilleur résultat parmi les modèles testés.

Pourquoi cette nouvelle compte-t-elle ?

Ce test montre que les IA actuelles ont encore du mal à gérer des stratégies à long terme, malgré leurs progrès dans des tâches individuelles. Cela souligne l'importance de développer des modèles capables de piloter des organisations sur des horizons temporels étendus, un défi crucial pour l'avenir de l'IA en entreprise.

47,15 millions de dollars atteints par Claude Fable 5

Public concerné : entreprises

Quels modèles d'IA ont réussi le test CEO-Bench ?

Seuls trois modèles ont terminé avec un capital supérieur au départ : Claude Fable 5, Claude Opus 4.8 et GPT-5.5. Claude Fable 5 a obtenu le meilleur résultat avec 47,15 millions de dollars.

Voir l'article original → Lire en français

← Retour aux actualités

Accueil

Outils

Annuaire

Apprendre