Score Elo
📖 Définition
💬 En termes simples
Imagine un tournoi de tennis où les joueurs reçoivent des points selon qui ils battent. Battre Rafael Nadal en finale rapporte plus de points que battre un débutant en premier tour. Avec assez de matchs, les meilleurs joueurs montent et les plus faibles descendent, sans qu'on ait besoin de demander à un juge subjectif. Le score Elo applique cette même logique aux LLM : les humains votent en aveugle entre deux réponses, et les modèles montent ou descendent automatiquement.
🎯 Exemple concret
En mai 2026, **GPT-5** et **Claude 4.7** trônent autour de **1450 points** au LMSYS Chatbot Arena, suivis de **Gemini 3** vers **1380** et **Mistral Large 3** à environ **1320**. Pour comparer : Magnus Carlsen, ancien champion du monde des échecs, a culminé à environ 2882 points Elo — l'échelle est la même, juste calibrée différemment selon le domaine.
💡 Le saviez-vous ?
Arpad Elo n'a jamais imaginé que son système servirait un jour à classer des intelligences artificielles en mai 2026. Il l'avait conçu pour les échecs, mais sa beauté mathématique fait qu'il s'applique à n'importe quelle compétition deux-à-deux : MMA, jeux vidéo, modèles d'IA, équipes de football. C'est aussi le fondement du système de matchmaking sur LinkedIn (pour ranker les profils) et même de Tinder (pour ranker les utilisateurs).