Les IA échouent face aux graphiques complexes, révèle un benchmark
Le benchmark RealChart2Code révèle que les meilleurs modèles IA perdent près de la moitié de leurs performances face à des visualisations complexes. Claude 4.5 Opus et Gemini 3 Pro Preview dominent, mais les modèles open-source affichent des résultats bien inférieurs. L'étude met en lumière un 'écart de complexité' significatif.
Points clés
- RealChart2Code teste 14 modèles IA sur 2 800 cas basés sur des données réelles de Kaggle.
- Claude 4.5 Opus obtient le meilleur score moyen de 8,2 sur 8 critères de précision visuelle.
- Gemini 3 Pro Preview atteint 96% sur ChartMimic mais chute à 50% sur RealChart2Code.
- Les modèles open-source comme Qwen3-VL-235B échouent dans 20% des cas avec des appels API invalides.
Pourquoi c'est important
Ce benchmark expose les limites actuelles des IA génératives pour les tâches complexes de visualisation de données, cruciales en analyse business. Les professionnels devront vérifier systématiquement les sorties ou privilégier les modèles propriétaires. L'écart de performance souligne aussi le retard des solutions open-source dans ce domaine.
Public concerné : développeurs, entreprises
Quels modèles IA performent le mieux sur les graphiques complexes ?
Claude 4.5 Opus (8,2/10) et Gemini 3 Pro Preview (8,1/10) dominent, mais chutent à ~50% de performance sur les tâches complexes contre 96% sur des tests simples. Les modèles open-source obtiennent moins de la moitié de ces scores.
Commentaires (0)
Aucun commentaire pour le moment. Soyez le premier !