Granite 4.1 : Modèles LLMs Performants et Innovants
Les modèles Granite 4.1, comprenant des architectures de 3B, 8B et 30B, sont formés sur environ 15T de tokens avec un pipeline de pré-entraînement en cinq phases. Le modèle 8B surpasse le Granite 4.0-H-Small, malgré une architecture plus simple.
Points clés
- Granite 4.1 utilise un pipeline de pré-entraînement en cinq phases, incluant une extension de contexte jusqu'à 512K tokens.
- Le modèle 8B atteint ou dépasse les performances du Granite 4.0-H-Small, malgré moins de paramètres.
- La phase 1 de pré-entraînement utilise 10T de tokens avec 59% de données web générales provenant de CommonCrawl.
- La phase 2 augmente la proportion de données mathématiques à 35% et de code à 30%, renforçant les capacités de raisonnement.
Pourquoi c'est important
La conception rigoureuse des modèles Granite 4.1, axée sur la qualité des données, améliore les performances en mathématiques, en programmation et en interaction générale. Cela représente une avancée significative pour les développeurs et les entreprises cherchant à intégrer des LLMs performants dans leurs applications.
Public concerné : développeurs, entreprises
Quels sont les avantages des modèles Granite 4.1 par rapport aux versions précédentes ?
Les modèles Granite 4.1 offrent des performances améliorées grâce à une architecture optimisée et un pré-entraînement rigoureux sur 15T de tokens, surpassant même le Granite 4.0-H-Small avec moins de paramètres.
Commentaires (0)
Aucun commentaire pour le moment. Soyez le premier !