Nemotron OCR v2 : révolution de l'OCR multilingue
Nemotron OCR v2, un modèle OCR multilingue, utilise des données synthétiques pour améliorer la précision et la vitesse. Avec 12 millions d'images synthétiques, il réduit les scores NED de 0.56–0.92 à 0.035–0.069 pour les langues non anglaises.
Points clés
- Nemotron OCR v2 utilise 12 millions d'images synthétiques pour entraîner le modèle.
- Les scores NED sont passés de 0.56–0.92 à 0.035–0.069 pour les langues non anglaises.
- Le modèle traite 34.7 pages/seconde sur une seule GPU A100.
- Le jeu de données est disponible publiquement sur nvidia/OCR-Synthetic-Multilingual-v1.
Pourquoi c'est important
Nemotron OCR v2 montre comment les données synthétiques peuvent surmonter les limites des données annotées manuellement ou extraites du web. Cela permet de créer des modèles OCR multilingues précis et rapides, essentiels pour les applications nécessitant une reconnaissance de texte fiable dans plusieurs langues.
Public concerné : développeurs, entreprises
Comment Nemotron OCR v2 améliore-t-il la précision des modèles OCR multilingues ?
Nemotron OCR v2 utilise 12 millions d'images synthétiques pour entraîner le modèle, réduisant les scores NED de 0.56–0.92 à 0.035–0.069 pour les langues non anglaises, tout en augmentant la vitesse de traitement.
Commentaires (0)
Aucun commentaire pour le moment. Soyez le premier !