Décodage spéculatif
Speculative decoding
📖 Définition
💬 En termes simples
C'est un éclaireur rapide qui propose le chemin et un général prudent qui valide ou corrige — résultat : on arrive plus vite à destination.
🎯 Exemple concret
Un chatbot de support client à Québec passe d'une latence moyenne de 4,2 secondes à 1,3 seconde par réponse en activant le décodage spéculatif sur son LLM — sans aucune dégradation perceptible de la qualité.
💡 Le saviez-vous ?
En 2026, plusieurs frameworks open source (vLLM, TensorRT-LLM) intègrent le décodage spéculatif par défaut — ne pas l'activer revient à payer 3× trop cher son inférence.