Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

KV cache

KV cache

KV cache

Key-Value cache (cache attention)

Terme IA Avancé

📖 Définition

Le KV cache est l'optimisation technique fondamentale qui rend les LLM exploitables en production. Dans le mécanisme d'attention d'un Transformer, chaque token génère trois vecteurs : Query, Key, Value. Sans KV cache, générer le 1000e token oblige à recalculer les K et V des 999 précédents — coût quadratique. Avec KV cache, ces vecteurs sont conservés en mémoire GPU et réutilisés. Résultat : génération linéaire au lieu de quadratique. Pour une PME québécoise qui héberge son propre LLM, dimensionner le KV cache détermine directement le coût d'inférence et la longueur de contexte gérable.

💬 En termes simples

C'est garder ouverts les chapitres déjà lus d'un livre au lieu de les rouvrir à chaque fois qu'on tourne une page.

🎯 Exemple concret

Une équipe IT de Boucherville héberge un Llama 3 70B local — en activant le PagedAttention pour optimiser le KV cache, elle passe de 8 utilisateurs simultanés à 32 sur le même serveur, économisant 12 000 $/mois.

💡 Le saviez-vous ?

En 2026, plus de 60 % de la mémoire GPU d'un déploiement LLM en production est typiquement consacrée au KV cache — l'optimiser est devenu un domaine de recherche actif (vLLM, FlashAttention, MLA).

🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !