Latence (latency)
Mis à jour le
La latence est le délai entre une demande et le début de la réponse ; en IA, le temps avant le premier mot (TTFT) détermine surtout l'impression de réactivité.
📖 Définition
💬 En termes simples
C'est le temps entre le moment où vous passez commande au restaurant et celui où le serveur dépose la première assiette : peu importe la vitesse à laquelle les plats suivants arrivent ensuite (le débit), c'est ce premier délai d'attente qui détermine si le service vous semble réactif.
🎯 Exemple concret
Vous cliquez sur « Envoyer » dans un clavardage IA ; selon le modèle, le réseau et la charge des serveurs, les premiers mots apparaissent après quelques centaines de millisecondes à plusieurs secondes. Ce délai initial avant le premier mot, c'est la latence (le TTFT).
💡 Le saviez-vous ?
Dans un clavardage IA, c'est le « temps jusqu'au premier mot » (TTFT) qui crée l'impression de réactivité, bien plus que la vitesse des mots suivants : un assistant qui commence à répondre vite « paraît » plus rapide, même s'il génère ensuite au même rythme qu'un autre.