Encodage positionnel
Mis à jour le
L'encodage positionnel ajoute à chaque token l'information de sa place dans la séquence, pour qu'un Transformer — dont l'attention ignore l'ordre — tienne compte de la position des mots.
📖 Définition
💬 En termes simples
C'est comme numéroter les wagons d'un train : les wagons (tokens) ont chacun leur contenu, mais sans numéro on ne saurait pas dans quel ordre ils sont attelés — l'encodage positionnel est ce numéro collé sur chaque wagon.
🎯 Exemple concret
« Le chat mange la souris » et « La souris mange le chat » contiennent les mêmes mots : sans encodage positionnel, le Transformer ne pourrait pas les distinguer ; avec lui, l'ordre — et donc le sens — est préservé.
💡 Le saviez-vous ?
L'encodage positionnel sinusoïdal d'origine n'a aucun paramètre à apprendre : il se calcule par des fonctions sinus et cosinus de fréquences différentes, ce qui aide le modèle à généraliser à des longueurs de séquence jamais vues à l'entraînement.