Text-to-video (texte vers vidéo)

Terme Intermédiaire 🤖 Intelligence artificielle

Mis à jour le 22 juillet 2026

En bref

Le text-to-video génère une séquence vidéo à partir d'une description textuelle, en assurant la cohérence temporelle entre les images.

📖 Définition

Le text-to-video (texte vers vidéo) désigne les modèles d'IA générative capables de produire une séquence vidéo à partir d'une simple description textuelle (un prompt). C'est l'extension à la vidéo du text-to-image : au défi de générer des images plausibles s'ajoute celui de la cohérence temporelle — les objets, personnages et décors doivent rester stables et se déplacer de façon réaliste d'une image à l'autre, avec un mouvement fluide. Les architectures récentes combinent généralement des modèles de diffusion et des transformeurs : la vidéo est représentée comme une suite de « patches » spatio-temporels que le modèle apprend à débruiter, souvent dans un espace latent compressé pour réduire le coût de calcul. OpenAI a marqué les esprits en 2024 avec Sora ; Google (Veo), Runway, Pika ou Kling proposent des modèles comparables. Les clips générés restent courts (de quelques secondes à environ une minute) et peuvent présenter des incohérences physiques (objets qui apparaissent ou se déforment). Les usages explorés vont du prototypage publicitaire à l'illustration et au cinéma, mais soulèvent des questions de droits d'auteur, de désinformation (hypertrucages) et de coût énergétique. C'est l'une des frontières les plus actives de l'IA générative.

💬 En termes simples

C'est comme dicter un mini scénario à un studio d'animation instantané : tu décris « un chat astronaute qui flotte dans une cuisine », et la machine tourne et monte les images, plan par plan, en veillant à ce que le chat reste le même tout au long du clip.

🎯 Exemple concret

À partir du prompt « une vague géante déferle au ralenti sur une plage au coucher du soleil », un modèle text-to-video produit un clip de quelques secondes montrant la vague en mouvement, avec lumière et écume cohérentes d'une image à l'autre.

💡 Le saviez-vous ?

Le plus dur en text-to-video n'est pas de faire de belles images, mais d'assurer la cohérence temporelle : sans elle, un personnage changerait de visage ou de vêtements à chaque image. C'est pourquoi ces modèles raisonnent sur des « morceaux » d'espace ET de temps à la fois.

❓ Questions fréquentes

Quelle différence avec le text-to-image ?

Le text-to-image produit une image fixe ; le text-to-video doit en plus garantir la cohérence dans le temps — un mouvement fluide et des objets stables d'une image à l'autre — ce qui est nettement plus difficile.

Quelle est la durée des vidéos générées ?

Encore courte en 2025-2026 : de quelques secondes à environ une minute selon les modèles (Sora, Veo, Runway, Kling), avec parfois des incohérences physiques sur les clips plus longs.

Accueil

Outils

Annuaire

Apprendre