Gemini Omni : test des capacités vidéo de Google
Gemini Omni, le premier modèle any-to-any de Google, permet de générer et modifier des vidéos en combinant plusieurs types de médias. Il offre des fonctionnalités comme le remplacement d'objets ou la transformation de scènes via des descriptions textuelles, bien que certains résultats manquent encore de réalisme.
« Gemini Omni est le premier modèle 'any-to-any' de Google : il comprend et génère du texte, de l'image, de l'audio et de la vidéo de manière native. » — Journal du Net - IA
Que faut-il retenir ?
- Gemini Omni permet de générer des vidéos à partir de descriptions textuelles ou d'images.
- Le modèle peut modifier des vidéos existantes en ajoutant, supprimant ou transformant des éléments via des prompts en langage naturel.
- Il est possible de remplacer un objet dans une vidéo en fournissant une image de référence.
- Gemini Omni peut générer du son synchronisé avec l'action à l'écran, bien que les résultats audio soient parfois mitigés.
Pourquoi cette nouvelle compte-t-elle ?
Gemini Omni représente une avancée majeure dans les modèles multimodaux, offrant des outils puissants pour la création et l'édition vidéo. Les professionnels de la production vidéo, du marketing et du design peuvent gagner du temps en modifiant des séquences existantes sans avoir à tout retravailler. Cependant, certaines limitations comme des résultats audio ou visuels pas toujours parfaits montrent que la technologie a encore des progrès à faire.
Public concerné : développeurs, entreprises
Quelles sont les principales fonctionnalités vidéo de Gemini Omni ?
Gemini Omni permet de générer des vidéos à partir de descriptions textuelles ou d'images, de modifier des vidéos existantes en transformant des éléments via des prompts, et de remplacer des objets en fournissant une image de référence. Il peut aussi générer du son synchronisé avec l'action.