NVIDIA a récemment annoncé en collaboration avec l’Université Cornell aux États-Unis, le développement d’un modèle d’IA appelé “Video Latent Diffusion Model (VideoLDM)”. Ce modèle est capable de générer des vidéos de haute résolution jusqu’à 2048×1280 pixels et 24 images par seconde, d’une durée maximale de 4,7 secondes, en se basant sur des descriptions textuelles.
Le modèle VideoLDM de NVIDIA est doté de 4,1 milliards de paramètres, dont 2,7 milliards ont été utilisés pour l’entraînement. Malgré cela, NVIDIA a réussi à développer un modèle efficace de diffusion latente (Latent Diffusion Model : LDM) capable de créer des vidéos diverses, cohérentes dans le temps et de haute résolution.
Le modèle VideoLDM de NVIDIA est capable de générer des vidéos personnalisées en utilisant une méthode appelée “DreamBooth”, qui permet d’ajuster des images spécifiques pour la synthèse de vidéos à partir de textes. En utilisant une image de chat, par exemple, il est possible de générer une vidéo de chat jouant dans l’herbe en suivant les instructions données dans le texte.
Le modèle VideoLDM de NVIDIA est également capable de réaliser une synthèse de convolution dans le temps, qui permet de créer des vidéos de 174 images à 24 images par seconde, soit une durée de 7,3 secondes, bien que la qualité de l’image soit légèrement réduite.
Enfin, il est possible de générer des vidéos de conduite d’une durée de 5 minutes et d’une résolution de 1024×512 pixels. En regardant la vidéo, on peut voir que des vidéos de conduite dans différentes situations, telles que la ville, la campagne, le jour et la nuit, ont été générées.
Le modèle VideoLDM de NVIDIA sera présenté lors de la conférence technique “Computer Vision and Pattern Recognition” (CVPR) qui se tiendra à Vancouver, Canada, à partir du 18 juin 2023. Cependant, il s’agit encore d’un projet de recherche et il n’est pas clair comment NVIDIA prévoit de déployer ce modèle dans ses services ou produits.
Commentaires