Google et son générateur d’Ia
Aujourd’hui, Google a présenté « Imagen Video » un mode d’intelligence artificielle texte-vidéo capable de produire des vidéos 1280×768 à 24 images par seconde à partir d’une invite écrite. Il est encore actuellement en phase de recherche, mais son apparition cinq mois après Google Imagen témoigne du développement rapide des modèles de synthèse vidéo.
Six mois seulement après le lancement du générateur de texte-image DALLE-2 d’OpenAI, les progrès dans le domaine des modèles de diffusion de l’IA s’accélèrent rapidement. L’annonce d’Imagen Video par Google intervient moins d’une semaine après le dévoilement par Meta de son outil d’IA texte-vidéo, Make-A-Video.
Comment ça marche ?
Selon le document de recherche de Google, Imagen Video inclut plusieurs capacités stylistiques notables, telles que la génération de vidéos basées sur le travail de peintres célèbres (les peintures de Vincent van Gogh, par exemple), la génération d’objets rotatifs en 3D tout en préservant la structure de l’objet, et le rendu de texte dans une variété de styles d’animation.
Google espère que les modèles de synthèse vidéo à usage général pourront « réduire considérablement la difficulté de la génération de contenu de haute qualité. »
En pratique, l’IA utilise un système de « cascade » de sept modèles qui lui permet de transformer une demande initiale sous forme de texte en une vidéo basse résolution.
En détail
Imagen Video génère des vidéos haute résolution avec des modèles de diffusion en cascade . La première étape consiste à prendre une invite de texte d’entrée et à l’encoder en incorporations textuelles avec un encodeur de texte T5 . Un modèle de diffusion vidéo de base génère ensuite une vidéo de 16 images à une résolution de 24 × 48 et 3 images par seconde ; ceci est ensuite suivi de plusieurs modèles de super-résolution temporelle (TSR) et de super-résolution spatiale (SSR) pour suréchantillonner et générer une vidéo finale de 128 images à une résolution de 1280 × 768 et 24 images par seconde – résultant en 5,3 s de haute définition vidéo!
Un exemple
Le texte proposé : Une goutte d’eau tombant dans l’eau avec une énorme éclaboussure. Couché de soleil en arrière plan. Le résultat vidéo… est bluffant.
Un autre modèle de conversion de texte en vidéo, proche de Google, a également fait ses débuts officiels aujourd’hui. Appelé Phenaki, il permet de créer des vidéos plus longues à partir d’instructions détaillées. Ce lancement, ainsi que celui de DreamFusion, qui peut créer des modèles 3D à partir d’invites textuelles, montre que le développement concurrentiel des modèles de diffusion se poursuit rapidement, le nombre d’articles sur l’IA sur arXiv augmentant de manière exponentielle à un rythme qui rend difficile pour certains chercheurs de suivre les derniers développements.
Prudence cependant
Les données d’entraînement de Google Imagen Video proviennent du jeu de données image-texte LAION-400M accessible au public et de « 14 millions de paires vidéo-texte et 60 millions de paires image-texte », selon Google.
Par conséquent, il a été entraîné sur des « données complexes » filtrées par Google, mais peut toujours contenir des contenus sexuellement explicites et violents, ainsi que des stéréotypes sociaux et des préjugés culturels. L’entreprise craint également que son outil ne soit utilisé « pour générer du contenu faux, haineux, explicite ou nuisible ».
Par conséquent, il est peu probable que nous voyions une version publique de sitôt : « Nous avons décidé de ne pas diffuser le modèle Imagen Video ou son code source tant que ces préoccupations ne sont pas atténuées », déclare Google.
Nos Idées, Nos conseils…
Au Pc Bien Portant, nous continuerons à vous informer sur ces sujets passionnants. N’hésitez pas à nous suivre sur les réseaux Facebook, Twitter ou encore Instagram pour avoir le suivi de nos articles.
Source