OpenAI a dévoilé un modèle d’intelligence artificielle capable de générer des vidéos avec des séquences réalistes et créatives à partir de descriptions textuelles.
Jeudi, OpenAI a présenté Sora, un modèle d’intelligence artificielle conçu pour produire des vidéos à partir de simples descriptions textuelles. Cet outil, dont le nom signifie « ciel » en japonais, peut créer des vidéos réalistes d’une minute, en respectant les consignes de l’utilisateur sur le thème et l’apparence souhaités. Sora est également capable de transformer des images en vidéos animées ou modifier des séquences existantes. Ce modèle se positionne comme un concurrent direct de Lumière, l’IA de Google, qui offre des fonctionnalités similaires.
Défis et perspectives de Sora
OpenAI, après avoir développé des outils générant texte et images, étend désormais ses capacités à la création de vidéos avec Sora. Selon son laboratoire d’IA, cette avancée est vue comme un moyen d’améliorer la modélisation des dynamiques du monde réel.
« Nous apprenons à l’IA à comprendre et à simuler le monde physique en mouvement, dans le but de former des modèles qui aident les gens à résoudre des problèmes nécessitant une interaction avec le monde réel », souligne l’entreprise dans un article de blog. Le lancement de Sora intervient plus de douze mois après celui de ChatGPT (GPT-3.5).
Une vidéo présentée par OpenAI illustre un astronaute de 30 ans dans un désert de sel, avec un style cinématographique. Sora permet aussi de créer une vidéo à partir d’une image statique ou d’étendre une séquence existante. D’autres démonstrations incluent des scènes historiques, comme la Californie lors de la ruée vers l’or.
Cependant, certaines vidéos révèlent des anomalies physiques, comme un sol déformé dans un musée, illustrant les limites actuelles du modèle. Malgré ces imperfections, OpenAI conserve une longueur d’avance sur ses concurrents. Sora pourrait révolutionner des secteurs comme l’animation 3D et le cinéma, où la reproduction réaliste des mouvements reste un défi. Les vidéos générées offrent une crédibilité remarquable dans des environnements 3D réalistes, qui surpasse les approches limitées à la 2D.
Sora pourrait également rencontrer des difficultés à maintenir une logique cohérente entre les événements d’une séquence. Pour limiter les risques de fraude, un filigrane est ajouté aux vidéos générées, bien qu’il soit possible de le supprimer.
D’ailleurs, Cette avancée technologique soulève des questions sur son impact potentiel sur le marché du travail, notamment en ce qui concerne l’estimation du salaire brut des professionnels du secteur audiovisuel.
Capacités du nouveau modèle d’IA
D’après un article de blog d’OpenAI, Sora produit des vidéos d’un réalisme avancé, offrant une grande précision dans les détails. En particulier, il génère des scènes complexes impliquant plusieurs personnages, des mouvements variés, ainsi que des éléments détaillés en arrière-plan et sur le sujet. Le modèle peut également appréhender la disposition des objets dans l’espace physique, interpréter avec exactitude les accessoires et créer des personnages expressifs. Toutefois, OpenAI précise que, pour l’instant, la durée des vidéos générées par Sora est limitée à 60 secondes.
Actuellement, Sora est uniquement accessible aux membres des « Red teams », chargés d’évaluer les risques potentiels liés au modèle. Ces spécialistes examinent la technologie afin de garantir son respect des règles établies par OpenAI, qui interdisent notamment la violence excessive, les contenus sexuellement explicites, les discours haineux, l’utilisation de l’image de personnalités publiques et les atteintes aux droits d’auteur. Par ailleurs, des professionnels de la création (concepteurs, artistes, cinéastes) ont accès au modèle afin de partager leurs retours.
À terme, l’essor de ces outils pourrait influencer l’estimation du salaire brut dans ces secteurs, en redéfinissant la valeur des compétences humaines face aux contenus générés artificiellement.
Cet article vous a-t-il été utile ?
Note moyenne 0 / 5. Votants: 0