ⓘ Cette page a été traduite à l'aide de l'intelligence artificielle.
D'abord les textes, puis les images, et maintenant les vidéos. Au printemps 2025, les générateurs de vidéos basés sur l'IA n'en sont encore qu'à leurs débuts. Et pourtant, malgré quelques dysfonctionnements occasionnels, des transitions saccadées et une logique parfois incohérente, ils affichent déjà des résultats impressionnants. Si les vidéos générées sont considérées comme la prochaine grande étape de l'IA, c'est en raison de leur potentiel: des modèles tels que Runway Gen-4 ou OpenAI Sora devraient permettre de créer des «modèles généraux du monde».
Accès direct au thème
Partager la page
Les générateurs vidéo IA constituent la nouvelle génération de la génération d'images et combinent images et mouvements. Vous pouvez créer des vidéos IA à partir de zéro ou modifier des vidéos existantes. Mais comment cela fonctionne-t-il techniquement, quels sont les mécanismes sous-jacents?
Les premières approches de la génération vidéo par IA s'inspirent de la génération d'images et enchaînent des images individuelles. Les systèmes modernes, en revanche, visent une compréhension physique et reproduisent le monde en respectant ces principes physiques.
AnimateDiff: fait partie des premières approches et constitue une évolution des modèles texte-image tels que Midjourney, dans lesquels les images individuelles générées sont animées de manière dynamique. Voici comment cela fonctionne:
Grâce à un entraînement à partir de données vidéo réelles, l'IA apprend à déduire les images suivantes à partir d'une image d'origine. L'IA enchaîne ensuite les images ainsi générées pour créer une vidéo.
Le hic? L'image 1 est simplement ajoutée à l'image 2, sans respecter un scénario global ni les principes physiques de notre monde. Les résultats ont souvent un effet légèrement psychédélique, montrant des objets qui se transforment les uns en les autres ou qui déconcertent par leurs légers mouvements saccadés. La conception varie d'une image à l'autre et la qualité du mouvement semble souvent peu réaliste à l'œil nu.
Exemples vidéo et informations supplémentaires sur AnimateDiff(ouvre une nouvelle fenêtre)
Sora (OpenAI): appartient à la catégorie «World Building». Cela signifie que les générateurs vidéo IA tels que Sora combinent d'une part des modèles Transformer et Diffusion et intègrent d'autre part la composante spatio-temporelle (nous t'expliquons ce que c'est plus bas). Voici comment cela fonctionne : à l'aide du modèle Transformer, l'IA prédit les mots les plus probables à venir. Elle peut ainsi transformer votre invite initiale en une invite techniquement réalisable pour la vidéo. Cela pourrait ressembler à ceci:
Le modèle de diffusion met ensuite en œuvre cette nouvelle invite. Il traite les différentes images à partir d'un bruit en plusieurs étapes – jusqu'à ce stade, le processus se déroule comme pour la génération d'images.
Pour que ces images générées puissent être assemblées de manière logique et harmonieuse, l'IA a besoin d'une compréhension physique de base. Sora y parvient grâce à ce qu'on appelle des «patchs spatio-temporels».
Que sont les patchs spatio-temporels?
L'IA développe sa compréhension de l'espace-temps en décomposant et en analysant des milliards de vidéos en leurs plus petites unités (tokens): les vidéos sont transformées en images individuelles, les images individuelles en surfaces colorées, les surfaces colorées en pixels de couleur, les pixels de couleur en chiffres. Grâce aux lois qui régissent ces chiffres, l'IA apprend à connaître les lois de notre monde physique – et à les calculer elle-même.
Trop abstrait ? L'IA apprend qu'une pomme (comme d'autres objets) tombe toujours en ligne droite vers le sol sous l'effet de la gravité. Grâce à ces connaissances acquises, OpenAI Sora peut désormais faire tomber la pomme dans la vidéo de manière très réaliste.
Exemples vidéo et informations supplémentaires sur Sora d'OpenAI(ouvre une nouvelle fenêtre)
«Je réfléchis à la manière dont le chien va se déplacer sur cette image et je génère des images similaires qui se succèdent.»
«J'ai appris les principes physiques qui régissent le fonctionnement du monde et je génère une vidéo basée sur mes connaissances du mouvement d'un chien qui saute.»
Tu as pris goût à la chose et tu souhaites créer ta propre vidéo? Tu trouveras ici les modèles les plus populaires du moment et ce qui les caractérise:
Modèle | Fournisseur | Durée du clip | Particularités |
Veo 2(ouvre une nouvelle fenêtre) | Google DeepMind | 8s (720p-4K) | Meilleure physique des mouvements, scènes détaillées et style variable, intégration dans Gemini et Vertex AI |
OpenAI Sora(ouvre une nouvelle fenêtre) | OpenAI | 20s (1080p) | Éditeur de storyboard, intégration ChatGPT |
Runway Gen-4(ouvre une nouvelle fenêtre) | Runway | 10s (30s Render) | Haute qualité cinématographique, traitement rapide, exportation 4K, personnages cohérents |
Pika 2.2(ouvre une nouvelle fenêtre) | Pika | 3-15s | Fonctions d'inpainting avec effets créatifs pour les transitions entre les scènes |
WAN 2.1(ouvre une nouvelle fenêtre) | Wan AI, Alibaba | 2-3s (720p) | Modèle open source/gratuit, capable de bien reproduire du texte chinois et anglais dans les vidéos |
La demande étant forte, le marché des générateurs vidéo se développe rapidement. Il existe déjà aujourd'hui de nombreuses IA vidéo, et leur nombre augmente chaque jour.
Mais qui a le choix a l'embarras du choix, n'est-ce pas ? C'est pourquoi nous vous recommandons de vous informer sur les capacités particulières et les domaines d'application typiques des différents modèles (vous pouvez également demander conseil à des chatbots IA tels que ChatGPT ou Perplexity) avant de choisir le modèle qui vous convient.
Le Video Generation Arena Leaderboard(ouvre une nouvelle fenêtre) fournit d'ailleurs une comparaison continue des performances.
Dans son blog, l'auteur Dan Taylor Watt a comparé de nombreux générateurs vidéo basés sur l'IA en utilisant toujours la même invite afin de tester les capacités des différents systèmes. Vous trouverez ici un aperçu des cinq générateurs les plus courants.
Générateur vidéo: VEO 2.
Générateur vidéo: Sora.
Générateur vidéo: Runway Gen-4.
Générateur vidéo: PIKA 2.
Générateur vidéo: WAN 2.
A woman pushing a buggy across a zebra crossing whilst talking on her phone and walking her whippet
(Une femme qui pousse une poussette sur un passage piéton tout en téléphonant et en promenant son lévrier)
Les modèles récents atteignent une qualité supérieure grâce à une meilleure compréhension physique. Les images et les vidéos de style photoréaliste peuvent ainsi paraître plus vraies que nature. Cela comporte à la fois des opportunités et des risques.
Nous abordons également des considérations éthiques et sociales dans notre guide numérique sur l'IA générative appliquée à l'image.
Les deepfakes vidéo sont des vidéos qui ont été manipulées à l'aide de l'IA. Des déclarations sont par exemple falsifiées ou des données personnelles sont utilisées à mauvais escient afin de superposer un visage sur un autre. Ce phénomène touche principalement les célébrités, dont les données numériques permettant de générer leur visage sont largement disponibles sur Internet.
Qu'est-ce qu'un deepfake exactement? Datenschutzgesetze.eu définit les deepfakes comme suit:
[Le terme] « deepfake » [désigne] un contenu visuel, sonore ou vidéo généré ou manipulé par l'IA qui ressemble à des personnes, des objets, des lieux, des installations ou des événements réels et qui pourrait être perçu à tort comme authentique ou véridique par une personne.
Les deepfakes se caractérisent par l'utilisation de l'IA à des fins de manipulation. Les shallowfakes se distinguent des deepfakes sur le plan conceptuel. Ils englobent les falsifications réalisées à l'aide de programmes classiques de montage et de retouche d'images.
Avec l'amélioration croissante de l'IA, il devient de plus en plus difficile de détecter les deepfakes. Voici quelques caractéristiques auxquelles vous pouvez prêter attention pour démasquer les deepfakes vidéo:
Observe les proportions du visage et de la tête : sont-elles harmonieuses ? Dans les deepfakes, la tête est parfois légèrement tournée ou posée de manière peu naturelle sur le corps. Les transitions entre le visage et le cou méritent également un second regard.
Fais attention aux sauts d'image soudains, aux angles de caméra illogiques ou aux coupures brusques. Regarde attentivement, surtout lors des changements de scène.
L'image et le son sont-ils synchronisés ? Dans les deepfakes plus anciens, les mouvements des lèvres ne correspondent souvent pas parfaitement au texte prononcé. Vérifie que la bouche forme correctement les mots (en particulier les mots difficiles).
Notre langage corporel est complexe et dépend du contexte. Dans les deepfakes, le lien naturel entre l'esprit et le corps, qui contrôle intuitivement les mouvements, fait défaut. Les mouvements dans les deepfakes peuvent donc sembler uniformes ou tout simplement ne pas correspondre à ce qui est dit ou à une émotion particulière.
Le regard d'une personne en dit long, car il peut être une forme de communication. Vérifiez donc si les yeux semblent vivants. Dans les deepfakes, les yeux sont souvent fixes, vides ou anormalement brillants. Parfois, le clignement des yeux peut également être dérangeant, car il semble robotique ou totalement absent.
Les sources lumineuses sont-elles logiques et uniformes dans l'image? Les ombres tombent-elles correctement et dans la même direction sur l'ensemble du visage et du corps? Cela peut être un indice précieux, car les deepfakes peuvent souvent être démasqués par une incohérence dans les ombres.
La représentation des mains reste un point faible chez de nombreux modèles. Observez donc attentivement les doigts de l'IA et des personnes dans la vidéo: remarquez-vous des positions étranges ou des situations irréalistes, par exemple lorsque les doigts se chevauchent ou semblent traverser un objet?
Comme pour les fake news, vérifie la source de la vidéo. Regarde la vidéo en plein écran afin de pouvoir voir le plus de détails possible. Et reste toujours méfiant et prudent: si tu n'es pas sûr de la véracité du contenu, mieux vaut ne pas partager la vidéo.
Il existe désormais des plateformes qui peuvent t'aider à démasquer les deepfakes: Deepware scanner(ouvre une nouvelle fenêtre), Deepfake-o-meter(ouvre une nouvelle fenêtre), etc. Toutefois, selon le niveau technique de la plateforme, les résultats doivent être considérés avec prudence (voir à ce sujet cette étude de février 2025)(ouvre une nouvelle fenêtre). En fin de compte, le meilleur outil reste le bon sens.
Testez vos connaissances dans le quiz Deepfake de la SRF: Êtes-vous capable de reconnaître les deepfakes?(ouvre une nouvelle fenêtre)
Nous avons rassemblé ici de plus amples informations et contenus sur le thème «Générateurs vidéo IA».
Sujet
Comment générer des vidéos?
Lorsque tu génères des vidéos, tu procèdes de la même manière que pour les images. Cependant, il y a quelques points supplémentaires à prendre en compte afin d'obtenir les vidéos que tu souhaites.
Commençons par le début: par quoi commencez-vous ? Plusieurs possibilités s'offrent à vous: le texte est généralement utilisé comme support d'entrée pour les générateurs vidéo. Cependant, certaines IA vidéo fonctionnent également avec des images.
Les vidéos générées peuvent avoir différentes utilisations:
Voici comment procéder:
Prompts comme avec une IA d'image
Si tu utilises des générateurs vidéo tels que OpenAI Sora ou Runway Gen-4, décris la scène souhaitée en détail. Informe l'IA sur:
Conseil: tu peux également faire appel à une IA textuelle et lui demander d'optimiser ta suggestion pour la conversion vidéo.
Autres conseils pour les suggestions destinées aux IA d'images
Pensez en scènes, écrivez un storyboard
Imaginez votre vidéo comme une série de mini-scènes reliées entre elles par des transitions. Afin que l'IA sache exactement ce que vous attendez d'elle, créez un storyboard avec des instructions claires pour chaque mini-scène et chaque transition. La fonction storyboard d'OpenAI Sora vous aide à diviser votre vidéo en scènes.
Conseil: ne décrivez qu'un seul mouvement par scène. L'IA respectera mieux vos instructions si vous ne lui donnez pas trop de changements à la fois. Si la scène est très chargée, demandez-vous si vous pouvez la subdiviser davantage. Vous faciliterez ainsi la tâche de l'IA et obtiendrez de meilleurs résultats.
Un exemple? Reprenons notre exemple des pommes:
Scène 1: ambiance estivale
Scène 2: travelling le long de l'arbre
Scène 3: la pomme se détache
Faites attention au format de l'image
Selon le modèle, différents formats d'image (par exemple 9:16 ou 16:9) sont disponibles. Étant donné que le traitement ultérieur de la vidéo peut réduire la qualité, il est préférable de réfléchir dès le début au format final souhaité. Et laissez l'IA le générer directement.
Testez, ajustez et régénérez
La génération vidéo par IA n'est pas une science exacte, mais un processus créatif. Et les processus créatifs sont rarement linéaires. Si deux ou trois essais par scène sont nécessaires avant que la vidéo ne corresponde à vos attentes, soyez patient avec l'IA et avec vous-même.
Conseil: de petites modifications de la consigne peuvent parfois avoir un grand effet. Voici un exemple:
Apporte la touche finale à ta vidéo
Si tu es satisfait de la vidéo générée, tu peux encore la modifier. Pour cela, tu peux utiliser d'autres outils, par exemple: Recut(ouvre une nouvelle fenêtre) te permet de raccourcir des vidéos générées par IA ou d'exporter certains extraits. Avec Remix AI Video & Images(ouvre une nouvelle fenêtre) de Google, tu peux modifier des éléments de ta vidéo de manière ciblée, par exemple remplacer une personne, modifier l'arrière-plan ou générer un nouveau mouvement.
Tu apprends mieux visuellement ou tu souhaites approfondir tes connaissances ? Dans ce cas, nous te recommandons les tutoriels IA de Futurepedia(ouvre une nouvelle fenêtre).
Check-list: partager des vidéos générées par l'IA
Comment partager de manière responsable des vidéos générées par l'IA?
Même si tu n'as pas créé toi-même une vidéo, tu deviens un maillon de la chaîne de diffusion dès que tu la partages. Sois toujours conscient de cette responsabilité.