«Chère IA, transforme cette vieille
photo de famille en vidéo.»

ⓘ​  Cette page a été traduite à l'aide de l'intelligence artificielle.

13 minutes

Générateurs vidéo IA: prenez les commandes

D'abord les textes, puis les images, et maintenant les vidéos. Au printemps 2025, les générateurs de vidéos basés sur l'IA n'en sont encore qu'à leurs débuts. Et pourtant, malgré quelques dysfonctionnements occasionnels, des transitions saccadées et une logique parfois incohérente, ils affichent déjà des résultats impressionnants. Si les vidéos générées sont considérées comme la prochaine grande étape de l'IA, c'est en raison de leur potentiel: des modèles tels que Runway Gen-4 ou OpenAI Sora devraient permettre de créer des «modèles généraux du monde».

L'essentiel en bref:

Sujet

Comment fonctionnent les générateurs vidéo IA?

Les générateurs vidéo IA constituent la nouvelle génération de la génération d'images et combinent images et mouvements. Vous pouvez créer des vidéos IA à partir de zéro ou modifier des vidéos existantes. Mais comment cela fonctionne-t-il techniquement, quels sont les mécanismes sous-jacents?

Les premières approches de la génération vidéo par IA s'inspirent de la génération d'images et enchaînent des images individuelles. Les systèmes modernes, en revanche, visent une compréhension physique et reproduisent le monde en respectant ces principes physiques.

AnimateDiff: fait partie des premières approches et constitue une évolution des modèles texte-image tels que Midjourney, dans lesquels les images individuelles générées sont animées de manière dynamique. Voici comment cela fonctionne:

Grâce à un entraînement à partir de données vidéo réelles, l'IA apprend à déduire les images suivantes à partir d'une image d'origine. L'IA enchaîne ensuite les images ainsi générées pour créer une vidéo.

Le hic? L'image 1 est simplement ajoutée à l'image 2, sans respecter un scénario global ni les principes physiques de notre monde. Les résultats ont souvent un effet légèrement psychédélique, montrant des objets qui se transforment les uns en les autres ou qui déconcertent par leurs légers mouvements saccadés. La conception varie d'une image à l'autre et la qualité du mouvement semble souvent peu réaliste à l'œil nu.  
 
Exemples vidéo et informations supplémentaires sur AnimateDiff(ouvre une nouvelle fenêtre)

Sora (OpenAI): appartient à la catégorie «World Building». Cela signifie que les générateurs vidéo IA tels que Sora combinent d'une part des modèles Transformer et Diffusion et intègrent d'autre part la composante spatio-temporelle (nous t'expliquons ce que c'est plus bas). Voici comment cela fonctionne : à l'aide du modèle Transformer, l'IA prédit les mots les plus probables à venir. Elle peut ainsi transformer votre invite initiale en une invite techniquement réalisable pour la vidéo. Cela pourrait ressembler à ceci: 

  1. Votre suggestion: Une pomme tombe de l'arbre.   
  2. Généré instantanément par Transformer: une chaude journée d'été dans un verger idyllique. La lumière dorée du soleil inonde la scène, l'air vibre légèrement. La caméra se déplace doucement de bas en haut le long du tronc d'un pommier (tracking shot). Au ralenti, une pomme rouge vif se détache d'une branche. La caméra passe en mode suivi (follow shot) tandis que la pomme tombe lentement vers le sol. Tandis qu'elle tourne dans les airs, la lumière se reflète sur sa surface brillante. Elle finit par atterrir avec un léger «plop» dans un panier tressé rempli d'autres pommes rouges. La caméra zoome pour montrer le mouvement d'impact en ultra-ralenti. Le bruit doux du vent et le chant des oiseaux accompagnent la scène.

Le modèle de diffusion met ensuite en œuvre cette nouvelle invite. Il traite les différentes images à partir d'un bruit en plusieurs étapes – jusqu'à ce stade, le processus se déroule comme pour la génération d'images.   

Pour que ces images générées puissent être assemblées de manière logique et harmonieuse, l'IA a besoin d'une compréhension physique de base. Sora y parvient grâce à ce qu'on appelle des «patchs spatio-temporels».  

Que sont les patchs spatio-temporels?  
L'IA développe sa compréhension de l'espace-temps en décomposant et en analysant des milliards de vidéos en leurs plus petites unités (tokens): les vidéos sont transformées en images individuelles, les images individuelles en surfaces colorées, les surfaces colorées en pixels de couleur, les pixels de couleur en chiffres. Grâce aux lois qui régissent ces chiffres, l'IA apprend à connaître les lois de notre monde physique – et à les calculer elle-même.

Trop abstrait ? L'IA apprend qu'une pomme (comme d'autres objets) tombe toujours en ligne droite vers le sol sous l'effet de la gravité. Grâce à ces connaissances acquises, OpenAI Sora peut désormais faire tomber la pomme dans la vidéo de manière très réaliste.
 
Exemples vidéo et informations supplémentaires sur Sora d'OpenAI(ouvre une nouvelle fenêtre)

Selon la devise

AnimateDiff

«Je réfléchis à la manière dont le chien va se déplacer sur cette image et je génère des images similaires qui se succèdent.»

 
Sora

«J'ai appris les principes physiques qui régissent le fonctionnement du monde et je génère une vidéo basée sur mes connaissances du mouvement d'un chien qui saute.»

Sujet

Quels seront les meilleurs générateurs
de vidéos en 2025?  

Tu as pris goût à la chose et tu souhaites créer ta propre vidéo? Tu trouveras ici les modèles les plus populaires du moment et ce qui les caractérise:

Modèle Fournisseur Durée du clip Particularités
Veo 2(ouvre une nouvelle fenêtre) Google DeepMind 8s (720p-4K) Meilleure physique des mouvements, scènes détaillées et style variable, intégration dans Gemini et Vertex AI
OpenAI Sora(ouvre une nouvelle fenêtre) OpenAI 20s (1080p) Éditeur de storyboard, intégration ChatGPT
Runway Gen-4(ouvre une nouvelle fenêtre) Runway 10s (30s Render) Haute qualité cinématographique, traitement rapide, exportation 4K, personnages cohérents
Pika 2.2(ouvre une nouvelle fenêtre) Pika 3-15s Fonctions d'inpainting avec effets créatifs pour les transitions entre les scènes
WAN 2.1(ouvre une nouvelle fenêtre) Wan AI, Alibaba 2-3s (720p) Modèle open source/gratuit, capable de bien reproduire du texte chinois et anglais dans les vidéos

Et ce n'est pas tout!

La demande étant forte, le marché des générateurs vidéo se développe rapidement. Il existe déjà aujourd'hui de nombreuses IA vidéo, et leur nombre augmente chaque jour.

Mais qui a le choix a l'embarras du choix, n'est-ce pas ? C'est pourquoi nous vous recommandons de vous informer sur les capacités particulières et les domaines d'application typiques des différents modèles (vous pouvez également demander conseil à des chatbots IA tels que ChatGPT ou Perplexity) avant de choisir le modèle qui vous convient.

Le Video Generation Arena Leaderboard(ouvre une nouvelle fenêtre) fournit d'ailleurs une comparaison continue des performances.

Sujet

Comment générer des vidéos?

Lorsque tu génères des vidéos, tu procèdes de la même manière que pour les images. Cependant, il y a quelques points supplémentaires à prendre en compte afin d'obtenir les vidéos que tu souhaites.

Commençons par le début: par quoi commencez-vous ? Plusieurs possibilités s'offrent à vous: le texte est généralement utilisé comme support d'entrée pour les générateurs vidéo. Cependant, certaines IA vidéo fonctionnent également avec des images.  

Les vidéos générées peuvent avoir différentes utilisations:  

  • Dans le domaine privé: courtes vidéos pour TikTok, Reels ou Stories; vidéos personnelles de salutations ou d'invitation; souvenirs
  • Dans le domaine de l'apprentissage: vidéos explicatives; excursions virtuelles; donner vie à des images historiques; former à la compétence médiatique en créant délibérément des exemples de deepfakes
  • Si tu veux être créatif: projets vidéo expérimentaux; projets musicaux, storytelling
  • Au travail: marketing de contenu; vidéos de formation; brainstorming et prototypage

Voici comment procéder:

Si tu utilises des générateurs vidéo tels que OpenAI Sora ou Runway Gen-4, décris la scène souhaitée en détail. Informe l'IA sur: 

  • Contenu: que voit-on?
  • Style: cinématographique, animé, 3D, surréaliste, rétro, documentaire, etc.
  • Mouvement: quelle perspective et quel mouvement la caméra filme-t-elle? Y a-t-il un zoom, un ralenti ou un changement de perspective dans la scène?
  • Détails: détails atmosphériques tels que la lumière, la météo, les couleurs, etc.

Conseil: tu peux également faire appel à une IA textuelle et lui demander d'optimiser ta suggestion pour la conversion vidéo.

Autres conseils pour les suggestions destinées aux IA d'images

Imaginez votre vidéo comme une série de mini-scènes reliées entre elles par des transitions. Afin que l'IA sache exactement ce que vous attendez d'elle, créez un storyboard avec des instructions claires pour chaque mini-scène et chaque transition. La fonction storyboard d'OpenAI Sora vous aide à diviser votre vidéo en scènes.  

Conseil: ne décrivez qu'un seul mouvement par scène. L'IA respectera mieux vos instructions si vous ne lui donnez pas trop de changements à la fois. Si la scène est très chargée, demandez-vous si vous pouvez la subdiviser davantage. Vous faciliterez ainsi la tâche de l'IA et obtiendrez de meilleurs résultats.

Un exemple? Reprenons notre exemple des pommes:

Scène 1: ambiance estivale

  • Cadrage: plan large d'un verger baigné de soleil.
  • Détails: les herbes ondulent légèrement, les rayons du soleil percent à travers la cime des arbres.
  • Son: chant des oiseaux, léger bruissement du vent.
  • Durée: 2 secondes

 Scène 2: travelling le long de l'arbre

  • Cadrage: travelling lent de bas en haut le long du tronc de l'arbre.
  • Détails: écorce au premier plan, reflets de lumière scintillant à travers le feuillage.
  • Son: atmosphère naturelle calme.
  • Durée: 2 secondes

Scène 3: la pomme se détache

  • Cadrage: gros plan sur une pomme rouge et bien mûre.
  • Détails: au ralenti, elle se détache lentement de la branche – la tige se rompt de manière visible.
  • Lumière: reflets brillants sur la peau de la pomme, reflets du soleil dansant à la surface.
  • Son: léger craquement lors du détachement.
  • Durée: 2 secondes

Selon le modèle, différents formats d'image (par exemple 9:16 ou 16:9) sont disponibles. Étant donné que le traitement ultérieur de la vidéo peut réduire la qualité, il est préférable de réfléchir dès le début au format final souhaité. Et laissez l'IA le générer directement.

La génération vidéo par IA n'est pas une science exacte, mais un processus créatif. Et les processus créatifs sont rarement linéaires. Si deux ou trois essais par scène sont nécessaires avant que la vidéo ne corresponde à vos attentes, soyez patient avec l'IA et avec vous-même. 

Conseil: de petites modifications de la consigne peuvent parfois avoir un grand effet. Voici un exemple:

  • Consigne initiale: un jour d'été, une pomme rouge tombe d'un arbre dans un panier rempli de pommes.
  • Variante 1 – plus d'émotions: au ralenti, une pomme rouge brillante tombe d'un arbre tandis que des nuages sombres s'amoncellent à l'arrière-plan. La pomme atterrit dans le panier avec un bruit sourd.
  • Variante 2 – plus féérique: une pomme entièrement rouge (comme celle de Blanche-Neige) tombe d'un arbre dans un paysage estival féérique baigné d'une lumière chaude et atterrit doucement dans un panier tressé.

Si tu es satisfait de la vidéo générée, tu peux encore la modifier. Pour cela, tu peux utiliser d'autres outils, par exemple: Recut(ouvre une nouvelle fenêtre) te permet de raccourcir des vidéos générées par IA ou d'exporter certains extraits. Avec Remix AI Video & Images(ouvre une nouvelle fenêtre) de Google, tu peux modifier des éléments de ta vidéo de manière ciblée, par exemple remplacer une personne, modifier l'arrière-plan ou générer un nouveau mouvement. 

Tu apprends mieux visuellement ou tu souhaites approfondir tes connaissances ? Dans ce cas, nous te recommandons les tutoriels IA de Futurepedia(ouvre une nouvelle fenêtre).  

Check-list: partager des vidéos générées par l'IA

Comment partager de manière responsable des vidéos générées par l'IA?
  1. Des personnes réelles sont-elles reconnaissables dans la vidéo (voix, apparence)? Veille à ne pas enfreindre les droits de la personnalité et à ne pas exposer quelqu'un en partageant des vidéos générées par l'IA.
  2. La vidéo contient-elle des éléments protégés par le droit d'auteur? Évite d'utiliser des éléments protégés par le droit d'auteur tels que des logos, de la musique ou des œuvres d'art dans les vidéos afin de ne pas provoquer de litige.
  3. D'autres personnes pourraient-elles mal interpréter la vidéo? Mets-toi à la place de différentes personnes et demande-toi: la vidéo pourrait-elle donner lieu à des malentendus ou à la diffusion de fausses informations? Si oui, mieux vaut ne pas la partager.
  4. Ai-je indiqué que la vidéo IA a été générée par une IA? Par responsabilité éthique envers les autres, nous te recommandons de toujours indiquer que les œuvres générées par une IA ont été créées par une IA.

Même si tu n'as pas créé toi-même une vidéo, tu deviens un maillon de la chaîne de diffusion dès que tu la partages. Sois toujours conscient de cette responsabilité.

Thème

Exemples: voici à quoi ressembleront les vidéos générées en 2025

Dans son blog, l'auteur Dan Taylor Watt a comparé de nombreux générateurs vidéo basés sur l'IA en utilisant toujours la même invite afin de tester les capacités des différents systèmes. Vous trouverez ici un aperçu des cinq générateurs les plus courants.

Générateur vidéo: VEO 2.

Générateur vidéo: Sora.

Générateur vidéo: Runway Gen-4.

Générateur vidéo: PIKA 2.

Générateur vidéo: WAN 2.

La commande utilisée:

A woman pushing a buggy across a zebra crossing whilst talking on her phone and walking her whippet

(Une femme qui pousse une poussette sur un passage piéton tout en téléphonant et en promenant son lévrier)

Source des vidéos(ouvre une nouvelle fenêtre)

Sujet

Quels sont les avantages et les risques?

Les modèles récents atteignent une qualité supérieure grâce à une meilleure compréhension physique. Les images et les vidéos de style photoréaliste peuvent ainsi paraître plus vraies que nature. Cela comporte à la fois des opportunités et des risques.

Chancen

  • Production vidéo efficace: tournages complexes, effets visuels coûteux ou rendu 3D pendant des heures – tout cela pourrait bientôt devenir superflu. L'IA peut notamment accélérer considérablement le processus d'animation. En effet, les modèles génèrent un résultat en 2D qui ressemble à de la 3D, ce qui réduit considérablement le temps de calcul.
  • Tout est possible: une IA peut réaliser n'importe quelle séquence d'images, qu'il s'agisse de rêves, d'images surréalistes ou d'univers fantastiques. Ce qui nécessitait autrefois toute une équipe d'artistes peut aujourd'hui être réalisé à partir d'une simple suggestion créative.

Risques

  • Deepfakes et manipulation: les deepfakes sont des vidéos qui semblent authentiques, mais dont le contenu a été modifié pour être mensonger. La technique utilisée pour créer ces vidéos n'est pas nouvelle, mais elle est devenue encore plus accessible grâce aux générateurs de vidéos. La vidéo virale «Trump Gaza» montre de manière impressionnante à quelle vitesse la fiction peut devenir une réalité supposée ou s'en confondre. Pour contrer cette tendance, des entreprises technologiques et des éditeurs de premier plan ont lancé l'initiative C2PA. Celle-ci vise à rendre identifiable la source des médias numériques à l'aide de filigranes invisibles.
  • Risque de simplification: différentes intelligences artificielles sont entraînées avec des données similaires. En prédisant les résultats les plus probables, l'accent mis en permanence sur des modèles et des thèmes déjà généraux et largement répandus conduit à une uniformisation des résultats au fil du temps. La créativité originale se déplace ainsi vers la phase de mise en œuvre, où ce sont principalement la conception et la formulation du storyboard qui détermineront la créativité des vidéos.

Nous abordons également des considérations éthiques et sociales dans notre guide numérique sur l'IA générative appliquée à l'image.

Sujet

Reconnaître les deepfakes vidéo en tant que tels

Les deepfakes vidéo sont des vidéos qui ont été manipulées à l'aide de l'IA. Des déclarations sont par exemple falsifiées ou des données personnelles sont utilisées à mauvais escient afin de superposer un visage sur un autre. Ce phénomène touche principalement les célébrités, dont les données numériques permettant de générer leur visage sont largement disponibles sur Internet.

Qu'est-ce qu'un deepfake exactement? Datenschutzgesetze.eu définit les deepfakes comme suit: 

[Le terme] « deepfake » [désigne] un contenu visuel, sonore ou vidéo généré ou manipulé par l'IA qui ressemble à des personnes, des objets, des lieux, des installations ou des événements réels et qui pourrait être perçu à tort comme authentique ou véridique par une personne.

Les deepfakes se caractérisent par l'utilisation de l'IA à des fins de manipulation. Les shallowfakes se distinguent des deepfakes sur le plan conceptuel. Ils englobent les falsifications réalisées à l'aide de programmes classiques de montage et de retouche d'images. 

Signes distinctifs: comment démasquer les deepfakes vidéo

Avec l'amélioration croissante de l'IA, il devient de plus en plus difficile de détecter les deepfakes. Voici quelques caractéristiques auxquelles vous pouvez prêter attention pour démasquer les deepfakes vidéo: 

Observe les proportions du visage et de la tête : sont-elles harmonieuses ? Dans les deepfakes, la tête est parfois légèrement tournée ou posée de manière peu naturelle sur le corps. Les transitions entre le visage et le cou méritent également un second regard.

Fais attention aux sauts d'image soudains, aux angles de caméra illogiques ou aux coupures brusques. Regarde attentivement, surtout lors des changements de scène.

L'image et le son sont-ils synchronisés ? Dans les deepfakes plus anciens, les mouvements des lèvres ne correspondent souvent pas parfaitement au texte prononcé. Vérifie que la bouche forme correctement les mots (en particulier les mots difficiles).

Notre langage corporel est complexe et dépend du contexte. Dans les deepfakes, le lien naturel entre l'esprit et le corps, qui contrôle intuitivement les mouvements, fait défaut. Les mouvements dans les deepfakes peuvent donc sembler uniformes ou tout simplement ne pas correspondre à ce qui est dit ou à une émotion particulière.

Le regard d'une personne en dit long, car il peut être une forme de communication. Vérifiez donc si les yeux semblent vivants. Dans les deepfakes, les yeux sont souvent fixes, vides ou anormalement brillants. Parfois, le clignement des yeux peut également être dérangeant, car il semble robotique ou totalement absent.

Les sources lumineuses sont-elles logiques et uniformes dans l'image? Les ombres tombent-elles correctement et dans la même direction sur l'ensemble du visage et du corps? Cela peut être un indice précieux, car les deepfakes peuvent souvent être démasqués par une incohérence dans les ombres.

La représentation des mains reste un point faible chez de nombreux modèles. Observez donc attentivement les doigts de l'IA et des personnes dans la vidéo: remarquez-vous des positions étranges ou des situations irréalistes, par exemple lorsque les doigts se chevauchent ou semblent traverser un objet?

Comme pour les fake news, vérifie la source de la vidéo. Regarde la vidéo en plein écran afin de pouvoir voir le plus de détails possible. Et reste toujours méfiant et prudent: si tu n'es pas sûr de la véracité du contenu, mieux vaut ne pas partager la vidéo.

Il existe désormais des plateformes qui peuvent t'aider à démasquer les deepfakes: Deepware scanner(ouvre une nouvelle fenêtre), Deepfake-o-meter(ouvre une nouvelle fenêtre), etc. Toutefois, selon le niveau technique de la plateforme, les résultats doivent être considérés avec prudence (voir à ce sujet cette étude de février 2025)(ouvre une nouvelle fenêtre). En fin de compte, le meilleur outil reste le bon sens.

Testez vos connaissances dans le quiz Deepfake de la SRF: Êtes-vous capable de reconnaître les deepfakes?(ouvre une nouvelle fenêtre)

Matériel pédagogique: les deepfakes expliqués aux enfants 

En 2020, SRF school a mis à disposition du matériel pédagogique pour les niveaux secondaire I et II (médias et informatique, société, éthique): Expliqué aux enfants – Que sont les deepfakes?(ouvre une nouvelle fenêtre)(ouvre une nouvelle fenêtre)

Ce qui est important

  • Les «patches spatio-temporels» permettent à des modèles tels qu'OpenAI Sora d'acquérir une compréhension physique fondamentale de notre monde. L'IA peut ainsi générer des vidéos qui semblent plus vraies que nature.
  • Pour la génération de vidéos, il est utile de penser en scènes et de créer un storyboard avec des instructions précises pour chaque mini-scène.
  • Les deepfakes sont de plus en plus difficiles à détecter. Notre liste de caractéristiques peut vous aider.