ⓘ​  Cette page a été traduite à l'aide de l'intelligence artificielle.

13 minutes

Générateurs vidéo IA: prenez les commandes

Les générateurs vidéo basés sur l'IA ont fait un bond en avant en 2025. Ce qui, au printemps, se caractérisait encore par des saccades, des transitions tremblantes et une logique incohérente a aujourd'hui laissé place à un niveau de maturité nettement supérieur. Les principaux modèles vidéo de Google ou d'OpenAI génèrent désormais non seulement des mouvements physiquement corrects, mais produisent également le son et l'image simultanément et de manière synchronisée. Nous nous sommes ainsi sensiblement rapprochés de ce que l'on appelle les «General World Models».

L'essentiel en bref:

Sujet

Comment fonctionnent les générateurs
de vidéos basés sur l'IA ?

Les générateurs de vidéos basés sur l'IA constituent la nouvelle génération de la génération d'images et combinent des images avec du mouvement, des lois physiques et, de plus en plus, du son. Les systèmes modernes tels que Sora 2 d'OpenAI ou Veo 3.1 de Google s'efforcent de comprendre les lois physiques du monde et de les reproduire. Cela permet aux vidéos générées de paraître très réalistes.

Techniquement, ces modèles combinent des modèles de transformateurs et de diffusion, auxquels s’ajoute la composante spatio-temporelle: le transformateur élabore à partir de ta consigne initiale un scénario techniquement réalisable, que le modèle de diffusion met ensuite en œuvre image par image. Pour que ces images puissent être assemblées de manière logique et harmonieuse, l’IA a besoin d’une compréhension physique de base. Elle l’acquiert grâce à ce qu’on appelle des «patchs spatio-temporels».

L’IA développe sa compréhension de ces patchs spatio-temporels en décomposant des milliards de vidéos en leurs plus petites unités et en analysant les images individuelles, les zones de couleur et les valeurs de pixels.C'est ainsi qu'elle apprend les lois physiques de notre monde. Et qu'elle peut finalement les calculer elle-même.

Audio natif: le son et l'image sont générés de manière synchrone

Dans les premières versions, les générateurs vidéo IA ne produisaient que des images muettes; le son devait ensuite être ajouté séparément. Cela a radicalement changé en 2025: les modèles de pointe tels que Veo 3.1, Sora 2 ou Kling 3.0 génèrent aujourd’hui le son et l’image simultanément et de manière synchronisée, à partir du même modèle. Les dialogues, les effets sonores et les bruits ambiants sont créés en une seule étape avec la conception de l’image. Cela représente un bond en avant considérable en matière de qualité dans la génération de vidéos par IA.

Comment tout a-t-il commencé?

Les premiers systèmes, tels qu'AnimateDiff, enchaînaient des images individuelles, mais sans aucune compréhension des principes physiques. Les résultats avaient souvent un aspect légèrement psychédélique. AnimateDiff est toujours disponible en tant que projet open source, mais est aujourd'hui plutôt considéré comme le point de départ historique de cette technologie.

Sujet

Quels sont les principaux générateurs
de vidéos basés sur l'IA?  

Tu souhaites générer toi-même une vidéo? Tu trouveras ici les modèles les plus populaires du moment et ce qui les caractérise:

Modèle Fournisseur Durée du clip Particularités
Veo 3.1(ouvre une nouvelle fenêtre) Google DeepMind 8 s (jusqu'à 4K) Audio natif (dialogues, effets sonores, ambiance), intégration à Gemini, Flow et Vertex AI, filigrane avec SynthID
Sora 2(ouvre une nouvelle fenêtre) OpenAI 10-15 s (1080p) Audio et dialogues synchronisés, éditeur de storyboard, intégration ChatGPT*, filigrane avec C2PA
Runway Gen-4.5(ouvre une nouvelle fenêtre) Runway 10 s Leader des benchmarks, haute qualité cinématographique, personnages cohérents, exportation 4K
Kling 3.0(ouvre une nouvelle fenêtre) Kuaishou 15 s (1080p) Génération audio-vidéo simultanée, transfert précis des mouvements à partir de vidéos de référence
Luma Ray3(ouvre une nouvelle fenêtre) Luma AI jusqu'à 20 s (1080p/4K HDR) Premier modèle vidéo «Reasoning», exportation HDR native, intégration Adobe Firefly
Pika 2.5(ouvre une nouvelle fenêtre) Pika 3-15 s (1080p) Génération rapide, effets Pika créatifs pour les effets de scène et les transitions
WAN 2.6(ouvre une nouvelle fenêtre) Wan AI, Alibaba jusqu'à 15 s (1080p) Open source, narration multi-plans, chinois et anglais
Midjourney Video V1(ouvre une nouvelle fenêtre) Midjourney 5-21 s Image-vers-vidéo uniquement, look stylisé unique, intégration transparente dans Midjourney

*Sora 2 actuellement disponible uniquement dans l'application mobile ; la version de bureau fonctionne encore sur Sora 1.

Et ce n'est pas tout!

La demande étant forte, le marché des générateurs vidéo se développe rapidement. Il existe déjà aujourd'hui de nombreuses IA vidéo, et leur nombre augmente chaque jour.

Mais qui a le choix a l'embarras du choix, n'est-ce pas ? C'est pourquoi nous vous recommandons de vous informer sur les capacités particulières et les domaines d'application typiques des différents modèles (vous pouvez également demander conseil à des chatbots IA tels que ChatGPT ou Perplexity) avant de choisir le modèle qui vous convient.

Le Video Generation Arena Leaderboard(ouvre une nouvelle fenêtre) fournit d'ailleurs une comparaison continue des performances.

Sujet

Comment générer des vidéos?

Lorsque tu génères des vidéos, tu procèdes de la même manière que pour les images. Cependant, il y a quelques points supplémentaires à prendre en compte afin d'obtenir les vidéos que tu souhaites.

Commençons par le début: par quoi commencez-vous ? Plusieurs possibilités s'offrent à vous: le texte est généralement utilisé comme support d'entrée pour les générateurs vidéo. Cependant, certaines IA vidéo fonctionnent également avec des images.  

Les vidéos générées peuvent avoir différentes utilisations:  

  • Dans le domaine privé: courtes vidéos pour TikTok, Reels ou Stories; vidéos personnelles de salutations ou d'invitation; souvenirs
  • Dans le domaine de l'apprentissage: vidéos explicatives; excursions virtuelles; donner vie à des images historiques; former à la compétence médiatique en créant délibérément des exemples de deepfakes
  • Si tu veux être créatif: projets vidéo expérimentaux; projets musicaux, storytelling
  • Au travail: marketing de contenu; vidéos de formation; brainstorming et prototypage

Voici comment procéder:

Si tu utilises des générateurs vidéo tels que OpenAI Sora ou Runway Gen-4, décris la scène souhaitée en détail. Informe l'IA sur: 

  • Contenu: que voit-on?
  • Style: cinématographique, animé, 3D, surréaliste, rétro, documentaire, etc.
  • Mouvement: quelle perspective et quel mouvement la caméra filme-t-elle? Y a-t-il un zoom, un ralenti ou un changement de perspective dans la scène?
  • Détails: détails atmosphériques tels que la lumière, la météo, les couleurs, etc.

Conseil: tu peux également faire appel à une IA textuelle et lui demander d'optimiser ta suggestion pour la conversion vidéo.

Autres conseils pour les suggestions destinées aux IA d'images

Considère ta vidéo comme une série de mini-scènes reliées entre elles par des transitions. Pour que l'IA sache exactement ce que tu attends d'elle, crée un storyboard avec des indications claires pour chaque mini-scène et chaque transition. La fonction storyboard de Sora 2 t'aide à organiser ces scènes. Google propose également, avec Flow dans Veo 3, un générateur de scènes qui facilite le montage, l'extension et les transitions entre les scènes. 

Conseil: ne décrivez qu'un seul mouvement par scène. L'IA respectera mieux vos instructions si vous ne lui donnez pas trop de changements à la fois. Si la scène est très chargée, demandez-vous si vous pouvez la subdiviser davantage. Vous faciliterez ainsi la tâche de l'IA et obtiendrez de meilleurs résultats.

Un exemple? Reprenons notre exemple des pommes:

Scène 1: ambiance estivale

  • Cadrage: plan large d'un verger baigné de soleil.
  • Détails: les herbes ondulent légèrement, les rayons du soleil percent à travers la cime des arbres.
  • Son: chant des oiseaux, léger bruissement du vent.
  • Durée: 2 secondes

 Scène 2: travelling le long de l'arbre

  • Cadrage: travelling lent de bas en haut le long du tronc de l'arbre.
  • Détails: écorce au premier plan, reflets de lumière scintillant à travers le feuillage.
  • Son: atmosphère naturelle calme.
  • Durée: 2 secondes

Scène 3: la pomme se détache

  • Cadrage: gros plan sur une pomme rouge et bien mûre.
  • Détails: au ralenti, elle se détache lentement de la branche – la tige se rompt de manière visible.
  • Lumière: reflets brillants sur la peau de la pomme, reflets du soleil dansant à la surface.
  • Son: léger craquement lors du détachement.
  • Durée: 2 secondes

Selon le modèle, différents formats d'image (par exemple 9:16 ou 16:9) sont disponibles. Étant donné que le traitement ultérieur de la vidéo peut réduire la qualité, il est préférable de réfléchir dès le début au format final souhaité. Et laissez l'IA le générer directement.

La génération vidéo par IA n'est pas une science exacte, mais un processus créatif. Et les processus créatifs sont rarement linéaires. Si deux ou trois essais par scène sont nécessaires avant que la vidéo ne corresponde à vos attentes, soyez patient avec l'IA et avec vous-même. 

Conseil: de petites modifications de la consigne peuvent parfois avoir un grand effet. Voici un exemple:

  • Consigne initiale: un jour d'été, une pomme rouge tombe d'un arbre dans un panier rempli de pommes.
  • Variante 1 – plus d'émotions: au ralenti, une pomme rouge brillante tombe d'un arbre tandis que des nuages sombres s'amoncellent à l'arrière-plan. La pomme atterrit dans le panier avec un bruit sourd.
  • Variante 2 – plus féérique: une pomme entièrement rouge (comme celle de Blanche-Neige) tombe d'un arbre dans un paysage estival féérique baigné d'une lumière chaude et atterrit doucement dans un panier tressé.

Si vous êtes globalement satisfait de la vidéo générée, vous pouvez encore la retoucher pour la finaliser. De nombreux outils sont à votre disposition pour cela. L'un d'entre eux est par exemple Recut(ouvre une nouvelle fenêtre): cet outil vous aide à supprimer automatiquement les pauses et les temps morts afin de tirer le meilleur parti de vos clips.

Pour un post-traitement ciblé du contenu (transitions, sous-titres, fusion de plusieurs clips), des outils de montage vidéo tels que CapCut(ouvre une nouvelle fenêtre), Adobe Premiere(ouvre une nouvelle fenêtre) ou Da Vinci Resolve(ouvre une nouvelle fenêtre).

Tu apprends mieux visuellement ou tu souhaites approfondir tes connaissances ? Dans ce cas, nous te recommandons les tutoriels IA de Futurepedia(ouvre une nouvelle fenêtre).  

Check-list: partager des vidéos générées par l'IA

Comment partager de manière responsable des vidéos générées par l'IA?
  1. Des personnes réelles sont-elles reconnaissables dans la vidéo (voix, apparence)? Veille à ne pas enfreindre les droits de la personnalité et à ne pas exposer quelqu'un en partageant des vidéos générées par l'IA.
  2. La vidéo contient-elle des éléments protégés par le droit d'auteur? Évite d'utiliser des éléments protégés par le droit d'auteur tels que des logos, de la musique ou des œuvres d'art dans les vidéos afin de ne pas provoquer de litige.
  3. D'autres personnes pourraient-elles mal interpréter la vidéo? Mets-toi à la place de différentes personnes et demande-toi: la vidéo pourrait-elle donner lieu à des malentendus ou à la diffusion de fausses informations? Si oui, mieux vaut ne pas la partager.
  4. Ai-je indiqué que la vidéo IA a été générée par une IA? Par responsabilité éthique envers les autres, nous te recommandons de toujours indiquer que les œuvres générées par une IA ont été créées par une IA.

Même si tu n'as pas créé toi-même une vidéo, tu deviens un maillon de la chaîne de diffusion dès que tu la partages. Sois toujours conscient de cette responsabilité.

Thème

Exemples: voici à quoi ressembleront les vidéos générées en 2025

Dans son blog, l'auteur Dan Taylor Watt a comparé de nombreux générateurs vidéo basés sur l'IA en utilisant toujours la même invite afin de tester les capacités des différents systèmes. Vous trouverez ici un aperçu des cinq générateurs les plus courants.

Générateur vidéo: Runway Gen 4.5.

Générateur vidéo: Pika 2.2.

Générateur vidéo: Kling v3.

Générateur vidéo: Ray 3.14.

Générateur vidéo: Sora 2.

Générateur vidéo: Wan 2.6.

Générateur vidéo: Midjourney v1.

Générateur vidéo: Veo 3.

La commande utilisée:

A woman pushing a buggy across a zebra crossing whilst talking on her phone and walking her whippet

(Une femme qui pousse une poussette sur un passage piéton tout en téléphonant et en promenant son lévrier)

Source des vidéos(ouvre une nouvelle fenêtre)

Sujet

Quels sont les avantages et les risques?

Les modèles récents atteignent une qualité supérieure grâce à une meilleure compréhension physique. Les images et les vidéos de style photoréaliste peuvent ainsi paraître plus vraies que nature. Cela comporte à la fois des opportunités et des risques.

Chancen

  • Production vidéo efficace: tournages complexes, effets visuels coûteux ou rendu 3D pendant des heures – tout cela pourrait bientôt devenir superflu. L'IA peut notamment accélérer considérablement le processus d'animation. En effet, les modèles génèrent un résultat en 2D qui ressemble à de la 3D, ce qui réduit considérablement le temps de calcul.
  • Tout est possible: une IA peut réaliser n'importe quelle séquence d'images, qu'il s'agisse de rêves, d'images surréalistes ou d'univers fantastiques. Ce qui nécessitait autrefois toute une équipe d'artistes peut aujourd'hui être réalisé à partir d'une simple suggestion créative.

Risques

  • Deepfakes et manipulation: Les deepfakes sont des vidéos qui semblent authentiques, mais dont le contenu a été modifié pour devenir mensonger. La technologie des deepfakes n’est certes pas nouvelle, mais les générateurs vidéo la rendent encore plus accessible. La vidéo virale «Trump Gaza» montre de manière frappante à quelle vitesse la fiction peut devenir une prétendue réalité ou s’y confondre. Depuis 2025, les principaux modèles génèrent le son et l'image de manière synchronisée, ce qui rend les deepfakes encore plus difficiles à détecter, car jusqu'à présent, les mouvements de lèvres asynchrones étaient considérés comme un signe avant-coureur classique. Pour lutter contre ce phénomène, de grandes entreprises technologiques et des éditeurs ont lancé l'initiative C2PA. Celle-ci vise à identifier la source des médias numériques à l'aide de filigranes invisibles.
  • Risque de simplification: différentes intelligences artificielles sont entraînées avec des données similaires. En prédisant les résultats les plus probables, l'accent mis en permanence sur des modèles et des thèmes déjà généraux et largement répandus conduit à une uniformisation des résultats au fil du temps. La créativité originale se déplace ainsi vers la phase de mise en œuvre, où ce sont principalement la conception et la formulation du storyboard qui détermineront la créativité des vidéos.

Nous abordons également des considérations éthiques et sociales dans notre guide numérique sur l'IA générative appliquée à l'image.

Sujet

Reconnaître les deepfakes vidéo en tant que tels

Les deepfakes vidéo sont des vidéos qui ont été manipulées à l'aide de l'IA. Des déclarations sont par exemple falsifiées ou des données personnelles sont utilisées à mauvais escient afin de superposer un visage sur un autre. Ce phénomène touche principalement les célébrités, dont les données numériques permettant de générer leur visage sont largement disponibles sur Internet.

Qu'est-ce qu'un deepfake exactement? Datenschutzgesetze.eu définit les deepfakes comme suit: 

[Le terme] « deepfake » [désigne] un contenu visuel, sonore ou vidéo généré ou manipulé par l'IA qui ressemble à des personnes, des objets, des lieux, des installations ou des événements réels et qui pourrait être perçu à tort comme authentique ou véridique par une personne.

Les deepfakes se caractérisent par l'utilisation de l'IA à des fins de manipulation. Les shallowfakes se distinguent des deepfakes sur le plan conceptuel. Ils englobent les falsifications réalisées à l'aide de programmes classiques de montage et de retouche d'images. 

Comment démasquer les deepfakes vidéo

Compte tenu de la qualité actuelle des modèles vidéo basés sur l'IA, il est pratiquement impossible, même pour un œil averti, de détecter les deepfakes avec une certitude absolue. Ces modèles produisent des vidéos avec un son synchronisé, des mouvements fluides et des visages d'un réalisme trompeur. Les signes distinctifs classiques, tels que les mouvements des lèvres non synchronisés ou les mains qui semblent artificielles, ne sont plus fiables depuis longtemps. À cela s’ajoute le fait que la consommation rapide de vidéos dans les flux des réseaux sociaux laisse peu de temps pour une analyse critique. Il faudrait s’y consacrer activement.

Par conséquent, plus les modèles vidéo s’améliorent, moins il reste de «défauts» techniques pouvant servir de signes distinctifs. Le raisonnement contextuel devient ainsi la compétence la plus importante pour faire face aux deepfakes.

Indices techniques

Les indices techniques ne constituent pas une garantie pour la détection des deepfakes. Mais si tu souhaites examiner une vidéo d’un œil critique, les indices techniques peuvent néanmoins te fournir des indications précieuses. Regarde la vidéo en question en mode plein écran et prête attention à:

La lumière tombe-t-elle de manière uniforme et dans la même direction sur le visage, le cou et l'arrière-plan? Les reflets dans le verre sont-ils réalistes et corrects? Les ombres incohérentes constituent l'un des indices de détection les plus fiables, car de nombreux modèles échouent encore à ce niveau.

Cheveux, tissus, liquides, fumée ou foules en arrière-plan: ces interactions physiques complexes restent un point faible de nombreux modèles. Observez particulièrement les contours des cheveux et les transitions entre la personne et son environnement. Plus il se passe de choses dans l'image et plus il y a de mouvement, plus les artefacts ont tendance à apparaître.

Des angles de caméra illogiques, des sauts d'image soudains ou des changements d'éclairage et de qualité d'image peuvent indiquer une manipulation a posteriori.

Certains générateurs de vidéos basés sur l'IA intègrent désormais des métadonnées C2PA dans leurs vidéos. Google utilise le SynthID. Ces filigranes invisibles permettent d'identifier l'origine d'une vidéo et facilitent la vérification. Cette méthode s'impose progressivement, mais n'est pas encore généralisée. Et là encore, il n'y a pas de certitude absolue: ces métadonnées ne sont pas conservées lors des captures d'écran.

Deepware Scanner(ouvre une nouvelle fenêtre) ou Deepfake-o-meter(ouvre une nouvelle fenêtre) en sont deux exemples. Ils peuvent te fournir des indications utiles, mais ne garantissent pas non plus un résultat fiable, car ils ne parviennent pas toujours à suivre les évolutions des IA.

Contexte

Surtout lorsqu’une vidéo semble visuellement authentique, l’arme la plus efficace pour détecter les deepfakes n’est pas ton œil, mais ton bon sens.

Interroge-toi sur le contexte et replace la vidéo dans son cadre:

A-t-elle été partagée par un compte vérifié, un média sérieux ou une source inconnue? Ce n'est pas le nombre de «likes» ou de partages qui détermine la crédibilité, mais la source.

Une personne dit-elle quelque chose qui lui est caractéristique ou atypique? Lorsqu’une vidéo suscite une forte émotion ou choque, c’est rarement un hasard: les deepfakes visent souvent à provoquer des réactions vives.

Des médias sérieux rapportent-ils le même événement? Si ce n’est pas le cas, la prudence est de mise.

Règle d’or: si tu n’es pas sûr de l’authenticité d’une vidéo, mieux vaut ne pas la partager. Tu en es responsable.

Testez-vous avec le quiz sur les deepfakes de la SRF: dans quelle mesure savez-vous reconnaître les deepfakes?(ouvre une nouvelle fenêtre)

Matériel pédagogique: les deepfakes expliqués aux enfants 

En 2020, SRF school a mis à disposition du matériel pédagogique pour les niveaux secondaire I et II (médias et informatique, société, éthique): Expliqué aux enfants – Que sont les deepfakes?(ouvre une nouvelle fenêtre)(ouvre une nouvelle fenêtre)

Ce qui est important

  • Ce que l'on appelle les «patchs spatio-temporels» permettent à des modèles tels que Sora, Veo 3.1 ou Runway Gen-4.5 d'acquérir une compréhension physique fondamentale de notre monde. Grâce à cela, l'IA est capable de générer des vidéos d'un réalisme saisissant.
  • Pour la génération de vidéos, il est utile de penser en scènes et de créer un storyboard avec des instructions précises pour chaque mini-scène.
  • Les deepfakes sont de plus en plus difficiles à détecter. Notre liste de caractéristiques peut vous aider.

Autres thèmes intéressants