«Liebe KI, bitte mach aus dem
alten Familienfoto ein Video.» 

  Swisscom Campus Newsletter
Erhalten Sie neue Inhalte vom Swisscom Campus direkt in Ihre Mailbox, dank dem Swisscom Campus Newsletter.

13 Minuten

KI-Videogeneratoren: Übernimm die Regie

Erst Texte, dann Bilder – und jetzt auch Videos. KI-Videogeneratoren stehen im Frühling 2025 noch am Anfang ihrer Entwicklung. Und doch zeigen sie trotz den gelegentlichen Störungen, verwackelten Übergängen und teils inkonsistenten Logik schon jetzt beeindruckende Ergebnisse. Dass generierte Videos als nächster grosser Meilenstein der KI gelten, liegt an ihrem Potenzial: Modelle wie Runway Gen-4 oder OpenAI Sora sollen sogenannte «General World Models» ermöglichen. Das sind KI-Systeme, die nicht nur Inhalte generieren, sondern auch ein tiefes, physikbasiertes Verständnis der Welt besitzen. 

Das Wichtigste in Kürze:

Wie verändert KI die Videoproduktion?

Thema

Wie funktionieren KI-Videogeneratoren? 

KI-Videogeneratoren sind die nächste Generation der Bildgenerierung und kombinieren Bilder mit Bewegung. KI-Videos kannst du entweder von Grund auf neu erstellen oder auch bestehende Videos abändern. Doch wie funktioniert das technisch, welche Mechanismen stecken dahinter? 

Frühe Ansätze der KI-Videogenerierung orientieren sich an der Bildgenerierung und reihen einzelne Bilder aneinander. Moderne Systeme hingegen streben nach einem physikalischen Verständnis und bilden die Welt nach, indem sie diese physikalischen Grundsätze einhalten. 

AnimateDiff: gehört zu den frühen Ansätzen und ist eine Weiterentwicklung von Text-zu-Bild-Modellen wie Midjourney, bei denen die generierten Einzelbilder dynamisch bewegt werden. Das funktioniert so:

Die KI lernt durch das Training mit realen Videodaten, wie aus einem Ursprungsbild nachfolgende Bilder abgeleitet werden können. Die so generierte Bildserie hängt die KI aneinander und ein Video entsteht. 

Der Haken? Bild 1 wird einfach an Bild 2 drangehängt, ohne dabei einem übergeordneten Drehbuch oder den physikalischen Grundsätze unserer Welt zu entsprechen. Oft wirken die Resultate dadurch leicht psychedelisch, zeigen Gegenständen, die sich ineinander verwandeln oder irritieren dadurch, dass sie leicht ruckeln. Die Ausgestaltung variiert von Bild zu Bild und die Bewegungsqualität fühlt sich beim Betrachten oft einfach nicht echt an.  
 
Videobeispiele und weitere Infos zu AnimateDiff(öffnet ein neues Fenster)

Sora (OpenAI): gehört in die Kategorie des «World Building». Das bedeutet: KI-Videogeneratoren wie Sora kombinieren einerseits Transformer- und Diffusionsmodelle und bringen andererseits die Raumzeit-Komponente (was das ist, erklären wir dir weiter unten) mit ein. Das geht so:   Mit Hilfe des Transformer-Modells sagt die KI die wahrscheinlichsten nächsten Worte voraus. Damit kann sie deinen Ursprungsprompt zu einem technisch umsetzbaren Prompt fürs Video ausarbeiten. Das könnte so aussehen: 

  1. Dein Prompt: Apfel fällt vom Baum.  
  2. Prompt durch Transformer generiert: Ein warmer Sommertag auf einer idyllischen Obstwiese. Goldenes Sonnenlicht flutet die Szene, die Luft flirrt leicht. Die Kamera fährt sanft von unten nach oben an einem Apfelbaumstamm entlang (Tracking Shot). In Zeitlupe löst sich ein leuchtend roter Apfel von einem Ast. Die Kamera wechselt zur Verfolgung (Follow Shot), während der Apfel langsam in Richtung Boden fällt. Während er durch die Luft rotiert, spiegelt sich das Licht auf seiner glänzenden Oberfläche. Schliesslich landet er mit einem sanften «Plopp» in einem geflochtenen Korb voller anderer roter Äpfel. Die Kamera zoomt nah heran, zeigt die Aufprallbewegung in ultrahoher Zeitlupe. Sanfte Windgeräusche und das Zwitschern von Vögeln begleiten die Szene.

Diesen neuen Prompt setzt das Diffusionsmodell anschliessend um. Dabei arbeitet es in mehreren Schritten die einzelnen Bilder aus einem Rauschen heraus – bis dahin verläuft der Prozess wie bei einer Bildgenerierung.  

Damit diese generierten Bilder nun logisch und harmonisch aneinander gefügt werden können, benötigt die KI ein physikalisches Grundverständnis. Dies gelingt Sora durch die sogenannten Raumzeit-Patches.  

Was sind Raumzeit-Patches?  
Die KI entwickelt ihr Raumzeitverständnis dadurch, dass sie Milliarden von Videos in ihre kleinsten Einheiten (Tokens) herunterbricht und analysiert: Videos werden dabei zu Einzelbildern, Einzelbilder zu Farbenflächen, Farbflächen zu Farbpixeln, Farbpixel zu Zahlen. Durch die Gesetzmässigkeiten dieser Zahlen lernt die KI die Gesetzmässigkeiten unserer physikalischen Welt kennen – und selbst berechnen.  
 Zu abstrakt? Die KI lernt, dass sich ein Apfel (wie auch andere Gegenstände), wenn sie fallen, durch die Erdanziehung stets auf direktem Weg Richtung Boden bewegen. Mit diesem antrainierten Wissen kann OpenAI Sora den Apfel im Video nun täuschend echt auf den Boden fallen lassen.  
 
Videobeispiele und weitere Infos zu Sora von OpenAI(öffnet ein neues Fenster)

Nach dem Motto

AnimateDiff

«Ich überlege mir, wie sich der Hund auf diesem einen Bild weiterbewegen wird und generiere dazu ähnliche, aufeinanderfolgende Bilder.»

 
Sora

«Ich habe gelernt, nach welchen physikalischen Grundsätzen die Welt funktioniert und generiere ein Video basierend auf meinem Wissen, wie sich ein Hund springend bewegt.»

Thema

Was sind die Top-Videogeneratoren 2025?  

Bist du auf den Geschmack gekommen und möchtest selbst ein Video generieren? Die aktuell beliebtesten Modelle und was sie ausmacht, findest du hier:

Modell Anbieter Clip-Länge Besonderheiten
Veo 2(öffnet ein neues Fenster) Google DeepMind 8s (720p-4K) Beste Bewegungsphysik, detaillierte Szenen und variabel im Stil, Integration in Gemini und Vertex AI
OpenAI Sora(öffnet ein neues Fenster)  OpenAI 20s (1080p) Storyboard-Editor, ChatGPT-Integration
Runway Gen-4(öffnet ein neues Fenster) Runway 10s (30s Render) Hohe filmische Qualität, rasche Verarbeitung, 4K-Export, konsistente Figuren
Pika 2.2(öffnet ein neues Fenster) Pika 3-15s Inpainting-Funktionen mit kreativen Effekten für Szenenübergänge
WAN 2.1(öffnet ein neues Fenster) Wan AI, Alibaba 2-3s (720p) Open-Source/kostenloses Modell, kann chinesischen und englischen Text im Video gut abbilden

Und das sind noch lange nicht alle

Da die Nachfrage gross ist, entwickelt sich auch der Markt der Videogeneratoren rasant. Bereits heute gibt es zahlreiche Video-KIs und es werden jeden Tag mehr. 

Doch wer die Wahl hat, hat die Qual, richtig? Darum unsere Empfehlung: Informiere dich über die besonderen Fähigkeiten und typischen Anwendungsbereiche der unterschiedlichen Modelle (du kannst auch KI Chatbots wie ChatGPT oder Perplexity nach Rat fragen) und entscheide dich dann für das passende Modell. 

Einen laufenden Performance-Vergleich liefert übrigens das Video Generation Arena Leaderboard(öffnet ein neues Fenster).

Thema

Wie generiere ich Videos?

Wenn du Videos generierst, gehst du ähnlich vor wie beim Prompten von Bildern. Doch es gibt ein paar Dinge zusätzlich zu beachten, damit du am Ende die Videos erhältst, die du dir vorstellst.

Beginnen wir ganz am Anfang: Womit startest du? Es gibt mehrere Möglichkeiten: Als Eingabemedium für Videogeneratoren gilt in der Regel Text. Einige Video-KIs arbeiten aber auch mit Bildern.  

Die generierten Videos können unterschiedliche Einsatzzwecke haben:  

  • Im privaten Umfeld: Kurzvideos für TikTok, Reels oder Stories; persönliche Gruss- oder Einladungsvideos; Erinnerungen 
  • Beim Lernen: Erklärvideos; virtuelle Exkursionen; historische Bilder zum Leben erwecken; Medienkompetenz schulen, indem bewusst Deepfake-Beispiele erstellt werden  
  • Wenn du kreativ sein willst: Experimentelle Videoprojekte; Musikprojekte, Storytelling 
  • Bei der Arbeit: Content Marketing; Schulungsvideos; Brainstorming und Prototyping 

Und so gehst du vor:

Wenn du Videogeneratoren wie OpenAI Sora oder Runway Gen-4 nutzt, beschreibe die gewünschte Szene im Detail. Informiere die KI über:  

  • Inhalt: Was ist zu sehen? 
  • Stil: filmisch, animiert, 3D, surreal, Retro, dokumentarisch, usw. 
  • Bewegung: Welche Perspektive und Bewegung filmt die Kamera? Gibt es Zoom, Slow Motion oder Perspektivwechsel in der Szene? 
  • Details: Atmosphärische Details wie Lichteinfall, Wetter, Farben, usw. 

Tipp: Du kannst auch eine Text-KI zu Hilfe holen und sie beauftragen, deinen Prompt für die Videoumsetzung zu optimieren. 

Weitere Prompt-Tipps für Bild-KIs

Denke dein Video als Serie von Miniszenen mit Übergängen dazwischen. Damit die KI genau weiss, was du von ihr erwartest, prompte ein Storyboard mit klaren Regieanweisungen pro Miniszene und Übergang. Die Storyboard-Funktion in OpenAI Sora hilft dir bei dieser Szenen-Aufteilung.  

Tipp: Beschreibe pro Szene jeweils nur eine Bewegung. Eine KI hält sich besser an deine Vorgaben, wenn du nicht zu viele Änderungen auf einmal nennst. Wenn in der Szene viel passiert, frage dich: Kann ich die Szene weiter unterteilen? So machst du es der KI leicht(er) und kommst im Gegenzug zu besseren Ergebnissen.

Ein Beispiel? Wir nehmen wieder unser Apfelbeispiel:  

Szene 1: Sommerstimmung 

  • Einstellung: Weite Totalaufnahme einer sonnendurchfluteten Obstwiese. 
  • Details: Gräser wiegen sich leicht, Sonnenstrahlen durchbrechen die Baumkronen. 
  • Sound: Zwitschern von Vögeln, leises Rauschen des Windes. 
  • Dauer: 2 Sekunden 

 Szene 2: Kamerafahrt am Baum entlang  

  • Einstellung: Langsame Tracking-Shot von unten nach oben entlang des Baumstamms. 
  • Details: Rinde im Fokus, Lichtreflexe flackern durch das Laub. 
  • Sound: Ruhige Naturatmosphäre bleibt bestehen. 
  • Dauer: 2 Sekunden 

Szene 3: Der Apfel löst sich 

  • Einstellung: Nahaufnahme auf einen prallen, roten Apfel. 
  • Details: In Zeitlupe löst er sich langsam vom Ast – der Stiel reisst sichtbar ab. 
  • Licht: Glanz auf der Apfelschale, Sonnenreflexe tanzen über die Oberfläche. 
  • Sound: Leichtes Knacken beim Lösen. 
  • Dauer: 2 Sekunden 

Je nach Modell stehen dir verschiedene Seitenverhältnisse (z.B. 9:16 oder 16:9) zur Verfügung. Da eine nachträgliche Bearbeitung des Videos die Qualität mindern kann, überlege dir am besten bereits zu Beginn, wie das Endformat aussehen soll. Und lasse es von der KI direkt so generieren.

Die KI-Videogenerierung ist keine exakte Wissenschaft, sondern ein kreativer Prozess. Und kreative Prozesse laufen selten geradlinig. Wenn es also zwei bis drei Versuche pro Szene braucht, bis das Video deinen Vorstellungen entspricht, sei geduldig mit der KI – und dir. 

Tipp: Kleine Änderungen am Prompt können manchmal Grosses bewirken. Auch hierzu gerne ein Beispiel:   

  • Ausgangsprompt: Ein roter Apfel fällt von einem Baum an einem Sommertag in einen Korb voller Äpfel.   
  • Prompt Variante 1 – mehr Emotionen: In dramatischer Zeitlupe fällt ein rot glänzender Apfel von einem Baum, während dunkle Wolken im Hintergrund aufziehen. Der Apfel landet mit einem hallenden Plopp im Korb.  
  • Prompt Variante 2 – mehr Märchen: Ein rundum roter Apfel (wie der Apfel bei Schneewittchen) fällt in einer märchenhaften, in warmes Licht getauchten Sommerlandschaft von einem Baum und landet sanft in einem geflochtenen Korb.

Wenn du mit dem generierten Video zufrieden bist, kannst du es abschliessend noch editieren. Dafür kannst du weitere Tools nutzen, z.B.: Recut(öffnet ein neues Fenster) erlaubt es dir, KI-generierte Videos zu kürzen oder bestimmte Ausschnitte zu exportieren. Mit Remix AI Video & Images(öffnet ein neues Fenster) von Google kannst du Elementen in deinem Video gezielt bearbeiten – etwa eine Person austauschen, den Hintergrund verändern oder eine neue Bewegung generieren. 

Du lernst visuell oder willst mehr Knowhow? Dann empfehlen wir dir die KI-Tutorials von Futurepedia(öffnet ein neues Fenster).  

Checkliste: KI-Videos teilen

Wie gehst du beim Teilen von KI-generierten Videos verantwortungsbewusst vor? 
  1. Sind reale Personen im Video erkennbar (Stimme, Aussehen)? Achte darauf, dass du mit dem Teilen von KI-Videos keine Persönlichkeitsrechte verletzt und niemanden blossstellst. 
  2. Sind im Video urheberrechtlich geschützte Elemente zu sehen? Urheberrechtlich geschützte Elemente wie Logos, Musik oder Kunstwerke vermeidest du in den Videos besser, um keinen Streitfall zu provozieren. 
  3. Könnten andere Personen das Video missverstehen? Versetze dich in verschiedene Perspektiven und frage dich: Könnte das Video zu Missverständnissen oder zur Verbreitung von Fake News führen? Wenn ja, lasse das Teilen lieber bleiben.  
  4. Habe ich das KI-Video als KI-generiert gekennzeichnet? Aus der ethischen Verantwortung gegenüber anderen empfehlen wir, dass du KI-generierte Werke immer als KI-generiert deklarierst.

Auch wenn du ein Video nicht selbst generiert hast, bist du spätestens mit dem Teilen ein Glied seiner Verbreitungskette. Sei dir dieser Verantwortung stets bewusst.

Thema

Beispiele: so sehen generierte Videos 2025 aus

Der Autor Dan Taylor Watt hat in seinem Blog zahlreiche KI-Videogeneratoren verglichen, indem er immer mit dem gleichen Prompt arbeitete, um die Fähigkeiten der verschiedenen Systeme zu prüfen. Hier finden Sie eine Übersicht über fünf der verbreitetsten Generatoren.

Videogenerator: VEO 2.

Videogenerator: Sora.

Videogenerator: Runway Gen-4.

Videogenerator: PIKA 2.

Videogenerator: WAN 2.

Der verwendete Prompt:

A woman pushing a buggy across a zebra crossing whilst talking on her phone and walking her whippet

(Eine Frau, die einen Kinderwagen über einen Zebrastreifen schiebt, während sie telefoniert und ihren Whippet ausführt)

Quelle der Videos(öffnet ein neues Fenster)

Thema

Was sind die Chancen und Risiken? 

Neuere Modelle erreichen durch das physikalische Verständnis eine höhere Qualität. Sowohl Bilder als auch Videos in fotorealistischem Stil können dadurch täuschend echt erscheinen. Das bringt Chancen und Risiken mit sich.

Chancen

  • Effiziente Videoproduktion: Aufwendige Drehs, teure visuelle Effekte oder stundenlanges 3D-Rendering – vieles davon könnte bald überflüssig sein. Besonders in der Animation kann die KI deutlich beschleunigen. Denn die Modelle erzeugen einen 2D-Output, der wie 3D aussieht, was einen Bruchteil der Rechenzeit bedeutet. 
  • Alles ist möglich: Eine KI kann beliebige Bildsequenzen realisieren – Träume, surreale Bild- und Fantasiewelten. Was früher ein ganzes Team von Künstler*innen bedurfte, kann heute ein kreativer Prompt allein erledigen. 

Risiken

  • Deepfakes & Manipulation: Deepfakes sind Videos, die zwar echt aussehen, inhaltlich jedoch zur Unwahrheit abgeändert werden. Die Technik für Deepfakes ist zwar nicht neu, doch mit Videogeneratoren wird sie noch einfacher zugänglich. Das virale «Trump Gaza»-Video(öffnet ein neues Fenster) zeigt eindrücklich, wie rasch Fiktion zur vermeintlichen Realität werden oder damit verschwimmen kann. Um dem Gegenwehr zu geben, haben führende Tech-Firmen und Verlage die C2PA Initiative lanciert. Diese soll die Quelle digitaler Medien mittels unsichtbarer Wasserzeichen erkennbar machen.
  •  Gefahr von Einfalt: Verschiedene künstliche Intelligenzen werden mit ähnlichen Daten trainiert. Durch die Vorhersage der wahrscheinlichsten Ergebnisse führt die ständige Betonung bereits allgemeiner, weit verbreiteter Muster und Themen mit der Zeit zu einer Uniformität der Ergebnisse. Die originelle Kreativität verlagert sich damit vor die Umsetzung, wo hauptsächlich die Konzeption und Ausformulierung des Storyboards über die Kreativität der Videos entscheiden wird.

Ethische und gesellschaftliche Überlegungen machen wir uns auch in unserem digitalen Ratgeber zur generativen Bild-KI

Thema

Video-Deepfakes als solche erkennen

Video-Deepfakes sind Videos, die mit Hilfe von KI manipuliert wurden. Dabei werden etwa Aussagen verfälscht oder Personendaten missbraucht, um ein Gesicht über ein anderes zu legen. Betroffen sind vorallem Prominente, von denen viele digitale Daten zur Gesichtsgenerierung im Internet verfügbar sind.

Was ist ein Deepfake genau? Datenschutzgesetze.eu definiert Deepfakes wie folgt: 

[Der Ausdruck] «Deepfake» [bezeichnet] einen durch KI erzeugten oder manipulierten Bild-, Ton- oder Videoinhalt, der wirklichen Personen, Gegenständen, Orten, Einrichtungen oder Ereignissen ähnelt und einer Person fälschlicherweise als echt oder wahrheitsgemäss erscheinen würde. 

Deepfakes zeichnen sich dadurch aus, dass KI zur Manipulation eingesetzt wurde. Shallowfakes grenzen sich von den Deepfakes begrifflich ab. Sie umfassen Fälschungen, die mit klassischen Schnitt- und Bildbearbeitungsprogrammen erstellt wurden. 

Erkennungsmerkmale: So entlarvst du Video-Deepfakes

Mit der zunehmenden Verbesserung der KI wird es immer schwieriger, Deepfakes zu erkennen. Ein paar Merkmale, auf dich du dich achten kannst, um Video-Deepfakes zu entlarven, sind: 

Schau dir die Proportionen von Gesicht und Kopf an – sind sie im Verhältnis stimmig? Bei Deepfakes ist der Kopf manchmal leicht verdreht oder sitzt unnatürlich auf dem Körper. Auch die Übergänge von Gesicht zu Hals können einen zweiten Blick wert sein.   

Achte dich auf plötzliche Bildsprünge, unlogische Kameraperspektiven oder abrupte Schnitte. Sieh besonders bei Szenenwechseln genau hin.

Sind Bild und Ton synchron? Besonders bei früheren Deepfakes passen die Lippenbewegungen oft noch nicht perfekt zum gesprochenen Text. Prüfe, ob der Mund sich (insbesondere bei schwierigen Wörtern) richtig formt.

Unsere Körpersprache ist komplex und kontextabhängig. In Deepfakes fehlt die natürliche Verknüpfung zwischen Geist und Körper, welche die Bewegungen intuitiv steuern. Die Bewegungen in Deepfakes können darum gleichförmig wirken oder einfach irgendwie nicht so richtig zum Gesagten oder zu einer bestimmten Emotion passen.

Der Blick eines Menschen verrät viel, denn auch ein Blick kann eine Art zu kommunizieren sein. Prüfe also: Wirken die Augen lebendig? Bei Deepfakes sind die Augen oft starr, leer oder unnatürlich glänzend. Manchmal irritiert einen auch das Blinzeln, weil es roboterhaft ist oder gänzlich fehlt.

Sind die Lichtquellen im Bild logisch und einheitlich? Fällt der Schatten überall im Gesicht und auf dem Körper richtig und in dieselbe Richtung? Dies kann ein wertvoller Anhaltspunkt sein, Deepfakes lassen sich häufig durch eine Inkonsistenz im Schattenwurf entlarven.

Die Darstellung von Händen ist bei vielen Modellen immer noch ein Schwachpunkt. Schau der KI und den Personen im Video darum genau auf die Finger: Gibt es seltsame Fingerstellungen oder unrealistische Situationen, etwa wenn sich Finger überschneiden oder sich scheinbar durch ein Objekt bewegen? 

Prüfe wie bei Fake News auch die Quelle des Videos. Schau das Video im Vollbild an, um möglichst viele Details erkennen zu können. Und bleib dabei grundsätzlich misstrauisch und zurückhaltend: Wenn du unsicher bist, ob der Inhalt wahr ist, verzichte lieber auf das weitere Teilen des Videos.   

Es gibt inzwischen übrigens auch Plattformen, die dir beim Entlarven von Deepfakes helfen können: Deepware scanner(öffnet ein neues Fenster), Deepfake-o-meter(öffnet ein neues Fenster), usw. Je nach Technikstand der Plattform sind die Resultate aber mit Vorsicht zu geniessen (siehe dazu diese Studie vom Februar 2025)(öffnet ein neues Fenster). Am Ende ist und bleibt das beste Tool der gesunde Menschenverstand. 

Teste dich selbst im Deepfake Quiz von SRF: Wie gut erkennst du Deepfakes?(öffnet ein neues Fenster)

Unterrichtsmaterialien: Deepfakes für Kinder erklärt 

SRF school stellte 2020 Unterrichtsmaterialien für die Stufen Sek I und Sek II (Medien und Informatik, Gesellschaft, Ethik) zur Verfügung: Für Kinder erklärt – Was sind Deepfakes? (öffnet ein neues Fenster)

Das ist wichtig

  • Sogenannte Raumzeit-Patches ermöglichen es Modellen wie OpenAI Sora, ein physikalisches Grundverständnis unserer Welt zu erlangen. Dadurch kann die KI Videos generieren, die täuschend echt wirken.  
  • Bei der Videogenerierung hilft es der KI, wenn du in Szenen denkst und ein Storyboard mit genauen Regieanweisungen pro Miniszene erstellst. 
  • Deepfakes sind immer schwieriger zu erkennen. Unsere Liste von Erkennungsmerkmalen kann helfen.