Swisscom Campus Newsletter
Erhalte neue Inhalte vom Swisscom Campus direkt in deine Mailbox, dank dem Swisscom Campus Newsletter.

13 Minuten

KI-Videogeneratoren: Übernimm die Regie

KI-Videogeneratoren haben 2025 einen grossen Sprung gemacht. Was im Frühling noch von Rucklern, verwackelten Übergängen und inkonsistenter Logik geprägt war, ist heute einem deutlich reiferen Stand gewichen. Führende Videomodelle von Google oder OpenAI generieren inzwischen nicht nur physikalisch korrekte Bewegungen, sondern erzeugen Ton und Bild gleichzeitig und synchron. Damit sind wir den sogenannten «General World Models» spürbar näher gekommen.

Das Wichtigste in Kürze:

Wie verändert KI die Videoproduktion?

Thema

Wie funktionieren KI-Videogeneratoren?

KI-Videogeneratoren sind die nächste Generation der Bildgenerierung und kombinieren Bilder mit Bewegung, Physik und zunehmend auch Ton. Moderne Systeme wie Sora 2 von OpenAI oder Veo 3.1 von Google streben nach einem physikalischen Verständnis der Welt und bilden diese Gesetzmässigkeiten nach. Das führt dazu, dass generierte Videos sehr lebensecht wirken können. 

Technisch kombinieren diese Modelle Transformer- und Diffusionsmodelle und ergänzen sie mit der Raumzeit-Komponente: Der Transformer arbeitet deinen ursprünglichen Prompt zu einem technisch umsetzbaren Regieskript aus, das Diffusionsmodell  setzt es anschliessend Bild für Bild um. Damit diese Bilder logisch und harmonisch aneinandergefügt werden können, benötigt die KI ein physikalisches Grundverständnis. Dies erhält sie durch sogenannte Raumzeit-Patches. 

Das Verständnis solcher Raumzeit-Patches entwickelt die KI, indem sie Milliarden von Videos in ihre kleinsten Einheiten herunterbricht und Einzelbilder, Farbflächen und Pixelwerte analysiert. So lernt sie die physikalischen Gesetzmässigkeiten unserer Welt. Und kann sie am Ende selbst berechnen.

Natives Audio: Ton und Bild werden synchron erzeugt

In den ersten Versionen erzeugten KI-Videogeneratoren nur stumme Bilder, der Ton musste anschliessend separat hinzugefügt werden. Das hat sich 2025 grundlegend geändert: Führende Modelle wie Veo 3.1, Sora 2 oder Kling 3.0 generieren Ton und Bild heute gleichzeitig und synchron, aus demselben Modell heraus. Dialoge, Soundeffekte und Umgebungsgeräusche enstehen in einem Schritt mit der Bildgestaltung. Das beduetet ein grosser Qualitätssprung in der KI-Videogenerierung.

Wie hat alles begonnen?

Frühe Systeme wie AnimateDiff reihten Einzelbilder aneinander, jedoch noch ohne physikalisches Grundverständnis. Die Resultate wirkten dabei oft leicht psychedelisch. AnimateDiff ist als Open-Source-Projekt weiterhin verfügbar, gilt heute aber eher als historischer Ausgangspunkt der Technologie.

Thema

Welche sind die führenden KI-Videogeneratoren?

Möchtest du selbst ein Video generieren? Die aktuell beliebtesten Modelle und was sie ausmacht, findest du hier:

Modell Anbieter Clip-Länge Besonderheiten
Veo 3.1(öffnet ein neues Fenster) Google DeepMind 8s (bis 4K) Natives Audio (Dialoge, Soundeffekte, Atmosphäre), Integration in Gemini, Flow und Vertex AI, Wasserzeichen mit SynthID
Sora 2(öffnet ein neues Fenster) OpenAI 10-15s (1080p) Synchronisiertes Audio und Dialoge, Storyboard-Editor, ChatGPT-Integration*, Wasserzeichen mit C2PA 
Runway Gen-4.5(öffnet ein neues Fenster) Runway 10s  Benchmark-Spitzenreiter, hohe filmische Qualität, konsistente Figuren, 4K-Export
Kling 3.0(öffnet ein neues Fenster) Kuaishou 15s (1080p)  Simultane Audio-Video-Generierung, präzise Bewegungsübertragung von Referenzvideos
Luma Ray3(öffnet ein neues Fenster) Luma AI bis 20s (1080p/4K HDR) Erstes «Reasoning»-Videomodell, nativer HDR-Export, Adobe Firefly-integration
Pika 2.5(öffnet ein neues Fenster) Pika 3-15s (1080p) Schnelle Generierung, kreative Pikaeffects für Szeneneffekte und -übergängen
WAN 2.6(öffnet ein neues Fenster) Wan AI, Alibaba bis 15s (1080p) Open Source, Multi-Shot-Storytelling, Chinesisch und Englisch
Midjourney Video V1(öffnet ein neues Fenster) Midjourney 5-21s Nur Bild-zu-Video, unverwechselbarer stilisierter Look, nahtlose Integration in Midjourney

* Sora 2 aktuell nur in der mobilen App verfügbar; die Desktop-Version läuft noch auf Sora 1.

Und das sind noch lange nicht alle

Da die Nachfrage gross ist, entwickelt sich auch der Markt der Videogeneratoren rasant. Bereits heute gibt es zahlreiche Video-KIs und es werden jeden Tag mehr. 

Doch wer die Wahl hat, hat die Qual, richtig? Darum unsere Empfehlung: Informiere dich über die besonderen Fähigkeiten und typischen Anwendungsbereiche der unterschiedlichen Modelle (du kannst auch KI Chatbots wie ChatGPT oder Perplexity nach Rat fragen) und entscheide dich dann für das passende Modell. 

Einen laufenden Performance-Vergleich liefert übrigens das Video Generation Arena Leaderboard(öffnet ein neues Fenster).

Thema

Wie generiere ich Videos?

Wenn du Videos generierst, gehst du ähnlich vor wie beim Prompten von Bildern. Doch es gibt ein paar Dinge zusätzlich zu beachten, damit du am Ende die Videos erhältst, die du dir vorstellst.

Beginnen wir ganz am Anfang: Womit startest du? Es gibt mehrere Möglichkeiten: Als Eingabemedium für Videogeneratoren gilt in der Regel Text. Einige Video-KIs arbeiten aber auch mit Bildern.  

Die generierten Videos können unterschiedliche Einsatzzwecke haben:  

  • Im privaten Umfeld: Kurzvideos für TikTok, Reels oder Stories; persönliche Gruss- oder Einladungsvideos; Erinnerungen 
  • Beim Lernen: Erklärvideos; virtuelle Exkursionen; historische Bilder zum Leben erwecken; Medienkompetenz schulen, indem bewusst Deepfake-Beispiele erstellt werden  
  • Wenn du kreativ sein willst: Experimentelle Videoprojekte; Musikprojekte, Storytelling 
  • Bei der Arbeit: Content Marketing; Schulungsvideos; Brainstorming und Prototyping 

Und so gehst du vor:

Wenn du Videogeneratoren wie OpenAI Sora oder Runway Gen-4 nutzt, beschreibe die gewünschte Szene im Detail. Informiere die KI über:  

  • Inhalt: Was ist zu sehen? 
  • Stil: filmisch, animiert, 3D, surreal, Retro, dokumentarisch, usw. 
  • Bewegung: Welche Perspektive und Bewegung filmt die Kamera? Gibt es Zoom, Slow Motion oder Perspektivwechsel in der Szene? 
  • Details: Atmosphärische Details wie Lichteinfall, Wetter, Farben, usw. 

Tipp: Du kannst auch eine Text-KI zu Hilfe holen und sie beauftragen, deinen Prompt für die Videoumsetzung zu optimieren. 

Weitere Prompt-Tipps für Bild-KIs

Denke dein Video als Serie von Miniszenen mit Übergängen dazwischen. Damit die KI genau weiss, was du von ihr erwartest, prompte ein Storyboard mit klaren Regieanweisungen pro Miniszene und Übergang. Die Storyboard-Funktion in Sora 2 hilft dir bei dieser Szenen-Aufteilung. Auch Google bietet dir mit Flow in Veo 3 einen Scenebuilder, der bei der Bearbeitung und Erweiterung sowie bei Übergängen von Szenen hilft.

Tipp: Beschreibe pro Szene jeweils nur eine Bewegung. Eine KI hält sich besser an deine Vorgaben, wenn du nicht zu viele Änderungen auf einmal nennst. Wenn in der Szene viel passiert, frage dich: Kann ich die Szene weiter unterteilen? So machst du es der KI leicht(er) und kommst im Gegenzug zu besseren Ergebnissen.

Ein Beispiel? Wir nehmen wieder unser Apfelbeispiel:  

Szene 1: Sommerstimmung 

  • Einstellung: Weite Totalaufnahme einer sonnendurchfluteten Obstwiese. 
  • Details: Gräser wiegen sich leicht, Sonnenstrahlen durchbrechen die Baumkronen. 
  • Sound: Zwitschern von Vögeln, leises Rauschen des Windes. 
  • Dauer: 2 Sekunden 

 Szene 2: Kamerafahrt am Baum entlang  

  • Einstellung: Langsame Tracking-Shot von unten nach oben entlang des Baumstamms. 
  • Details: Rinde im Fokus, Lichtreflexe flackern durch das Laub. 
  • Sound: Ruhige Naturatmosphäre bleibt bestehen. 
  • Dauer: 2 Sekunden 

Szene 3: Der Apfel löst sich 

  • Einstellung: Nahaufnahme auf einen prallen, roten Apfel. 
  • Details: In Zeitlupe löst er sich langsam vom Ast – der Stiel reisst sichtbar ab. 
  • Licht: Glanz auf der Apfelschale, Sonnenreflexe tanzen über die Oberfläche. 
  • Sound: Leichtes Knacken beim Lösen. 
  • Dauer: 2 Sekunden 

Je nach Modell stehen dir verschiedene Seitenverhältnisse (z.B. 9:16 oder 16:9) zur Verfügung. Da eine nachträgliche Bearbeitung des Videos die Qualität mindern kann, überlege dir am besten bereits zu Beginn, wie das Endformat aussehen soll. Und lasse es von der KI direkt so generieren.

Die KI-Videogenerierung ist keine exakte Wissenschaft, sondern ein kreativer Prozess. Und kreative Prozesse laufen selten geradlinig. Wenn es also zwei bis drei Versuche pro Szene braucht, bis das Video deinen Vorstellungen entspricht, sei geduldig mit der KI – und dir. 

Tipp: Kleine Änderungen am Prompt können manchmal Grosses bewirken. Auch hierzu gerne ein Beispiel:   

  • Ausgangsprompt: Ein roter Apfel fällt von einem Baum an einem Sommertag in einen Korb voller Äpfel.   
  • Prompt Variante 1 – mehr Emotionen: In dramatischer Zeitlupe fällt ein rot glänzender Apfel von einem Baum, während dunkle Wolken im Hintergrund aufziehen. Der Apfel landet mit einem hallenden Plopp im Korb.  
  • Prompt Variante 2 – mehr Märchen: Ein rundum roter Apfel (wie der Apfel bei Schneewittchen) fällt in einer märchenhaften, in warmes Licht getauchten Sommerlandschaft von einem Baum und landet sanft in einem geflochtenen Korb.

Wenn du mit dem generierten Video grundsätzlich zufrieden bist, kannst du es abschliessend noch editieren. Dafür stehen dir zahlreiche Tools zur Verfügung. Eines davon ist zum Beispiel Recut(öffnet ein neues Fenster): Dieses Tool hilft dir, Pausen und Leerläufe automatisch zu entfernen und so das Beste aus deinen Clips herauszuholen. 

Für eine gezielte inhaltliche Nachbearbeitung (Übergänge, Untertitel, Zusammenführen mehrerer Clips) eignen sich Videoediting Tools wie CapCut(öffnet ein neues Fenster), Adobe Premiere(öffnet ein neues Fenster) oder Da Vinci Resolve(öffnet ein neues Fenster).

Du lernst visuell oder willst mehr Knowhow? Dann empfehlen wir dir die KI-Tutorials von Futurepedia(öffnet ein neues Fenster).  

Checkliste: KI-Videos teilen

Wie gehst du beim Teilen von KI-generierten Videos verantwortungsbewusst vor? 
  1. Sind reale Personen im Video erkennbar (Stimme, Aussehen)? Achte darauf, dass du mit dem Teilen von KI-Videos keine Persönlichkeitsrechte verletzt und niemanden blossstellst. 
  2. Sind im Video urheberrechtlich geschützte Elemente zu sehen? Urheberrechtlich geschützte Elemente wie Logos, Musik oder Kunstwerke vermeidest du in den Videos besser, um keinen Streitfall zu provozieren. 
  3. Könnten andere Personen das Video missverstehen? Versetze dich in verschiedene Perspektiven und frage dich: Könnte das Video zu Missverständnissen oder zur Verbreitung von Fake News führen? Wenn ja, lasse das Teilen lieber bleiben.  
  4. Habe ich das KI-Video als KI-generiert gekennzeichnet? Aus der ethischen Verantwortung gegenüber anderen empfehlen wir, dass du KI-generierte Werke immer als KI-generiert deklarierst.

Auch wenn du ein Video nicht selbst generiert hast, bist du spätestens mit dem Teilen ein Glied seiner Verbreitungskette. Sei dir dieser Verantwortung stets bewusst.

Thema

Beispiele: so sehen generierte Videos 2026 aus

Der Autor Dan Taylor Watt hat in seinem Blog zahlreiche KI-Videogeneratoren verglichen, indem er immer mit dem gleichen Prompt arbeitete, um die Fähigkeiten der verschiedenen Systeme zu prüfen. Hier finden Sie eine Übersicht über fünf der verbreitetsten Generatoren.

Videogenerator: Runway Gen 4.5.

Videogenerator: Pika 2.2.

Videogenerator: Kling v3.

Videogenerator: Ray 3.14.

Videogenerator: Sora 2.

Videogenerator: Wan 2.6.

Videogenerator: Midjourney v1.

Videogenerator: Veo 3.

Der verwendete Prompt:

A woman pushing a buggy across a zebra crossing whilst talking on her phone and walking her whippet

(Eine Frau, die einen Kinderwagen über einen Zebrastreifen schiebt, während sie telefoniert und ihren Whippet ausführt)

Quelle der Videos(öffnet ein neues Fenster)

Thema

Was sind die Chancen und Risiken? 

Neuere Modelle erreichen durch das physikalische Verständnis eine höhere Qualität. Sowohl Bilder als auch Videos in fotorealistischem Stil können dadurch täuschend echt erscheinen. Das bringt Chancen und Risiken mit sich.

Chancen

  • Effiziente Videoproduktion: Aufwendige Drehs, teure visuelle Effekte oder stundenlanges 3D-Rendering – vieles davon könnte bald überflüssig sein. Besonders in der Animation kann die KI deutlich beschleunigen. Denn die Modelle erzeugen einen 2D-Output, der wie 3D aussieht, was einen Bruchteil der Rechenzeit bedeutet. 
  • Alles ist möglich: Eine KI kann beliebige Bildsequenzen realisieren – Träume, surreale Bild- und Fantasiewelten. Was früher ein ganzes Team von Künstler*innen bedurfte, kann heute ein kreativer Prompt allein erledigen. 

Risiken

  • Deepfakes & Manipulation: Deepfakes sind Videos, die zwar echt aussehen, inhaltlich jedoch zur Unwahrheit abgeändert werden. Die Technik für Deepfakes ist zwar nicht neu, doch mit Videogeneratoren wird sie noch einfacher zugänglich. Das virale «Trump Gaza»-Video(öffnet ein neues Fenster) zeigt eindrücklich, wie rasch Fiktion zur vermeintlichen Realität werden oder damit verschwimmen kann. Seit 2025 generieren führende Modelle Ton und Bild synchron, was Deepfakes noch schwerer erkennbar macht, denn bisher galten asynchrone Lippenbewegungen als klassisches Warnsignal. Um dem Gegenwehr zu geben, haben führende Tech-Firmen und Verlage die C2PA Initiative lanciert. Diese soll die Quelle digitaler Medien mittels unsichtbarer Wasserzeichen erkennbar machen.
  •  Gefahr von Einfalt: Verschiedene künstliche Intelligenzen werden mit ähnlichen Daten trainiert. Durch die Vorhersage der wahrscheinlichsten Ergebnisse führt die ständige Betonung bereits allgemeiner, weit verbreiteter Muster und Themen mit der Zeit zu einer Uniformität der Ergebnisse. Die originelle Kreativität verlagert sich damit vor die Umsetzung, wo hauptsächlich die Konzeption und Ausformulierung des Storyboards über die Kreativität der Videos entscheiden wird.

Ethische und gesellschaftliche Überlegungen machen wir uns auch in unserem digitalen Ratgeber zur generativen Bild-KI

Thema

Video-Deepfakes als solche erkennen

Video-Deepfakes sind Videos, die mit Hilfe von KI manipuliert wurden. Dabei werden etwa Aussagen verfälscht oder Personendaten missbraucht, um ein Gesicht über ein anderes zu legen. Betroffen sind vorallem Prominente, von denen viele digitale Daten zur Gesichtsgenerierung im Internet verfügbar sind.

Was ist ein Deepfake genau? Datenschutzgesetze.eu definiert Deepfakes wie folgt: 

[Der Ausdruck] «Deepfake» [bezeichnet] einen durch KI erzeugten oder manipulierten Bild-, Ton- oder Videoinhalt, der wirklichen Personen, Gegenständen, Orten, Einrichtungen oder Ereignissen ähnelt und einer Person fälschlicherweise als echt oder wahrheitsgemäss erscheinen würde. 

Deepfakes zeichnen sich dadurch aus, dass KI zur Manipulation eingesetzt wurde. Shallowfakes grenzen sich von den Deepfakes begrifflich ab. Sie umfassen Fälschungen, die mit klassischen Schnitt- und Bildbearbeitungsprogrammen erstellt wurden. 

So entlarvst du Video-Deepfakes

Aufgrund der heutigen Qualität von KI-Videomodellen ist es selbst für ein geschultes Auge kaum noch möglich, Deepfakes mit hundertprozentiger Sicherheit zu erkennen. Die Modelle produzieren Videos mit synchronem Ton, flüssigen Bewegungen und täuschend echt aussehenden Gesichtern. Klassische Erkennungsmerkmale wie asynchrone Lippenbewegungen oder unnatürliche Hände sind längst nicht mehr verlässlich. Hinzu kommt, dass beim schnellen Konsum von Videos in Social-Media-Feeds kaum Zeit zum kritischen Hinterfragen bleibt. Diese müsste man sich aktiv nehmen.  

Daher gilt: Je besser die Videomodelle werden, desto weniger technische «Fehler» als Erkennungsmerkmale bleiben übrig. Das kontextuelle Schlussfolgern wird somit zur wichtigsten Fähigkeit im Umgang mit Deepfakes.

Technische Erkennungsmerkmale

Technische Merkmale sind keine Garantie bei der Erkennung von Deepfakes. Wenn du aber ein Video kritisch prüfen willst, können dir technische Merkmale dennoch wertvolle Hinweise liefern. Schau dir das fragliche Video im Vollbildmodus an und achte auf: 

Fällt das Licht auf Gesicht, Hals und Hintergrund gleichmässig und aus derselben Richtung? Sind Spiegelungen im Glas realistisch und korrekt? Unstimmige Schattenwürfe sind eines der robustesten Erkennungsmerkmale, denn viele Modelle scheitern noch daran. 

Haare, Stoffe, Flüssigkeiten, Rauch oder Menschenmassen im Hintergrund – solche komplexen physikalischen Interaktionen bleiben noch eine Schwäche vieler Modelle. Schau besonders auf Haarkonturen und Übergänge zwischen Person und Umgebung. Je mehr im Bild passiert und je mehr sich bewegt, desto eher zeigen sich dort Artefakte. 

Unlogische Kameraperspektiven, plötzliche Bildsprünge oder Wechsel in Beleuchtung und Bildqualität können auf nachträgliche Manipulation hindeuten.

Einige KI-Videogeneratoren betten inzwischen C2PA-Metadaten in ihre Videos ein. Google nutzt die SynthID. Diese unsichtbaren Wasserzeichen können den Ursprung eines Videos ausweisen und die Prüfung erleichtern. Das Verfahren setzt sich langsam durch, ist aber noch nicht flächendeckend im Einsatz. Und auch hier gibt es keine absolute Sicherheit: Bei Bildschirmaufnahmen werden solche Metadaten nicht übernommen.

Deepware Scanner(öffnet ein neues Fenster) oder Deepfake-o-meter(öffnet ein neues Fenster) sind zwei Beispiele. Sie können dir nützliche Hinweise liefern, garantieren aber auch keinen zuverlässigen Befund, da sie mit den Entwicklungen der KIs nicht immer Schritt halten können. 

Kontextuelle Einordnung

Besonders, wenn ein Video visuell echt erscheint, ist die wirksamste Waffe, um Deepfakes zu erkennen, nicht dein Auge, sondern dein gesunder Menschenverstand. Frage nach dem Kontext und ordne das Video ein:

Wurde es von einem verifizierten Account, einem seriösen Medium oder einer unbekannten Quelle geteilt? Über die Glaubwürdigkeit entscheiden nicht die Anzahl Likes oder Weiterleitungen, sondern die Quelle.

Sagt eine Person etwas, das typisch oder untypisch für sie ist? Wenn ein Video emotional aufwühlt oder schockiert, ist das selten ein Zufall – Deepfakes zielen häufig auf starke Reaktionen ab.

Berichten seriöse Medien über dasselbe Ereignis? Wenn nicht, ist Skepsis angebracht.

Grundsatz: Wenn du unsicher bist, ob ein Video echt ist, verzichte lieber aufs Teilen. Du trägst damit Verantwortung.  

Teste dich selbst im Deepfake Quiz von SRF: Wie gut erkennst du Deepfakes?(öffnet ein neues Fenster)

Unterrichtsmaterialien: Deepfakes für Kinder erklärt 

SRF school stellte 2020 Unterrichtsmaterialien für die Stufen Sek I und Sek II (Medien und Informatik, Gesellschaft, Ethik) zur Verfügung: Für Kinder erklärt – Was sind Deepfakes? (öffnet ein neues Fenster)

Das ist wichtig

  • Sogenannte Raumzeit-Patches ermöglichen es Modellen wie Sora, Veo 3.1 oder Runway Gen-4.5 ein physikalisches Grundverständnis unserer Welt zu erlangen. Dadurch kann die KI Videos generieren, die täuschend echt wirken.  
  • Bei der Videogenerierung hilft es der KI, wenn du in Szenen denkst und ein Storyboard mit genauen Regieanweisungen pro Miniszene erstellst. 
  • Deepfakes sind immer schwieriger zu erkennen. Unsere Liste von Erkennungsmerkmalen kann helfen.