Swisscom Campus Newsletter
Erhalte neue Inhalte vom Swisscom Campus direkt in deine Mailbox, dank dem Swisscom Campus Newsletter.
KI-Videogeneratoren haben 2025 einen grossen Sprung gemacht. Was im Frühling noch von Rucklern, verwackelten Übergängen und inkonsistenter Logik geprägt war, ist heute einem deutlich reiferen Stand gewichen. Führende Videomodelle von Google oder OpenAI generieren inzwischen nicht nur physikalisch korrekte Bewegungen, sondern erzeugen Ton und Bild gleichzeitig und synchron. Damit sind wir den sogenannten «General World Models» spürbar näher gekommen.
Direkt zum Thema
Seite teilen
Wie verändert KI die Videoproduktion?
KI-Videogeneratoren sind die nächste Generation der Bildgenerierung und kombinieren Bilder mit Bewegung, Physik und zunehmend auch Ton. Moderne Systeme wie Sora 2 von OpenAI oder Veo 3.1 von Google streben nach einem physikalischen Verständnis der Welt und bilden diese Gesetzmässigkeiten nach. Das führt dazu, dass generierte Videos sehr lebensecht wirken können.
Technisch kombinieren diese Modelle Transformer- und Diffusionsmodelle und ergänzen sie mit der Raumzeit-Komponente: Der Transformer arbeitet deinen ursprünglichen Prompt zu einem technisch umsetzbaren Regieskript aus, das Diffusionsmodell setzt es anschliessend Bild für Bild um. Damit diese Bilder logisch und harmonisch aneinandergefügt werden können, benötigt die KI ein physikalisches Grundverständnis. Dies erhält sie durch sogenannte Raumzeit-Patches.
Das Verständnis solcher Raumzeit-Patches entwickelt die KI, indem sie Milliarden von Videos in ihre kleinsten Einheiten herunterbricht und Einzelbilder, Farbflächen und Pixelwerte analysiert. So lernt sie die physikalischen Gesetzmässigkeiten unserer Welt. Und kann sie am Ende selbst berechnen.
In den ersten Versionen erzeugten KI-Videogeneratoren nur stumme Bilder, der Ton musste anschliessend separat hinzugefügt werden. Das hat sich 2025 grundlegend geändert: Führende Modelle wie Veo 3.1, Sora 2 oder Kling 3.0 generieren Ton und Bild heute gleichzeitig und synchron, aus demselben Modell heraus. Dialoge, Soundeffekte und Umgebungsgeräusche enstehen in einem Schritt mit der Bildgestaltung. Das beduetet ein grosser Qualitätssprung in der KI-Videogenerierung.
Frühe Systeme wie AnimateDiff reihten Einzelbilder aneinander, jedoch noch ohne physikalisches Grundverständnis. Die Resultate wirkten dabei oft leicht psychedelisch. AnimateDiff ist als Open-Source-Projekt weiterhin verfügbar, gilt heute aber eher als historischer Ausgangspunkt der Technologie.
Möchtest du selbst ein Video generieren? Die aktuell beliebtesten Modelle und was sie ausmacht, findest du hier:
| Modell | Anbieter | Clip-Länge | Besonderheiten |
| Veo 3.1(öffnet ein neues Fenster) | Google DeepMind | 8s (bis 4K) | Natives Audio (Dialoge, Soundeffekte, Atmosphäre), Integration in Gemini, Flow und Vertex AI, Wasserzeichen mit SynthID |
| Sora 2(öffnet ein neues Fenster) | OpenAI | 10-15s (1080p) | Synchronisiertes Audio und Dialoge, Storyboard-Editor, ChatGPT-Integration*, Wasserzeichen mit C2PA |
| Runway Gen-4.5(öffnet ein neues Fenster) | Runway | 10s | Benchmark-Spitzenreiter, hohe filmische Qualität, konsistente Figuren, 4K-Export |
| Kling 3.0(öffnet ein neues Fenster) | Kuaishou | 15s (1080p) | Simultane Audio-Video-Generierung, präzise Bewegungsübertragung von Referenzvideos |
| Luma Ray3(öffnet ein neues Fenster) | Luma AI | bis 20s (1080p/4K HDR) | Erstes «Reasoning»-Videomodell, nativer HDR-Export, Adobe Firefly-integration |
| Pika 2.5(öffnet ein neues Fenster) | Pika | 3-15s (1080p) | Schnelle Generierung, kreative Pikaeffects für Szeneneffekte und -übergängen |
| WAN 2.6(öffnet ein neues Fenster) | Wan AI, Alibaba | bis 15s (1080p) | Open Source, Multi-Shot-Storytelling, Chinesisch und Englisch |
| Midjourney Video V1(öffnet ein neues Fenster) | Midjourney | 5-21s | Nur Bild-zu-Video, unverwechselbarer stilisierter Look, nahtlose Integration in Midjourney |
* Sora 2 aktuell nur in der mobilen App verfügbar; die Desktop-Version läuft noch auf Sora 1.
Da die Nachfrage gross ist, entwickelt sich auch der Markt der Videogeneratoren rasant. Bereits heute gibt es zahlreiche Video-KIs und es werden jeden Tag mehr.
Doch wer die Wahl hat, hat die Qual, richtig? Darum unsere Empfehlung: Informiere dich über die besonderen Fähigkeiten und typischen Anwendungsbereiche der unterschiedlichen Modelle (du kannst auch KI Chatbots wie ChatGPT oder Perplexity nach Rat fragen) und entscheide dich dann für das passende Modell.
Einen laufenden Performance-Vergleich liefert übrigens das Video Generation Arena Leaderboard(öffnet ein neues Fenster).
Wenn du Videos generierst, gehst du ähnlich vor wie beim Prompten von Bildern. Doch es gibt ein paar Dinge zusätzlich zu beachten, damit du am Ende die Videos erhältst, die du dir vorstellst.
Beginnen wir ganz am Anfang: Womit startest du? Es gibt mehrere Möglichkeiten: Als Eingabemedium für Videogeneratoren gilt in der Regel Text. Einige Video-KIs arbeiten aber auch mit Bildern.
Die generierten Videos können unterschiedliche Einsatzzwecke haben:
Wenn du Videogeneratoren wie OpenAI Sora oder Runway Gen-4 nutzt, beschreibe die gewünschte Szene im Detail. Informiere die KI über:
Tipp: Du kannst auch eine Text-KI zu Hilfe holen und sie beauftragen, deinen Prompt für die Videoumsetzung zu optimieren.
Denke dein Video als Serie von Miniszenen mit Übergängen dazwischen. Damit die KI genau weiss, was du von ihr erwartest, prompte ein Storyboard mit klaren Regieanweisungen pro Miniszene und Übergang. Die Storyboard-Funktion in Sora 2 hilft dir bei dieser Szenen-Aufteilung. Auch Google bietet dir mit Flow in Veo 3 einen Scenebuilder, der bei der Bearbeitung und Erweiterung sowie bei Übergängen von Szenen hilft.
Tipp: Beschreibe pro Szene jeweils nur eine Bewegung. Eine KI hält sich besser an deine Vorgaben, wenn du nicht zu viele Änderungen auf einmal nennst. Wenn in der Szene viel passiert, frage dich: Kann ich die Szene weiter unterteilen? So machst du es der KI leicht(er) und kommst im Gegenzug zu besseren Ergebnissen.
Ein Beispiel? Wir nehmen wieder unser Apfelbeispiel:
Szene 1: Sommerstimmung
Szene 2: Kamerafahrt am Baum entlang
Szene 3: Der Apfel löst sich
Je nach Modell stehen dir verschiedene Seitenverhältnisse (z.B. 9:16 oder 16:9) zur Verfügung. Da eine nachträgliche Bearbeitung des Videos die Qualität mindern kann, überlege dir am besten bereits zu Beginn, wie das Endformat aussehen soll. Und lasse es von der KI direkt so generieren.
Die KI-Videogenerierung ist keine exakte Wissenschaft, sondern ein kreativer Prozess. Und kreative Prozesse laufen selten geradlinig. Wenn es also zwei bis drei Versuche pro Szene braucht, bis das Video deinen Vorstellungen entspricht, sei geduldig mit der KI – und dir.
Tipp: Kleine Änderungen am Prompt können manchmal Grosses bewirken. Auch hierzu gerne ein Beispiel:
Wenn du mit dem generierten Video grundsätzlich zufrieden bist, kannst du es abschliessend noch editieren. Dafür stehen dir zahlreiche Tools zur Verfügung. Eines davon ist zum Beispiel Recut(öffnet ein neues Fenster): Dieses Tool hilft dir, Pausen und Leerläufe automatisch zu entfernen und so das Beste aus deinen Clips herauszuholen.
Für eine gezielte inhaltliche Nachbearbeitung (Übergänge, Untertitel, Zusammenführen mehrerer Clips) eignen sich Videoediting Tools wie CapCut(öffnet ein neues Fenster), Adobe Premiere(öffnet ein neues Fenster) oder Da Vinci Resolve(öffnet ein neues Fenster).
Du lernst visuell oder willst mehr Knowhow? Dann empfehlen wir dir die KI-Tutorials von Futurepedia(öffnet ein neues Fenster).
Auch wenn du ein Video nicht selbst generiert hast, bist du spätestens mit dem Teilen ein Glied seiner Verbreitungskette. Sei dir dieser Verantwortung stets bewusst.
Der Autor Dan Taylor Watt hat in seinem Blog zahlreiche KI-Videogeneratoren verglichen, indem er immer mit dem gleichen Prompt arbeitete, um die Fähigkeiten der verschiedenen Systeme zu prüfen. Hier finden Sie eine Übersicht über fünf der verbreitetsten Generatoren.
Videogenerator: Runway Gen 4.5.
Videogenerator: Pika 2.2.
Videogenerator: Kling v3.
Videogenerator: Ray 3.14.
Videogenerator: Sora 2.
Videogenerator: Wan 2.6.
Videogenerator: Midjourney v1.
Videogenerator: Veo 3.
A woman pushing a buggy across a zebra crossing whilst talking on her phone and walking her whippet
(Eine Frau, die einen Kinderwagen über einen Zebrastreifen schiebt, während sie telefoniert und ihren Whippet ausführt)
Neuere Modelle erreichen durch das physikalische Verständnis eine höhere Qualität. Sowohl Bilder als auch Videos in fotorealistischem Stil können dadurch täuschend echt erscheinen. Das bringt Chancen und Risiken mit sich.
Ethische und gesellschaftliche Überlegungen machen wir uns auch in unserem digitalen Ratgeber zur generativen Bild-KI.
Video-Deepfakes sind Videos, die mit Hilfe von KI manipuliert wurden. Dabei werden etwa Aussagen verfälscht oder Personendaten missbraucht, um ein Gesicht über ein anderes zu legen. Betroffen sind vorallem Prominente, von denen viele digitale Daten zur Gesichtsgenerierung im Internet verfügbar sind.
Was ist ein Deepfake genau? Datenschutzgesetze.eu definiert Deepfakes wie folgt:
[Der Ausdruck] «Deepfake» [bezeichnet] einen durch KI erzeugten oder manipulierten Bild-, Ton- oder Videoinhalt, der wirklichen Personen, Gegenständen, Orten, Einrichtungen oder Ereignissen ähnelt und einer Person fälschlicherweise als echt oder wahrheitsgemäss erscheinen würde.
Deepfakes zeichnen sich dadurch aus, dass KI zur Manipulation eingesetzt wurde. Shallowfakes grenzen sich von den Deepfakes begrifflich ab. Sie umfassen Fälschungen, die mit klassischen Schnitt- und Bildbearbeitungsprogrammen erstellt wurden.
Aufgrund der heutigen Qualität von KI-Videomodellen ist es selbst für ein geschultes Auge kaum noch möglich, Deepfakes mit hundertprozentiger Sicherheit zu erkennen. Die Modelle produzieren Videos mit synchronem Ton, flüssigen Bewegungen und täuschend echt aussehenden Gesichtern. Klassische Erkennungsmerkmale wie asynchrone Lippenbewegungen oder unnatürliche Hände sind längst nicht mehr verlässlich. Hinzu kommt, dass beim schnellen Konsum von Videos in Social-Media-Feeds kaum Zeit zum kritischen Hinterfragen bleibt. Diese müsste man sich aktiv nehmen.
Daher gilt: Je besser die Videomodelle werden, desto weniger technische «Fehler» als Erkennungsmerkmale bleiben übrig. Das kontextuelle Schlussfolgern wird somit zur wichtigsten Fähigkeit im Umgang mit Deepfakes.
Technische Merkmale sind keine Garantie bei der Erkennung von Deepfakes. Wenn du aber ein Video kritisch prüfen willst, können dir technische Merkmale dennoch wertvolle Hinweise liefern. Schau dir das fragliche Video im Vollbildmodus an und achte auf:
Fällt das Licht auf Gesicht, Hals und Hintergrund gleichmässig und aus derselben Richtung? Sind Spiegelungen im Glas realistisch und korrekt? Unstimmige Schattenwürfe sind eines der robustesten Erkennungsmerkmale, denn viele Modelle scheitern noch daran.
Haare, Stoffe, Flüssigkeiten, Rauch oder Menschenmassen im Hintergrund – solche komplexen physikalischen Interaktionen bleiben noch eine Schwäche vieler Modelle. Schau besonders auf Haarkonturen und Übergänge zwischen Person und Umgebung. Je mehr im Bild passiert und je mehr sich bewegt, desto eher zeigen sich dort Artefakte.
Unlogische Kameraperspektiven, plötzliche Bildsprünge oder Wechsel in Beleuchtung und Bildqualität können auf nachträgliche Manipulation hindeuten.
Einige KI-Videogeneratoren betten inzwischen C2PA-Metadaten in ihre Videos ein. Google nutzt die SynthID. Diese unsichtbaren Wasserzeichen können den Ursprung eines Videos ausweisen und die Prüfung erleichtern. Das Verfahren setzt sich langsam durch, ist aber noch nicht flächendeckend im Einsatz. Und auch hier gibt es keine absolute Sicherheit: Bei Bildschirmaufnahmen werden solche Metadaten nicht übernommen.
Deepware Scanner(öffnet ein neues Fenster) oder Deepfake-o-meter(öffnet ein neues Fenster) sind zwei Beispiele. Sie können dir nützliche Hinweise liefern, garantieren aber auch keinen zuverlässigen Befund, da sie mit den Entwicklungen der KIs nicht immer Schritt halten können.
Besonders, wenn ein Video visuell echt erscheint, ist die wirksamste Waffe, um Deepfakes zu erkennen, nicht dein Auge, sondern dein gesunder Menschenverstand. Frage nach dem Kontext und ordne das Video ein:
Wurde es von einem verifizierten Account, einem seriösen Medium oder einer unbekannten Quelle geteilt? Über die Glaubwürdigkeit entscheiden nicht die Anzahl Likes oder Weiterleitungen, sondern die Quelle.
Sagt eine Person etwas, das typisch oder untypisch für sie ist? Wenn ein Video emotional aufwühlt oder schockiert, ist das selten ein Zufall – Deepfakes zielen häufig auf starke Reaktionen ab.
Berichten seriöse Medien über dasselbe Ereignis? Wenn nicht, ist Skepsis angebracht.
Grundsatz: Wenn du unsicher bist, ob ein Video echt ist, verzichte lieber aufs Teilen. Du trägst damit Verantwortung.
Teste dich selbst im Deepfake Quiz von SRF: Wie gut erkennst du Deepfakes?(öffnet ein neues Fenster)
Weitere Informationen und Inhalte zum Thema «KI-Videogeneratoren» haben wir hier zusammengetragen.