ⓘ Questa pagina è stata tradotta con l'aiuto dell'intelligenza artificiale.
Prima i testi, poi le immagini e ora anche i video. Nella primavera del 2025, i generatori di video basati sull'intelligenza artificiale sono ancora agli albori del loro sviluppo. Eppure, nonostante occasionali malfunzionamenti, transizioni instabili e una logica talvolta incoerente, stanno già mostrando risultati impressionanti. Il fatto che i video generati siano considerati la prossima grande pietra miliare dell'IA è dovuto al loro potenziale: modelli come Runway Gen-4 o OpenAI Sora dovrebbero rendere possibili i cosiddetti «General World Models». Si tratta di sistemi di IA che non solo generano contenuti, ma possiedono anche una comprensione profonda e basata sulla fisica del mondo.
Direttamente al tema
Condividi la pagina
I generatori di video AI sono la nuova generazione della generazione di immagini e combinano immagini e movimento. È possibile creare video AI da zero o modificare video esistenti. Ma come funziona dal punto di vista tecnico, quali meccanismi ci sono dietro?
I primi approcci alla generazione di video tramite IA si basavano sulla generazione di immagini e sulla loro sequenza. I sistemi moderni, invece, mirano a una comprensione fisica e riproducono il mondo rispettando i principi fisici.
AnimateDiff: è uno dei primi approcci ed è un'evoluzione dei modelli da testo a immagine come Midjourney, in cui le singole immagini generate vengono animate in modo dinamico. Funziona così:
L'IA impara attraverso l'addestramento con dati video reali come ricavare immagini successive da un'immagine originale. L'IA collega tra loro la serie di immagini così generate e crea un video.
Il trucco? L'immagine 1 viene semplicemente aggiunta all'immagine 2, senza seguire una sceneggiatura generale o i principi fisici del nostro mondo. Spesso i risultati hanno un effetto leggermente psichedelico, mostrando oggetti che si trasformano l'uno nell'altro o che confondono l'osservatore con un leggero effetto di scatto. La composizione varia da immagine a immagine e la qualità del movimento spesso non sembra reale quando si guarda.
Esempi video e ulteriori informazioni su AnimateDiff(apre una nuova finestra)
Sora (OpenAI): appartiene alla categoria del «World Building». Ciò significa che i generatori di video basati sull'intelligenza artificiale come Sora combinano da un lato modelli Transformer e modelli di diffusione e dall'altro introducono la componente spazio-temporale (di cui parleremo più avanti). Funziona così: con l'aiuto del modello Transformer, l'intelligenza artificiale prevede le parole più probabili che seguiranno. In questo modo può elaborare il tuo prompt di origine in un prompt tecnicamente realizzabile per il video. Potrebbe essere qualcosa del genere:
Il modello di diffusione implementa quindi questo nuovo prompt. In più fasi, elabora le singole immagini da un rumore: fino a questo punto, il processo è simile alla generazione di immagini.
Affinché le immagini generate possano essere unite in modo logico e armonioso, l'IA necessita di una comprensione fisica di base. Sora riesce in questo grazie ai cosiddetti patch spazio-temporali.
Cosa sono i patch spazio-temporali?
L'IA sviluppa la sua comprensione dello spazio-tempo scomponendo miliardi di video nelle loro unità più piccole (token) e analizzandoli: i video diventano singole immagini, le singole immagini diventano aree di colore, le aree di colore diventano pixel di colore, i pixel di colore diventano numeri. Attraverso le regolarità di questi numeri, l'IA impara a conoscere le regolarità del nostro mondo fisico e a calcolarle autonomamente.
Troppo astratto? L'IA impara che quando una mela (come altri oggetti) cade, grazie alla forza di gravità si muove sempre in linea retta verso il suolo. Grazie a questa conoscenza acquisita, OpenAI Sora è ora in grado di far cadere la mela nel video in modo incredibilmente realistico.
Esempi video e ulteriori informazioni su Sora di OpenAI(apre una nuova finestra)
«Penso a come il cane si muoverà in questa immagine e genero immagini simili e consecutive».
«Ho imparato i principi fisici che regolano il funzionamento del mondo e genero un video basato sulle mie conoscenze di come un cane salta».
Ti è venuta voglia di provare e vuoi creare un video? Qui trovi i modelli più popolari del momento e le loro caratteristiche:
Modello | Fornitore | Lunghezza clip | Caratteristiche speciali |
Veo 2(apre una nuova finestra) | Google DeepMind | 8s (720p-4K) | Ottima fisica del movimento, scene dettagliate e stile variabile, integrazione con Gemini e Vertex AI |
OpenAI Sora(apre una nuova finestra) | OpenAI | 20s (1080p) | Editor di storyboard, integrazione con ChatGPT |
Runway Gen-4(apre una nuova finestra) | Runway | 10s (30s di rendering) | Alta qualità cinematografica, elaborazione rapida, esportazione in 4K, personaggi coerenti |
Pika 2.2(apre una nuova finestra) | Pika | 3-15s | Funzioni di ritocco con effetti creativi per le transizioni tra le scene |
WAN 2.1(apre una nuova finestra) | Wan AI, Alibaba | 2-3s (720p) | Modello open source/gratuito, in grado di riprodurre bene testi in cinese e inglese nei video |
Data la forte domanda, anche il mercato dei generatori di video sta vivendo una rapida evoluzione. Già oggi esistono numerosi IA video e ogni giorno se ne aggiungono di nuovi.
Ma chi ha l'imbarazzo della scelta, ha anche l'imbarazzo della scelta, giusto? Ecco perché ti consigliamo di informarti sulle caratteristiche specifiche e sui campi di applicazione tipici dei diversi modelli (puoi anche chiedere consiglio a chatbot basati sull'intelligenza artificiale come ChatGPT o Perplexity) e poi scegliere quello più adatto alle tue esigenze.
Il video Generation Arena Leaderboard(apre una nuova finestra) fornisce un confronto continuo delle prestazioni.
Quando generi dei video, procedi in modo simile alla creazione di immagini. Tuttavia, ci sono alcune cose aggiuntive da tenere a mente per ottenere i video che desideri.
Partiamo dall'inizio: da dove inizi? Ci sono diverse possibilità: il testo è solitamente considerato il mezzo di input per i generatori di video. Tuttavia, alcune IA video funzionano anche con le immagini.
I video generati possono avere diversi scopi:
Se utilizzi generatori video come OpenAI Sora o Runway Gen-4, descrivi la scena desiderata in dettaglio. Informa l'IA su:
Suggerimento: puoi anche ricorrere a un'intelligenza artificiale testuale e incaricarla di ottimizzare il tuo prompt per la realizzazione del video.
Immagina il tuo video come una serie di mini scene con transizioni tra una scena e l'altra. Affinché l'IA sappia esattamente cosa ti aspetti da lei, crea uno storyboard con chiare istruzioni di regia per ogni mini scena e transizione. La funzione storyboard di OpenAI Sora ti aiuta a suddividere le scene.
Suggerimento: descrivi solo un movimento per ogni scena. L'IA seguirà meglio le tue indicazioni se non specifichi troppi cambiamenti contemporaneamente. Se nella scena succedono molte cose, chiediti: posso suddividere ulteriormente la scena? In questo modo renderai il lavoro dell'IA più facile e otterrai risultati migliori.
Un esempio? Riprendiamo il nostro esempio delle mele:
Scena 1: atmosfera estiva
Scena 2: ripresa lungo l'albero
Scena 3: La mela si stacca
A seconda del modello, sono disponibili diversi formati (ad esempio 9:16 o 16:9). Poiché la modifica successiva del video può ridurne la qualità, è meglio decidere fin dall'inizio quale formato finale si desidera ottenere. E lasciare che sia l'IA a generarlo direttamente.
La generazione di video tramite IA non è una scienza esatta, ma un processo creativo. E i processi creativi raramente procedono in modo lineare. Quindi, se occorrono due o tre tentativi per ogni scena prima che il video soddisfi le tue aspettative, sii paziente con l'IA e con te stesso.
Suggerimento: piccole modifiche al prompt possono talvolta avere grandi effetti. Ecco un altro esempio:
Se sei soddisfatto del video generato, puoi modificarlo ulteriormente. A tal fine puoi utilizzare altri strumenti, ad esempio: Recut(apre una nuova finestra) ti consente di accorciare i video generati dall'IA o di esportare determinati frammenti. Con Remix AI Video & Images(apre una nuova finestra) di Google puoi modificare in modo mirato gli elementi del tuo video, ad esempio sostituire una persona, modificare lo sfondo o generare un nuovo movimento.
Impari in modo visivo o desideri approfondire le tue conoscenze? Allora ti consigliamo i tutorial sull'intelligenza artificiale di Futurepedia(apre una nuova finestra).
Anche se non hai creato tu stesso un video, nel momento in cui lo condividi diventi parte integrante della catena di diffusione. Sii sempre consapevole di questa responsabilità.
L'autore Dan Taylor Watt ha confrontato numerosi generatori di video basati sull'intelligenza artificiale nel suo blog, utilizzando sempre lo stesso prompt per testare le capacità dei diversi sistemi. Ecco una panoramica dei cinque generatori più diffusi.
Generatore video: VEO 2.
Generatore video: Sora.
Generatore video: Runway Gen-4.
Generatore video: PIKA 2.
Generatore video: WAN 2.
A woman pushing a buggy across a zebra crossing whilst talking on her phone and walking her whippet
(Una donna che spinge un passeggino su un passaggio pedonale mentre parla al telefono e porta a spasso il suo whippet)
I modelli più recenti raggiungono una qualità superiore grazie alla comprensione dei principi fisici. Sia le immagini che i video in stile fotorealistico possono quindi apparire incredibilmente reali. Ciò comporta opportunità e rischi.
Riflessioni etiche e sociali sono presenti anche nella nostra guida digitale sull'IA generativa delle immagini.
I deepfake video sono video manipolati con l'aiuto dell'intelligenza artificiale. In questo modo vengono falsificate dichiarazioni o utilizzati in modo improprio dati personali per sovrapporre un volto a un altro. Sono colpiti soprattutto personaggi famosi, molti dei quali hanno dati digitali disponibili su Internet che consentono di generare immagini del loro volto.
Che cos'è esattamente un deepfake? Datenschutzgesetze.eu definisce i deepfake come segue:
[Il termine] «deepfake» [indica] un contenuto visivo, audio o video generato o manipolato tramite IA che assomiglia a persone, oggetti, luoghi, strutture o eventi reali e che potrebbe essere erroneamente considerato autentico o veritiero da una persona.
I deepfake si distinguono per l'uso dell'intelligenza artificiale a fini di manipolazione. I shallowfake si differenziano concettualmente dai deepfake. Comprendono falsificazioni realizzate con classici programmi di editing e elaborazione delle immagini.
Con il continuo miglioramento dell'intelligenza artificiale, sta diventando sempre più difficile riconoscere i deepfake. Alcune caratteristiche a cui prestare attenzione per smascherare i deepfake video sono:
Osserva le proporzioni del viso e della testa: sono proporzionate? Nei deepfake, la testa a volte è leggermente ruotata o posizionata in modo innaturale sul corpo. Anche il passaggio dal viso al collo può meritare una seconda occhiata.
Fai attenzione a salti improvvisi dell'immagine, angolazioni illogiche della telecamera o tagli bruschi. Presta particolare attenzione ai cambi di scena.
L'immagine e l'audio sono sincronizzati? Soprattutto nei deepfake più vecchi, spesso i movimenti delle labbra non corrispondono perfettamente al testo pronunciato. Controlla che la bocca si muova correttamente (soprattutto con le parole difficili).
Il nostro linguaggio corporeo è complesso e dipende dal contesto. Nei deepfake manca il legame naturale tra mente e corpo che controlla intuitivamente i movimenti. I movimenti nei deepfake possono quindi apparire uniformi o semplicemente non corrispondere a ciò che viene detto o a una determinata emozione.
Lo sguardo di una persona rivela molto, perché anche uno sguardo può essere un modo di comunicare. Verifica quindi: gli occhi sembrano vivi? Nei deepfake gli occhi sono spesso fissi, vuoti o innaturalmente lucidi. A volte anche il battito delle palpebre può risultare fastidioso, perché robotico o del tutto assente.
Le fonti di luce nell'immagine sono logiche e uniformi? Le ombre cadono correttamente e nella stessa direzione su tutto il viso e sul corpo? Questo può essere un indizio prezioso: spesso i deepfake possono essere smascherati grazie a un'incongruenza nella proiezione delle ombre.
La rappresentazione delle mani è ancora un punto debole in molti modelli. Guarda attentamente le dita dell'IA e delle persone nel video: ci sono posizioni delle dita strane o situazioni irrealistiche, ad esempio quando le dita si sovrappongono o sembrano muoversi attraverso un oggetto?
Come nel caso delle fake news, verifica anche la fonte del video. Guarda il video a schermo intero per poter cogliere il maggior numero possibile di dettagli. E mantieni sempre un atteggiamento diffidente e cauto: se non sei sicuro della veridicità del contenuto, è meglio non condividere il video.
Esistono ormai anche piattaforme che possono aiutarti a smascherare i deepfake: Deepware scanner(apre una nuova finestra), Deepfake-o-meter(apre una nuova finestra), ecc. A seconda del livello tecnologico della piattaforma, i risultati devono però essere considerati con cautela (vedi a questo proposito lo studio del febbraio 2025)(apre una nuova finestra). Alla fine, lo strumento migliore rimane il buon senso.
Mettiti alla prova con il quiz sui deepfake della SRF: Quanto sei bravo a riconoscere i deepfake?(apre una nuova finestra)
Abbiamo raccolto ulteriori informazioni e contenuti sul tema «Generatori di video con IA» qui.