«Cara IA, trasforma la vecchia foto
di famiglia in un video.» 

ⓘ​  Questa pagina è stata tradotta con l'aiuto dell'intelligenza artificiale.

13 minuti

Generatori di video con IA: prendi il comando

Prima i testi, poi le immagini e ora anche i video. Nella primavera del 2025, i generatori di video basati sull'intelligenza artificiale sono ancora agli albori del loro sviluppo. Eppure, nonostante occasionali malfunzionamenti, transizioni instabili e una logica talvolta incoerente, stanno già mostrando risultati impressionanti. Il fatto che i video generati siano considerati la prossima grande pietra miliare dell'IA è dovuto al loro potenziale: modelli come Runway Gen-4 o OpenAI Sora dovrebbero rendere possibili i cosiddetti «General World Models». Si tratta di sistemi di IA che non solo generano contenuti, ma possiedono anche una comprensione profonda e basata sulla fisica del mondo.

In questa pagina sono presenti i seguenti argomenti:

Tema

Come funzionano i generatori di
video basati sull'intelligenza artificiale?

I generatori di video AI sono la nuova generazione della generazione di immagini e combinano immagini e movimento. È possibile creare video AI da zero o modificare video esistenti. Ma come funziona dal punto di vista tecnico, quali meccanismi ci sono dietro?

I primi approcci alla generazione di video tramite IA si basavano sulla generazione di immagini e sulla loro sequenza. I sistemi moderni, invece, mirano a una comprensione fisica e riproducono il mondo rispettando i principi fisici.

AnimateDiff: è uno dei primi approcci ed è un'evoluzione dei modelli da testo a immagine come Midjourney, in cui le singole immagini generate vengono animate in modo dinamico. Funziona così:

L'IA impara attraverso l'addestramento con dati video reali come ricavare immagini successive da un'immagine originale. L'IA collega tra loro la serie di immagini così generate e crea un video.

Il trucco? L'immagine 1 viene semplicemente aggiunta all'immagine 2, senza seguire una sceneggiatura generale o i principi fisici del nostro mondo. Spesso i risultati hanno un effetto leggermente psichedelico, mostrando oggetti che si trasformano l'uno nell'altro o che confondono l'osservatore con un leggero effetto di scatto. La composizione varia da immagine a immagine e la qualità del movimento spesso non sembra reale quando si guarda.
 
Esempi video e ulteriori informazioni su AnimateDiff(apre una nuova finestra)

Sora (OpenAI): appartiene alla categoria del «World Building». Ciò significa che i generatori di video basati sull'intelligenza artificiale come Sora combinano da un lato modelli Transformer e modelli di diffusione e dall'altro introducono la componente spazio-temporale (di cui parleremo più avanti). Funziona così: con l'aiuto del modello Transformer, l'intelligenza artificiale prevede le parole più probabili che seguiranno. In questo modo può elaborare il tuo prompt di origine in un prompt tecnicamente realizzabile per il video. Potrebbe essere qualcosa del genere: 

  1. Il tuo prompt: Una mela cade dall'albero.  
  2. Prompt generato dal trasformatore: Una calda giornata estiva in un idilliaco frutteto. La luce dorata del sole inonda la scena, l'aria vibra leggermente. La telecamera si sposta dolcemente dal basso verso l'alto lungo il tronco di un melo (tracking shot). Al rallentatore, una mela rosso brillante si stacca da un ramo. La telecamera passa alla ripresa in sequenza (follow shot) mentre la mela cade lentamente verso terra. Mentre ruota nell'aria, la luce si riflette sulla sua superficie lucida. Infine, con un leggero «plop», atterra in un cesto intrecciato pieno di altre mele rosse. La telecamera zoomma da vicino, mostrando il movimento dell'impatto in ultra slow motion. Il rumore del vento e il cinguettio degli uccelli accompagnano la scena.

Il modello di diffusione implementa quindi questo nuovo prompt. In più fasi, elabora le singole immagini da un rumore: fino a questo punto, il processo è simile alla generazione di immagini.  

Affinché le immagini generate possano essere unite in modo logico e armonioso, l'IA necessita di una comprensione fisica di base. Sora riesce in questo grazie ai cosiddetti patch spazio-temporali.  

Cosa sono i patch spazio-temporali?  
L'IA sviluppa la sua comprensione dello spazio-tempo scomponendo miliardi di video nelle loro unità più piccole (token) e analizzandoli: i video diventano singole immagini, le singole immagini diventano aree di colore, le aree di colore diventano pixel di colore, i pixel di colore diventano numeri. Attraverso le regolarità di questi numeri, l'IA impara a conoscere le regolarità del nostro mondo fisico e a calcolarle autonomamente.  

Troppo astratto? L'IA impara che quando una mela (come altri oggetti) cade, grazie alla forza di gravità si muove sempre in linea retta verso il suolo. Grazie a questa conoscenza acquisita, OpenAI Sora è ora in grado di far cadere la mela nel video in modo incredibilmente realistico.  
 
Esempi video e ulteriori informazioni su Sora di OpenAI(apre una nuova finestra)

Secondo il motto

AnimateDiff

«Penso a come il cane si muoverà in questa immagine e genero immagini simili e consecutive».

 
Sora

«Ho imparato i principi fisici che regolano il funzionamento del mondo e genero un video basato sulle mie conoscenze di come un cane salta».

Tema

Quali saranno i migliori generatori
di video nel 2025?  

Ti è venuta voglia di provare e vuoi creare un video? Qui trovi i modelli più popolari del momento e le loro caratteristiche:

Modello Fornitore Lunghezza clip Caratteristiche speciali
Veo 2(apre una nuova finestra) Google DeepMind 8s (720p-4K) Ottima fisica del movimento, scene dettagliate e stile variabile, integrazione con Gemini e Vertex AI
OpenAI Sora(apre una nuova finestra) OpenAI 20s (1080p) Editor di storyboard, integrazione con ChatGPT
Runway Gen-4(apre una nuova finestra) Runway 10s (30s di rendering) Alta qualità cinematografica, elaborazione rapida, esportazione in 4K, personaggi coerenti
Pika 2.2(apre una nuova finestra) Pika 3-15s Funzioni di ritocco con effetti creativi per le transizioni tra le scene
WAN 2.1(apre una nuova finestra) Wan AI, Alibaba 2-3s (720p) Modello open source/gratuito, in grado di riprodurre bene testi in cinese e inglese nei video

E non sono ancora tutti!

Data la forte domanda, anche il mercato dei generatori di video sta vivendo una rapida evoluzione. Già oggi esistono numerosi IA video e ogni giorno se ne aggiungono di nuovi. 

Ma chi ha l'imbarazzo della scelta, ha anche l'imbarazzo della scelta, giusto? Ecco perché ti consigliamo di informarti sulle caratteristiche specifiche e sui campi di applicazione tipici dei diversi modelli (puoi anche chiedere consiglio a chatbot basati sull'intelligenza artificiale come ChatGPT o Perplexity) e poi scegliere quello più adatto alle tue esigenze.  

Il video Generation Arena Leaderboard(apre una nuova finestra) fornisce un confronto continuo delle prestazioni.

Tema

Come posso creare dei video?

Quando generi dei video, procedi in modo simile alla creazione di immagini. Tuttavia, ci sono alcune cose aggiuntive da tenere a mente per ottenere i video che desideri.

Partiamo dall'inizio: da dove inizi? Ci sono diverse possibilità: il testo è solitamente considerato il mezzo di input per i generatori di video. Tuttavia, alcune IA video funzionano anche con le immagini. 

I video generati possono avere diversi scopi: 

  • In ambito privato: brevi video per TikTok, Reels o Stories; video personali di saluto o invito; ricordi
  • Nell'ambito dell'apprendimento: video esplicativi; escursioni virtuali; immagini storiche che prendono vita; formazione sulle competenze mediatiche attraverso la creazione consapevole di esempi di deepfake
  • Se vuoi essere creativo: progetti video sperimentali; progetti musicali, storytelling
  • Al lavoro: content marketing; video formativi; brainstorming e prototipazione

Ecco come procedere:

Se utilizzi generatori video come OpenAI Sora o Runway Gen-4, descrivi la scena desiderata in dettaglio. Informa l'IA su: 

  • Contenuto: cosa si vede?
  • Stile: cinematografico, animato, 3D, surreale, retrò, documentario, ecc.
  • Movimento: quale prospettiva e movimento riprende la telecamera? Ci sono zoom, slow motion o cambi di prospettiva nella scena?
  • Dettagli: dettagli atmosferici come l'incidenza della luce, il tempo, i colori, ecc.

Suggerimento: puoi anche ricorrere a un'intelligenza artificiale testuale e incaricarla di ottimizzare il tuo prompt per la realizzazione del video. 

Ulteriori suggerimenti per l'IA delle immagini

Immagina il tuo video come una serie di mini scene con transizioni tra una scena e l'altra. Affinché l'IA sappia esattamente cosa ti aspetti da lei, crea uno storyboard con chiare istruzioni di regia per ogni mini scena e transizione. La funzione storyboard di OpenAI Sora ti aiuta a suddividere le scene.  

Suggerimento: descrivi solo un movimento per ogni scena. L'IA seguirà meglio le tue indicazioni se non specifichi troppi cambiamenti contemporaneamente. Se nella scena succedono molte cose, chiediti: posso suddividere ulteriormente la scena? In questo modo renderai il lavoro dell'IA più facile e otterrai risultati migliori.

Un esempio? Riprendiamo il nostro esempio delle mele:

Scena 1: atmosfera estiva

  • Inquadratura: ampia ripresa totale di un frutteto inondato dal sole.
  • Dettagli: l'erba ondeggia leggermente, i raggi del sole filtrano attraverso le chiome degli alberi.
  • Suono: cinguettio degli uccelli, leggero fruscio del vento.
  • Durata: 2 secondi

Scena 2: ripresa lungo l'albero

  • Inquadratura: lento movimento della telecamera dal basso verso l'alto lungo il tronco dell'albero.
  • Dettagli: focus sulla corteccia, riflessi di luce che tremolano attraverso le foglie.
  • Suono: permane la calma atmosfera naturale.
  • Durata: 2 secondi

Scena 3: La mela si stacca

  • Inquadratura: primo piano di una mela rossa e matura.
  • Dettagli: al rallentatore, la mela si stacca lentamente dal ramo – il picciolo si spezza in modo visibile.
  • Luce: lucentezza sulla buccia della mela, riflessi del sole danzano sulla superficie.
  • Suono: leggero scricchiolio durante lo stacco.
  • Durata: 2 secondi

A seconda del modello, sono disponibili diversi formati (ad esempio 9:16 o 16:9). Poiché la modifica successiva del video può ridurne la qualità, è meglio decidere fin dall'inizio quale formato finale si desidera ottenere. E lasciare che sia l'IA a generarlo direttamente.

La generazione di video tramite IA non è una scienza esatta, ma un processo creativo. E i processi creativi raramente procedono in modo lineare. Quindi, se occorrono due o tre tentativi per ogni scena prima che il video soddisfi le tue aspettative, sii paziente con l'IA  e con te stesso.

Suggerimento: piccole modifiche al prompt possono talvolta avere grandi effetti. Ecco un altro esempio:

  • Prompt iniziale: in un giorno d'estate, una mela rossa cade da un albero in un cesto pieno di mele.
  • Variante 1 del prompt – più emozioni: in un drammatico rallentatore, una mela rossa lucida cade da un albero mentre nuvole scure si addensano sullo sfondo. La mela atterra nel cesto con un rumore sordo.
  • Prompt variante 2 – più fiabesco: una mela completamente rossa (come quella di Biancaneve) cade da un albero in un paesaggio estivo fiabesco immerso in una luce calda e atterra delicatamente in un cesto intrecciato.

Se sei soddisfatto del video generato, puoi modificarlo ulteriormente. A tal fine puoi utilizzare altri strumenti, ad esempio: Recut(apre una nuova finestra) ti consente di accorciare i video generati dall'IA o di esportare determinati frammenti. Con Remix AI Video & Images(apre una nuova finestra) di Google puoi modificare in modo mirato gli elementi del tuo video, ad esempio sostituire una persona, modificare lo sfondo o generare un nuovo movimento. 

Impari in modo visivo o desideri approfondire le tue conoscenze? Allora ti consigliamo i tutorial sull'intelligenza artificiale di Futurepedia(apre una nuova finestra).  

Lista di controllo: condividere video generati dall'IA

Come condividere in modo responsabile i video generati dall'IA?
  1. Nel video sono riconoscibili persone reali (voce, aspetto fisico)? Assicurati che condividendo video generati dall'intelligenza artificiale non violi i diritti della personalità e non metta in imbarazzo nessuno.
  2. Nel video sono presenti elementi protetti da copyright? È meglio evitare elementi protetti da copyright come loghi, musica o opere d'arte nei video per non provocare controversie.
  3. Altre persone potrebbero fraintendere il video? Mettiti nei panni degli altri e chiediti: il video potrebbe causare malintesi o diffondere fake news? Se sì, è meglio non condividerlo.
  4. Ho contrassegnato il video AI come generato dall'intelligenza artificiale? Per responsabilità etica nei confronti degli altri, ti consigliamo di dichiarare sempre che le opere generate dall'intelligenza artificiale sono state create dall'intelligenza artificiale.

Anche se non hai creato tu stesso un video, nel momento in cui lo condividi diventi parte integrante della catena di diffusione. Sii sempre consapevole di questa responsabilità.

Tema

Esempi: ecco come saranno i video generati nel 2025

L'autore Dan Taylor Watt ha confrontato numerosi generatori di video basati sull'intelligenza artificiale nel suo blog, utilizzando sempre lo stesso prompt per testare le capacità dei diversi sistemi. Ecco una panoramica dei cinque generatori più diffusi.

Generatore video: VEO 2.

Generatore video: Sora.

Generatore video: Runway Gen-4.

Generatore video: PIKA 2.

Generatore video: WAN 2.

Il prompt utilizzato:

A woman pushing a buggy across a zebra crossing whilst talking on her phone and walking her whippet

(Una donna che spinge un passeggino su un passaggio pedonale mentre parla al telefono e porta a spasso il suo whippet)

Fonte dei video(apre una nuova finestra)

Tema

Quali sono le opportunità e i rischi?

I modelli più recenti raggiungono una qualità superiore grazie alla comprensione dei principi fisici. Sia le immagini che i video in stile fotorealistico possono quindi apparire incredibilmente reali. Ciò comporta opportunità e rischi.

Opportunità

  • Produzione video efficiente: riprese complesse, effetti visivi costosi o ore di rendering 3D: molte di queste operazioni potrebbero presto diventare superflue. L'IA può accelerare notevolmente i processi, in particolare nell'animazione. I modelli generano infatti un output 2D che sembra 3D, il che significa una frazione del tempo di calcolo.
  • Tutto è possibile: un'IA può realizzare qualsiasi sequenza di immagini: sogni, immagini surreali e mondi fantastici. Ciò che prima richiedeva un intero team di artisti, oggi può essere realizzato da un solo creativo.

Rischi

  • Deepfake e manipolazione: i deepfake sono video che sembrano autentici, ma il cui contenuto è stato modificato in modo da renderlo falso. La tecnologia alla base dei deepfake non è nuova, ma con i generatori di video è diventata ancora più accessibile. Il video virale «Trump Gaza» mostra in modo impressionante quanto velocemente la finzione possa diventare realtà o confondersi con essa. Per contrastare questo fenomeno, le principali aziende tecnologiche e case editrici hanno lanciato l'iniziativa C2PA, che mira a rendere riconoscibile la fonte dei media digitali tramite filigrane invisibili.
  • Pericolo di semplicismo: diverse intelligenze artificiali vengono addestrate con dati simili. Prevedendo i risultati più probabili, l'enfasi costante su modelli e temi già generali e diffusi porta nel tempo a un'uniformità dei risultati. La creatività originale si sposta così a monte della realizzazione, dove saranno principalmente la concezione e la formulazione dello storyboard a determinare la creatività dei video.

Riflessioni etiche e sociali sono presenti anche nella nostra guida digitale sull'IA generativa delle immagini

Tema

Riconoscere i deepfake video come tali

I deepfake video sono video manipolati con l'aiuto dell'intelligenza artificiale. In questo modo vengono falsificate dichiarazioni o utilizzati in modo improprio dati personali per sovrapporre un volto a un altro. Sono colpiti soprattutto personaggi famosi, molti dei quali hanno dati digitali disponibili su Internet che consentono di generare immagini del loro volto.

Che cos'è esattamente un deepfake? Datenschutzgesetze.eu definisce i deepfake come segue: 

[Il termine] «deepfake» [indica] un contenuto visivo, audio o video generato o manipolato tramite IA che assomiglia a persone, oggetti, luoghi, strutture o eventi reali e che potrebbe essere erroneamente considerato autentico o veritiero da una persona.

I deepfake si distinguono per l'uso dell'intelligenza artificiale a fini di manipolazione. I shallowfake si differenziano concettualmente dai deepfake. Comprendono falsificazioni realizzate con classici programmi di editing e elaborazione delle immagini.

Caratteristiche distintive: come smascherare i video deepfake

Con il continuo miglioramento dell'intelligenza artificiale, sta diventando sempre più difficile riconoscere i deepfake. Alcune caratteristiche a cui prestare attenzione per smascherare i deepfake video sono:

Osserva le proporzioni del viso e della testa: sono proporzionate? Nei deepfake, la testa a volte è leggermente ruotata o posizionata in modo innaturale sul corpo. Anche il passaggio dal viso al collo può meritare una seconda occhiata.

Fai attenzione a salti improvvisi dell'immagine, angolazioni illogiche della telecamera o tagli bruschi. Presta particolare attenzione ai cambi di scena.

L'immagine e l'audio sono sincronizzati? Soprattutto nei deepfake più vecchi, spesso i movimenti delle labbra non corrispondono perfettamente al testo pronunciato. Controlla che la bocca si muova correttamente (soprattutto con le parole difficili).

Il nostro linguaggio corporeo è complesso e dipende dal contesto. Nei deepfake manca il legame naturale tra mente e corpo che controlla intuitivamente i movimenti. I movimenti nei deepfake possono quindi apparire uniformi o semplicemente non corrispondere a ciò che viene detto o a una determinata emozione.

Lo sguardo di una persona rivela molto, perché anche uno sguardo può essere un modo di comunicare. Verifica quindi: gli occhi sembrano vivi? Nei deepfake gli occhi sono spesso fissi, vuoti o innaturalmente lucidi. A volte anche il battito delle palpebre può risultare fastidioso, perché robotico o del tutto assente.

Le fonti di luce nell'immagine sono logiche e uniformi? Le ombre cadono correttamente e nella stessa direzione su tutto il viso e sul corpo? Questo può essere un indizio prezioso: spesso i deepfake possono essere smascherati grazie a un'incongruenza nella proiezione delle ombre.

La rappresentazione delle mani è ancora un punto debole in molti modelli. Guarda attentamente le dita dell'IA e delle persone nel video: ci sono posizioni delle dita strane o situazioni irrealistiche, ad esempio quando le dita si sovrappongono o sembrano muoversi attraverso un oggetto? 

Come nel caso delle fake news, verifica anche la fonte del video. Guarda il video a schermo intero per poter cogliere il maggior numero possibile di dettagli. E mantieni sempre un atteggiamento diffidente e cauto: se non sei sicuro della veridicità del contenuto, è meglio non condividere il video.

Esistono ormai anche piattaforme che possono aiutarti a smascherare i deepfake: Deepware scanner(apre una nuova finestra), Deepfake-o-meter(apre una nuova finestra), ecc. A seconda del livello tecnologico della piattaforma, i risultati devono però essere considerati con cautela (vedi a questo proposito lo studio del febbraio 2025)(apre una nuova finestra). Alla fine, lo strumento migliore rimane il buon senso.

Mettiti alla prova con il quiz sui deepfake della SRF: Quanto sei bravo a riconoscere i deepfake?(apre una nuova finestra)

Materiale didattico: Deepfake spiegati ai bambini 

SRF school ha messo a disposizione nel 2020 materiale didattico per i livelli Sek I e Sek II (media e informatica, società, etica): Spiegato ai bambini – Cosa sono i deepfake?(apre una nuova finestra)

I fatti più importanti in breve

  • I cosiddetti patch spazio-temporali consentono a modelli come OpenAI Sora di acquisire una comprensione fisica di base del nostro mondo. Ciò permette all'IA di generare video che sembrano incredibilmente reali.
  • Per la generazione di video, è utile per l'IA se pensi in termini di scene e crei uno storyboard con istruzioni precise per ogni mini-scena.
  • I deepfake sono sempre più difficili da riconoscere. Il nostro elenco di caratteristiche distintive può essere d'aiuto.