ⓘ Cette page a été traduite à l'aide de l'intelligence artificielle.
Une image photoréaliste représentant une vache surfant dans la mer et poussant des cris de joie: cela a longtemps été considéré comme impossible. Aujourd’hui, ce genre de sujets fait partie du quotidien. Et depuis longtemps déjà, il ne s’agit plus seulement de générer des images: la dernière génération d’IA d’image peut être commandée par dialogue. Il suffit de télécharger une image et de décrire ce qui doit être modifié pour que l'IA s'exécute avec précision. Sur cette page, nous expliquons comment fonctionnent les IA d'image, présentons les modèles les plus connus, montrons des cas d'utilisation utiles pour la vie quotidienne, l'école et le travail, et vous dévoilons comment reconnaître les images générées par l'IA.
Aller directement au sujet
Partager la page
Comme pour l'IA textuelle, il existe de plus en plus de modèles d'IA générateurs d'images. GPT-4o et Midjourney sont actuellement les modèles les plus performants en termes de qualité.
GPT Image est le modèle de génération et de retouche d'images d'OpenAI. Successeur de DALL·E, GPT Image remplace également GPT-4o. Ce modèle est particulièrement performant pour interpréter les invites, car le texte et l'image sont générés au sein du même réseau neuronal. Cela permet de modifier de manière ciblée certains éléments ou zones d'une image.
Recommandé à partir de 13 ans
Web, application, API pour développeurs, Microsoft Copilot
Essayer GPT Image: https://chat.openai.com/(ouvre une nouvelle fenêtre)
Midjourney est considéré comme la «référence absolue» en matière de génération d'images par IA et est réputé pour la richesse de ses styles et sa qualité artistique. C'est ce qui distingue ce modèle d'image spécialisé des outils polyvalents tels que GPT Image. La version 7 (2025) apporte un calibrage de style personnalisé, la saisie vocale et, pour la première fois, la génération de vidéos. Les images existantes peuvent être animées sous forme de clips d'une durée maximale de 21 secondes.
Recommandé à partir de 13 ans
Web, Discord
Essayer Midjourney: https://midjourney.com/home(ouvre une nouvelle fenêtre)
Pour les utilisateurs avancés: Midjourney Parameter(ouvre une nouvelle fenêtre)
Canva est une plateforme de conception très appréciée qui propose, avec Dream Lab, un outil puissant de génération d'images par IA. L'accent est mis sur la simplicité d'utilisation et l'intégration directe dans les projets existants. Depuis 2025, Nano Banana Pro de Google est également intégré, ce qui améliore considérablement le traitement des images et la mise en forme du texte.
Recommandé à partir de 13 ans
Web, application
Essayer Canva AI: https://www.canva.com/ (ouvre une nouvelle fenêtre)
Adobe Firefly est passé d'un simple générateur d'images basé sur l'IA à un studio créatif autonome dédié à l'IA. Celui-ci réunit la génération et le montage d'images, de vidéos et d'audio sur une seule et même plateforme. L'approche éthique reste une caractéristique essentielle, car tous les modèles propres à Firefly ont été entraînés exclusivement avec du contenu sous licence, des images Adobe Stock et des œuvres du domaine public, et peuvent donc être utilisés sans risque sur le plan commercial.
À partir de 13 ans
Adobe Creative Cloud, Web, application
Essayer Firefly: https://firefly.adobe.com/ (ouvre une nouvelle fenêtre)
Si vous souhaitez avoir davantage de contrôle sur la génération d'images, vous trouverez votre bonheur dans l'univers open source. Contrairement aux IA d'imagerie commerciales, ces modèles fonctionnent localement sur votre propre ordinateur, sans abonnement et sans cloud. En contrepartie, ils offrent une flexibilité maximale. Ils conviennent parfaitement aux développeurs, aux créatifs passionnés ainsi qu'aux organisations soucieuses de la protection des données. La prise en main nécessite toutefois des compétences techniques et un matériel performant.
Comparatif de notre sélection de modèles open source:
https://huggingface.co/black-forest-labs/FLUX.1-schnell(ouvre une nouvelle fenêtre)
Licence: Apache 2.0
Particularités: rapide, haute qualité et libre d’utilisation à des fins commerciales
https://huggingface.co/stabilityai/stable-diffusion-3.5-large(ouvre une nouvelle fenêtre)
Licence: licence communautaire
Particularités: grande communauté, large variété de styles disponibles
Licence: Open Weights (Tencent Hunyuan Community License)
Particularités: modèle autorégressif, performant en haute résolution, utilisable même sur du matériel moins puissant
Les modèles open source sont des installations locales disponibles via des plateformes web telles que Hugging Face(ouvre une nouvelle fenêtre).
Nano Banana Pro (nom officiel: Gemini 3 Pro Image) est le modèle de génération d'images le plus avancé de Google. Lancé en novembre 2025, il est directement intégré à l'écosystème de produits Google. Ce modèle se distingue par une qualité photoréaliste et une représentation précise du texte en plusieurs langues.
À partir de 13 ans (à partir de 18 ans dans l'UE et au Royaume-Uni)
Application Gemini, Google Workspace, NotebookLM, Recherche Google, API
Essayer Nano Banana Pro: https://gemini.google.com/(ouvre une nouvelle fenêtre)
Quelle est la différence de qualité entre les générateurs d'images les plus connus lorsqu'ils exécutent la même commande?
« Style bande dessinée mignon, grand angle, éléphant en peluche serrant la main d'une souris, coucher de soleil, couleurs chaudes – format 16:9 »
La nouvelle génération de générateurs d'images basés sur l'IA fonctionne différemment de ses prédécesseurs: au lieu de se contenter de traiter une simple invite textuelle, les modèles multimodaux tels que GPT Image ou Nano Banana Pro sont capables de comprendre et de traiter simultanément du texte, des images et, dans certains cas, de l'audio. L'utilisation devient ainsi encore plus naturelle et intuitive pour toi.
L'IA multimodale va au-delà du texte et des images (vidéo en allemand).
Ce que cela signifie pour tes invites:
Tu écris une invite textuelle (par exemple « Une pomme rouge sur une table ») et laisses l'IA générer une image.
Tu peux également télécharger une image d'une pomme rouge sur une table et demander à l'IA: «Rends la pomme bleue et ajoute une banane» ou «Crée une scène similaire, mais en hiver».
Avec les modèles multimodaux, tu travailles en dialogue avec l'IA. C'est comme si tu avais une designer personnelle, à qui tu regardes par-dessus l'épaule et à qui tu donnes ton avis en temps réel. L'IA se souvient de l'historique de votre conversation et des versions précédentes de l'image, et peut ainsi faire évoluer l'image de manière itérative avec toi. Des éléments individuels tels que l'éclairage, l'arrière-plan, les couleurs ou les expressions faciales peuvent ainsi être modifiés, tandis que le reste de l'image reste inchangé. Utilise cette fonction de dialogue pour explorer des alternatives, donner des commentaires concrets («J'aime ça, mais pas ça») ou t'approcher petit à petit de l'image que tu souhaites.
Petit bémol: les modèles multimodaux en sont encore à leurs balbutiements et ne sont parfois pas encore tout à fait au point. Il peut donc arriver que l'IA oublie certaines parties de l'image d'origine ou que tous les détails de l'image ne puissent pas être contrôlés pendant la conversation.
Comme les modèles multimodaux sont capables d'analyser et de décrire des images, ils sont également utilisés pour générer des textes alternatifs. Ils formulent ainsi des textes alternatifs destinés aux personnes malvoyantes, qui peuvent être intégrés lors de l'utilisation numérique d'images afin d'améliorer l'accessibilité.
Une bonne consigne fournit des indications sur le style visuel, le contenu concret et le format (selon le modèle). Nous te dévoilons ici d'autres éléments à prendre en compte pour que l'IA génère les images que tu imagines.
Quelques principes à respecter au préalable: veillez à ne pas utiliser de mots de remplissage lorsque vous rédigez votre prompt. La longueur du prompt est essentielle, car les prompts plus longs aident l'IA à mettre en œuvre votre idée. Si vos instructions sont trop détaillées, l'IA peut se perdre et visualiser des éléments qui ne sont peut-être pas si importants pour vous.
Recherchez également des termes techniques issus des arts visuels(ouvre une nouvelle fenêtre) afin de pouvoir donner à l'IA des instructions stylistiques très concrètes.
Chaque IA générative fonctionne légèrement différemment. Mais pour toutes, il est utile de prêter attention à ces éléments fondamentaux:
Tous les générateurs d'images ne comprennent pas l'allemand. Renseigne-toi sur la langue parlée par le générateur d'images souhaité et formule ta requête dans cette langue. (Tu peux également te faire aider par un outil de traduction automatique tel que DeepL(ouvre une nouvelle fenêtre).)
Dans quel style l'image doit-elle être réalisée ? Souhaitez-vous un style artistique stylisé (comme les tableaux de Van Gogh) ou un motif photoréaliste ? Donnez à l'IA une tâche précise à accomplir.
Que voit-on exactement sur la photo? Qu'y a-t-il au premier plan, qu'y a-t-il à l'arrière-plan? Nomme tous les éléments nécessaires.
Dans quelle palette de couleurs l'image doit-elle être générée? Souhaitez-vous une image en noir et blanc ou une mise en scène colorée? D'où vient la lumière dans l'image? Quelle est l'ambiance qui se dégage de l'image?
Certains outils (comme Midjourney) vous permettent de définir vous-même le format de l'image, par exemple des portraits au format 3:4.
Au lieu de décrire un style ou une ambiance avec des mots, tu peux simplement montrer une image à l'IA. Télécharge une photo de référence et demande à l'IA de créer ton image en suivant ce style. Ou bien de développer et de modifier directement l'image de référence.
La génération d'images par IA ne se limite pas à favoriser l'expression artistique. Elle peut t'être d'une aide concrète dans la vie quotidienne de ta famille, ainsi qu'à l'école et au travail. Les possibilités sont bien plus variées que tu ne le penses peut-être.
Créer une carte de Noël avec l'IA (vidéo en allemand).
Tu cherches une nouvelle histoire pour endormir ton enfant? Grâce à des modèles multimodaux, tu peux créer ton propre livre d'images en toute simplicité. L'IA t'aide à faire émerger des idées et formule ton histoire comme tu le souhaites. Elle peut transformer tes croquis rapides en dessins de grande qualité pour illustrer ton livre. Elle peut également te donner des conseils utiles pour l'impression et l'organisation.
Tu souhaites donner un coup de frais à ton salon, peut-être avec un nouveau canapé? Une autre couleur pour les murs? Si tu ne sais pas comment t'y prendre ou si tu n'as pas d'idées, laisse l'IA s'en charger. Photographiez simplement votre salon et essayez différents meubles, couleurs ou styles d'aménagement avec l'IA avant de dépenser votre argent.
«Montre-moi le salon sur la photo téléchargée avec un canapé bleu ciel et des murs blancs immaculés.»
Que ce soit pour un anniversaire, Noël ou un mariage, l'IA te permet de créer des cartes personnalisées au lieu d'offrir des cartes standardisées. Remarque: pense à protéger tes données personnelles et réfléchis bien avant de télécharger des photos de toi ou d'autres personnes (demande leur accord au préalable) dans des IA.
Créer une carte de Noël (vidéo ci-dessus)
Grâce aux modèles autorégressifs, la retouche d'images à l'aide de l'IA devient encore plus simple. Il suffit de télécharger une image (attention: protection des données) et de demander à l'IA, par exemple, de supprimer ou de remplacer l'arrière-plan, ou encore de supprimer une personne spécifique sur une photo. Tu peux également modifier la qualité des photos et redonner un aspect neuf aux images jaunies.
«Restaure ma vieille photo de famille.»
Comment expliquez-vous à vos élèves à quoi ressemblait réellement la vie au Moyen Âge? Les manuels scolaires peuvent parfois être arides et les images illustratives ne sont pas toujours disponibles. Laissez l'IA reconstituer des scènes historiques et discutez-en avec vos élèves en classe:
«À quoi ressemblait cette ville à l'époque par rapport à aujourd'hui?»
Les processus microbiologiques se déroulent à très petite échelle et ne sont généralement pas visibles à l'œil nu. Une IA peut toutefois zoomer très près d'une cellule végétale et rendre visibles des choses invisibles. À l'inverse, elle peut également rendre tangible quelque chose d'incroyablement grand, comme l'évolution de l'être humain en accéléré.
«Transforme mon croquis de cellule que j'ai téléchargé en une illustration réaliste.»
Les images pédagogiques peuvent être particulièrement utiles pour les apprenants visuels dans l'apprentissage des langues, plutôt que de simples fiches de vocabulaire. L'IA illustre les mots de vocabulaire et crée des scènes appropriées ou des moyens mnémotechniques qui facilitent leur mémorisation.
«A happy dog plays in the park.»/«Une famille française au petit-déjeuner.»
Bien sûr, l'IA peut également aider à transmettre des compétences médiatiques, par exemple en générant des images IA et en les donnant aux enfants à trier avec des photos.
«Comment distinguer les photos réelles des images générées par l'IA ?»/«Quelles sont les erreurs typiques de l'IA?»/«Comment identifier correctement les contenus générés par l'IA ?»/«Quelles sont les implications pour le journalisme et la diffusion de l'information?»
Les concepts abstraits sont difficiles à visualiser. L'IA peut y remédier et esquisser rapidement des idées. Elle peut également faciliter la création de moodboards, soit en les illustrant, soit en les construisant directement elle-même. Parfois, l'IA aide à surmonter les blocages créatifs en remplissant la page blanche avec une première idée. Tu gagnes ainsi plus de temps pour finaliser la meilleure idée.
«Crée un moodboard pour un design d'emballage de café bio dans un style scandinave.»
Générer en permanence du nouveau contenu pour ton entreprise demande beaucoup de temps. Laisse l'IA t'aider. Un modèle multimodal t'accompagne aussi bien dans la conception que dans les premières visualisations. Certaines entreprises du secteur de la mode misent déjà entièrement sur des contenus générés par l'IA dans le cadre de campagnes à grande échelle.
«Crée une deuxième variante d'image afin de réaliser un test A/B. Utilise des couleurs plus vives et des perspectives dynamiques pour la deuxième variante.»
Vous souhaitez rendre vos données complexes plus claires? Des modèles visuels tels que Nano Banana Pro de Google génèrent des infographies complètes à partir d'un ensemble de données ou d'une description. Microsoft Copilot accède directement (avec les autorisations appropriées) à vos dossiers de fichiers et rassemble lui-même les informations nécessaires.
«Visualise notre processus de transformation en analysant les deux documents stockés [ici] et en les mettant en relation.»
Si, en tant que PME ou indépendant·e, tu disposes de peu de ressources, l'IA peut également t'aider à créer des photos de produits: photographie tes produits sur un fond blanc, puis laisse l'IA les transformer en clichés lifestyle d'aspect professionnel dans différents décors.
«Crée-moi des photos de produits pour la boutique en ligne sous 4 angles différents.»
Si vous souhaitez utiliser des contenus générés par l'IA à des fins commerciales, renseignez-vous au préalable sur les droits d'utilisation et les conditions de protection des données des modèles. Pour des raisons éthiques et juridiques, identifiez clairement les contenus générés par l'IA comme tels. Respectez bien sûr également les éventuelles directives en matière de design d'entreprise. Et considérez l'IA comme un complément, mais pas comme un substitut aux capacités et à la créativité humaines.
Savoir reconnaître les images générées par l'IA devient une compétence médiatique importante. Nous te montrons ici ce à quoi tu dois faire attention et ce que tu peux faire si tu n'es pas sûr. Avec un peu de pratique, tu développeras un bon instinct. Reste toutefois vigilant, car les technologies s'améliorent chaque jour.
Ce qui vaut pour la détection des deepfakes vidéo aide généralement aussi à démasquer les images générées par l'IA. Mais cela n'est pas pour autant simple. Même les experts se trompent parfois. Il est donc tout à fait normal d'avoir des doutes. L'important est de rester critique et de faire des recherches en cas d'incertitude.
Mains (nombre de doigts incorrect, formes non naturelles), dents, oreilles, cheveux aux jonctions, textes dans l'image (cryptiques ou illisibles), détails de l'arrière-plan (étagères, panneaux, motifs), défauts de symétrie au niveau du visage, regard figé/impersonnel, peau ou éclairage trop parfaits.
Bijoux et accessoires qui n'ont aucun sens d'un point de vue physique. Reflets dans les lunettes qui ne correspondent pas à l'environnement. Ombres ou sources de lumière contradictoires. Personnes qui semblent flotter légèrement ou être mal placées dans l'espace.
L'origine IA peut être mentionnée dans les métadonnées de l'image. Tu peux les vérifier ici: Content Credentials(ouvre une nouvelle fenêtre)
Attention: les métadonnées peuvent être perdues lors du téléchargement sur les réseaux sociaux ou lors d'une capture d'écran, c'est pourquoi il faut toujours vérifier le fichier original.
SynthID (Google): filigrane invisible vérifiable dans l'application Gemini. Cependant, SynthID ne fonctionne que pour les images générées par l'IA de Google. D'autres outils existent, mais ils sont encore sujets à des erreurs.
En règle générale, ne vous fiez pas à une seule caractéristique, mais vérifiez plutôt plusieurs aspects. Restez particulièrement sceptique face aux images parfaites.
Outre les vidéos, les deepfakes existent également sous forme d'images. C'est le cas lorsque des éléments d'une image sont remplacés à l'aide d'une IA générative, de sorte que le message change, mais que l'image reste d'un réalisme trompeur. Dans le cas des images, le droit d'auteur est également un sujet très controversé.
En tant qu'enseignant, vous êtes confronté à la question suivante: dois-je utiliser l'IA visuelle pour préparer mes cours ou pendant ceux-ci, et si oui, comment ? Comme souvent, la règle suivante s'applique ici aussi: bien sûr, profitez des opportunités offertes par les nouvelles technologies, mais soyez également conscient de leurs limites et de leurs risques. Vous pourrez ainsi prendre vos propres décisions et contribuer activement à développer les compétences médiatiques de vos élèves.
Comment expliquer à un enfant du cycle I comment fonctionne un panneau solaire ? Ou comment une plante effectue la photosynthèse ? Les modèles multimodaux sont particulièrement efficaces pour représenter visuellement des fonctionnements et des relations complexes, et les expliquer à un certain âge. Alors que GPT-4o peut utiliser la métaphore parlante d'une usine pour expliquer le fonctionnement d'un panneau solaire, le générateur d'images intégré complète les explications avec une illustration appropriée.
Grâce à cette aide, tu disposes rapidement d'images adaptées pour préparer tes cours, sans avoir à payer de droits d'auteur (ni à te prendre la tête).
Une image vaut mille mots, surtout lorsque ces mots ne font pas encore partie de notre vocabulaire. C'est le cas, par exemple, lorsque l'on enseigne à des enfants qui ne parlent pas couramment l'allemand. Ou encore lorsque les concepts fondamentaux liés au matériel pédagogique sont très abstraits. Les images, les graphiques et les schémas visuels peuvent alors aider à rendre le sujet compréhensible pour tous.
Si vous générez des représentations historiques ou scientifiques à l'aide de l'IA visuelle et que vous les intégrez dans votre cours, précisez clairement que vous avez utilisé l'IA. Précisez également qu'il ne s'agit pas de représentations historiquement ou scientifiquement correctes, mais plutôt d'approximations visuelles du sujet qui n'ont pas nécessairement existé sous cette forme. Il est possible de discuter directement en classe des raisons pour lesquelles les images générées diffèrent des images historiques réelles et des endroits où ces différences apparaissent.
Sachez également que les représentations générées par l'IA peuvent renforcer les stéréotypes (car une IA générative reproduit toujours des modèles répandus et appris) lorsque vous représentez des groupes culturels, par exemple.
Bien sûr, l'IA visuelle peut être très utile pour illustrer visuellement des concepts complexes. Mais elle prend alors le relais de la réflexion des élèves, en particulier de leur imagination créative.
C'est comme lorsque tu regardes un film avant d'avoir lu le livre : si tu veux quand même lire le livre après, tu as automatiquement en tête les acteurs du film au lieu de te faire ta propre image d'eux. Sois donc conscient du pouvoir des images et du fait que tu influences l'imagination des élèves.
Dans ce cours, les enseignants découvrent les générateurs d'images IA et apprennent ce qui se passe en arrière-plan dès que les requêtes sont envoyées. Nous abordons les questions suivantes: où et comment les générateurs d'images peuvent-ils être utilisés dans l'enseignement? Comment aborder la réalité, la manipulation et la responsabilité dans le cadre de la génération d'images en classe? Ce webinaire de 90 minutes a été développé en collaboration avec LerNetz.
Nous avons réuni ici d'autres informations et contenus sur le thème "IA d'images et générateurs d'images".
Marcel est formateur chez Swisscom. Il est à votre disposition pour toutes les questions autour de l’IA.
Formateur chez Swisscom
Thème
Comment fonctionnent les IA génératrices d'images?
Pour générer des images, une IA dispose aujourd'hui essentiellement de deux méthodes différentes: les modèles de diffusion et les modèles autorégressifs. Tous deux peuvent produire des images impressionnantes, mais leur approche est fondamentalement différente:
Modèles de diffusion
Les modèles de diffusion partent d'un bruit d'image aléatoire (une surface grise et granuleuse) et l'affinent par de nombreuses petites étapes jusqu'à obtenir l'image que vous avez décrite dans la prompt. Cette approche itérative permet un haut niveau de détail et une grande diversité stylistique. Midjourney ou Stable Diffusion sont des exemples connus de modèles de diffusion. Ces modèles sont particulièrement performants lorsqu'il s'agit d'obtenir des résultats artistiques et stylistiques. Ils ont toutefois plus de mal à traduire avec précision des descriptions textuelles complexes ou à modifier des images existantes.
Modèles autorégressifs
La nouvelle génération d'IA d'image adopte une approche différente: les modèles autorégressifs font partie de modèles linguistiques multimodaux plus vastes. (Il s'agit de modèles capables de comprendre et de traiter simultanément du texte, des images et, dans certains cas, de l'audio.) Ils comprennent ainsi nettement mieux les invites et peuvent répondre aux demandes d'images en tenant davantage compte du contexte. C'est notamment dans le domaine du traitement d'images qu'une grande différence qualitative apparaît par rapport aux modèles de diffusion: l'IA ne modifie que ce que vous demandez dans l'invite en langage naturel. GPT Image (OpenAI) et Nano Banana Pro (Google) sont des exemples connus de modèles autorégressifs.
Jusqu'en 2021 environ, les réseaux antagonistes génératifs (GAN) étaient la technologie de référence. Ils ont depuis été clairement dépassés en termes de qualité et de diversité par les modèles de diffusion et autorégressifs, et ne jouent plus aucun rôle dans les outils courants aujourd'hui.
Images générées par l'IA et droit d'auteur:
ce que vous devez savoir
Lorsque des images sont créées à l'aide de l'IA, la situation juridique est intéressante : actuellement, elles ne sont en principe pas protégées par le droit d'auteur en Suisse, ce qui rend leur utilisation flexible. Néanmoins, les droits des marques et les droits de la personnalité doivent être pris en compte. Les évolutions rapides de la technologie pourraient entraîner des changements dans le droit d'auteur à l'avenir. Reste informé pour rester à jour.
En savoir plus