Swisscom Campus Newsletter
Erhalten Sie neue Inhalte vom Swisscom Campus direkt in Ihre Mailbox, dank dem Swisscom Campus Newsletter.
Ein Bild von einer im Meer surfenden, jubelnden Kuh in fotorealistischer Umsetzung – das war lange Zeit ein Ding der Unmöglichkeit. Heute gehören solche Sujets bereits zum Alltag. Verantwortlich dafür sind generative Bild-KIs und Diffusionsmodelle, die ein Bild einem Prompt gemäss Pixel für Pixel aufbauen können. Auf dieser Seite fragen wir nach bekannten Modellen, sprechen über nützliche Anwendungsfälle und darüber, wie man KI-generierte von echten Bildern unterscheiden kann.
Direkt zum Thema
Seite teilen
Wie funktionieren Bild-KIs?
Um Bilder zu generieren, stehen einer Künstlichen Intelligenz zwei verschiedene Methoden zur Verfügung: Einerseits Generative Adversarial Networks (GANs) und andererseits Diffusionsmodelle. Doch was verbirgt sich hinter diesen Begriffen?
Generative Adversarial Networks (GANs) waren in den letzten Jahren die führende KI-Bildgenerierungstechnologie. In einem GAN erzeugt ein Bildgenerator, der nach dem Deep Learning Ansatz trainiert wurde, in einem Schritt ein Bild.
Mit diesem Bildgenerator wurde die GAN-Methode im Jahr 2014 populär: https://thispersondoesnotexist.com/(öffnet ein neues Fenster)
Die Schwäche der GANs liegt darin, dass auch bei unterschiedlicher Ausgangslage zweimal dasselbe Bild generiert werden kann, weil die Technik dies begünstigt.
Die Diffusionsmodelle verfolgen einen anderen Ansatz als die GANs: 2021 haben Forschende des Unternehmens OpenAI in ihrem Paper «Diffusion Models Beat GANS on Image Synthesis» die Diffusionsmodelle als neue, bessere Technik zur Bildgenerierung vorgeschlagen.
Der relevante Unterschied im Prozess liegt in den iterativen Schritten der Diffusionsmodelle, durch die Duplikate vermieden werden und eine höhere Detailtreue ermöglicht wird. Die Diffusionstechnik hat sich heute in allen gängigen Tools zur Bildgenerierung durchgesetzt.
Wenn Bilder mit Hilfe von KI erstellt werden, ist die rechtliche Situation spannend: Derzeit sind sie in der Schweiz grundsätzlich nicht urheberrechtlich geschützt, was ihre Verwendung flexibel macht. Dennoch müssen Marken- und Persönlichkeitsrechte berücksichtigt werden. Die rasanten Entwicklungen in der Technologie könnten zukünftig Änderungen im Urheberrecht mit sich bringen. Bleib informiert, um auf dem neuesten Stand zu bleiben.
Wie bei der Text-KI gibt es auch bei den KI-Bildgeneratoren immer mehr Modelle. An der qualitativen Spitze stehen aktuell GPT-4o und Midjourney.
Das «o» in GPT-4o steht für «omni» und beschreibt das Modell von OpenAI als multimodal. Es kann also nativ (das heisst von sich aus) Text, Bild und Audio verarbeiten. GPT-4o kann Bilder generieren, diese aber auch analysieren oder darüber sprechen. Das ist besonders dienlich bei Aufgaben, die beides erfordern (wie etwa beim Erstellen einer Präsentation). GPT-4o läuft seit März 2025 als Standard-Bildgenerator in ChatGPT. Davor wurde für die Bildgenerierung seit 2023 das Diffusionsmodell DALL·E (ebenfalls von OpenAI) eingesetzt.
Ab 13 Jahren empfohlen
Web, mobile App, API für Entwickler*innen
GPT-4o ausprobieren: https://chat.openai.com/ (öffnet ein neues Fenster)
Midjourney ist eine rein auf die Bildgenerierung spezialisierte generative KI – und das kann sie darum auch richtig gut: Die KI ist für ihre hochwertigen und oft surrealen Bilder weitaus bekannt. Die verfügbaren Parameter bieten bei der Erstellung viele Möglichkeiten, das Bild zu beeinflussen und weiterzuentwickeln. Auch der Community-Faktor spielt bei Midjourney eine Rolle.
Ab 13 Jahren
via Discord oder Midjourney Alpha
Midjourney ausprobieren (Discord oder Google Konto erforderlich): https://midjourney.com/home(öffnet ein neues Fenster)
Für Fortgeschrittene: Midjourney Parameter(öffnet ein neues Fenster)
Canva ist als Design-Plattform beliebt und integriert mit Magic Media auch eine intelligente Bildgenerierung. Der Fokus liegt dabei auf einer einfachen Bedienung und dass die Inhalte direkt in die gestalteten Projekte (Flyer, Social Media Storys, Bewerbungen usw.) integriert werden können.
Ab 13 Jahren empfohlen
Web, mobile App
Canva AI ausprobieren: https://www.canva.com/ (öffnet ein neues Fenster)
Adobe Firefly ist der KI-Bildgenerator von Adobe und in die Programme der Adobe Creative Suite integriert. Diese Bild-KI orientiert sich an ethischen Werten: So wurde denn auch das erste kommerzielle Firefly-Modell gemäss eigenen Angaben(öffnet ein neues Fenster) des Anbieters mit Adobe Stock-Bildern sowie mit frei lizenzierten Werken und Inhalten trainiert (oder mit solchen, für die das Urheberrecht abgelaufen war).
Ab 13 Jahren (Adobe Lizenz)
Adobe Creative Cloud, Web
Adobe Firefly ausprobieren: https://firefly.adobe.com/ (öffnet ein neues Fenster)
Stable Diffusion wurde im August 2022 als Bildgenerierungsmodell mit Open-Source-Charakter veröffentlicht. Dadurch ist die KI heute oft in Programmen von Dritten wie civitai.com oder leonardo.ai integriert. Stable Diffusion bietet maximale Kontrolle und Anpassbarkeit, erfordert aber technisches Verständnis und wird darum vor allen von Gestaltungsprofis verwendet.
Abhängig von verwendeter Plattform
App, Web, lokale Installationen
Stable Diffusion Online ausprobieren: stablediffusionweb.com(öffnet ein neues Fenster)
Wie unterscheiden sich die bekanntesten Bildgeneratoren in der Qualität, wenn sie denselben Prompt ausführen?
«cute comic style, wide angle, plush elephant shaking hand of a mouse, sunset, warm colors –ar 16:9»
Die nächste Generation der KI-Bildgeneratoren funktioniert leicht anders als die Vorgänger: Statt nur Text zu verstehen, können multimodale «Omni»-Modelle wie GPT-4o gleichermassen Text, Bild und Audio verarbeiten. Das klingt nach Multitasking – und ist es auch. Aber nur für die KI, für dich wird die Nutzung damit einfacher und natürlicher.
Multimodale KI geht über Text und Bilder hinaus.
Das bedeutet für deine Prompts:
Du schreibst einen Text-Prompt (z.B. «Ein roter Apfel auf einem Tisch» und lässt die KI ein Bild generieren.
Du kannst auch ein Bild von einem roten Apfel auf einem Tisch hochladen und die KI anweisen: «Mach den Apfel blau und füge eine Banane hinzu» oder «Erstelle eine ähnliche Szene, aber im Winter».
Mit multimodalen Modellen ist es einfacher geworden, mit einem Beispiel und im Dialog mit der KI an deinem Wunschbild zu schleifen. Im Gegensatz zu reinen Bildgeneratoren wie DALL·E können multimodale Modelle wie GPT-4o sich an den Chatverlauf und frühere Bildversionen erinnern und so das Bild iterativ und gemeinsam mit dir bearbeiten. Stelle dir die Bild-KI wie eine persönliche Designerin vor, der du über die Schulter schaust und dich währenddessen mit ihr austauschst. Nutze die Dialogfunktion, wenn du Fragen zur Bildbearbeitung hast, um dir Alternativen zeigen zu lassen oder gib konkretes Feedback zu den Ergebnissen (das gefällt mir, jenes aber nicht).
Ein kleiner Wermutstropfen: Die multimodalen Modelle stecken zurzeit noch in den Kinderschuhen und sind in der Ausarbeitung manchmal noch nicht ganz ausgereift. Es kann darum passieren, dass die KI Teile des ursprünglichen Bildes vergisst oder nicht alle Bilddetails sich im Gespräch steuern lassen.
Ein guter Prompt gibt Vorgaben zum visuellen Stil, zu konkreten Inhalten sowie zum Seitenverhältnis (je nach Modell). Worauf du dich sonst noch achten kannst, damit die KI jene Bilder generiert, die du dir vorstellst, verraten wir dir hier.
Ein paar Grundsätze vorab: Achte beim Prompten darauf, keine Füllwörter zu verwenden. Die richtige Prompt-Länge ist zentral, denn längere Prompts helfen der KI bei der Umsetzung deiner Idee. Bei zu ausführlichen Vorgaben kann sich die KI jedoch auch verlieren und Elemente visualisieren, die dir vielleicht gar nicht so wichtig sind.
Recherchiere auch Fachbegriffe aus der visuellen Kunst(öffnet ein neues Fenster), um der KI ganz konkrete Stilvorgaben machen zu können.
Jede generative KI arbeitet leicht anders. Aber bei allen lohnt es sich, auf diese grundlegenden Dinge zu achten:
Nicht alle Bildgeneratoren verstehen Deutsch. Informiere dich, welche Sprache der gewünschte Bildgenerator spricht und prompte in dieser Sprache. (Du kannst dir auch von einer Übersetzungs-KI wie DeepL(öffnet ein neues Fenster) helfen lassen.)
In welchem Stil soll das Bild umgesetzt werden? Wünschst du einen stilisierten Kunststil (wie die Bilder von Van Gogh) oder ein fotorealistisches Motiv? Gib der KI einen genauen Auftrag, den sie ausführen kann.
Was genau soll auf dem Bild zu sehen sein? Was befindet sich im Vordergrund, was im Hintergrund? Nenne alle nötigen Elemente.
In welchem Farbschema soll das Bild generiert werden? Willst du ein Schwarz-Weiss-Bild oder eine farbige Inszenierung? Woher kommt das Licht ins Bild? Welche Stimmung herrscht im Bild?
Bei einigen Tools (wie in Midjourney) kannst du das Seitenverhältnis selbst bestimmen, zum Beispiel: Portraits im Verhältnis 3:4.
Die KI-Bildgenerierung kann mehr als «nur» den künstlerischen Selbstausdruck fördern. Sie kann dir auch im Familienalltag oder im Schulkontext behilflich sein. Von der Zimmergestaltung bis zum Geschichtsunterricht – die Möglichkeiten sind vielfältiger, als du vielleicht denkst.
Weihnachtskarte mit KI erstellen.
Brauchst du eine neue Gutenachtgeschichte für dein Kind? Mit multimodalen Modellen entwickelst du spielend einfach dein eigenes Bilderbuch. Die KI hilft dir beim Ideen-Ping-Pong und formuliert deine Story so aus, wie du das möchtest. Sie kann deine raschen Skizzen in hochwertige Zeichnungen umwandeln, um dein Buch zu bebildern. Und sie kann dir hilfreiche Tipps hinsichtlich Druck und Organisation mitgeben.
Wünschst du dir frischen Wind im Wohnzimmer – vielleicht ein neues Sofa? Eine andersfarbige Wand? Wenn du dir das nicht selbst vorstellen willst oder kannst, lass es die KI für dich erledigen. Fotografie einfach dein Wohnzimmer und probiere mit der KI verschiedene Möbel, Farben oder Einrichtungsstile aus – bevor du dafür Geld ausgibst.
«Zeige mir das Wohnzimmer auf dem hochgeladenen Bild mit einem himmelblauen Sofa und hochweissen Wänden.»
Ob zum Geburtstag, für Weihnachten oder zur Hochzeit – mit KI kannst du personalisierte Karten generieren lassen, statt Standardkarten ab der Stange zu verschenken.
Hinweis: Denk bitte an den Schutz der persönlichen Daten und überlege dir gut, ob und welche Fotos du allenfalls von dir oder anderen (hole am besten vorher deren Einverständnis ein) in KIs hochlädst.
Weihnachtskarte erstellen (Video oben)
Wie erklärst du deinen Schüler*innen, wie das Leben im Mittelalter tatsächlich aussah? Textbücher können manchmal trocken sein und anschauliche Bilder gibt es nicht überall. Lasse die KI historische Szenen rekonstruieren und diskutiere sie mit deinen Schüler*innen im Unterricht:
«Wie sah diese Stadt damals vs. heute aus?»
Mikrobiologische Abläufe geschehen im Kleinen und sind von blossem Auge in der Regel nicht erfassbar. Eine KI kann aber ganz nah an eine Pflanzenzelle heranzoomen und unsichtbare Dinge sichtbar machen. Sie kann aber auch ganz im Gegenteil etwas unvorstellbar Grosses greifbar machen, etwa wie die Evolution des Menschen in Zeitraffer aussehen würde.
«Zeig mir, wie eine Pflanzenzelle von innen aussieht.»
Besonders für visuelle Lerntypen können Lernbilder anstelle von schlichten Wortkarten beim Sprachenlernen ein Vorteil sein. Die KI untermalt Vokabeln bildlich und erstellt passende Szenen oder Eselsbrücken, die so leichter im Gedächtnis bleiben.
«A happy dog plays in the park.» / «Une famille française au petit-déjeuner.»
Natürlich kann die KI auch bei der Vermittlung von Medienkompetenz helfen, indem du beispielsweise KI-Bilder generierst, und sie gemeinsam mit fotografierten Bildern den Kindern zur Sortierung gibst.
«Wie lassen sich echte Fotos von KI-Bildern unterscheiden?» / «Welche typischen KI-Fehler macht die KI?» / «Wie kennzeichnet man KI-generierte Inhalte richtig?» / «Was bedeutet das für den Journalismus und die Verbreitung von Nachrichten?»
Abstrakte Konzepte sind meist schwer vorstellbar. Da kann eine KI Abhilfe schaffen und Ideen rasch skizzieren (ohne, dass viel Geld investiert werden müsste). Sie kann aber auch bei Moodboards unterstützen und diese mit KI-generierten Bildern ergänzen. Manchmal hilft die KI, kreative Blockaden zu überwinden, indem sie das weisse Blatt mit einer ersten Idee füllt. So gewinnst du mehr Zeit für deine finale Ausarbeitung der besten Idee.
«Erstelle ein Moodboard für ein Verpackungsdesign für Bio-Kaffee im skandinavischen Stil.»
Ständig neuen Content fürs Unternehmen zu generieren, ist aufwendig. Lasse dir von der KI helfen. Ein multimodales Modell unterstützt dich gleichermassen bei der Konzeption und hilft mit ersten Visualisierungen. Manche Unternehmen in der Modebranche setzen bereits vollständig auf KI-generierte Inhalte in grossflächigen Kampagnen.
«Erstelle eine zweite Bildvariante, um ein A/B-Testing durchzuführen. Verwende bei der zweiten Bildvariante knalligere Farben und dynamische Perspektiven.»
Langweilige PowerPoint-Folien mit Standard-Cliparts überzeugen heute niemanden mehr so richtig. Aber professionelle Grafiken sind manchmal einfach zu teuer. KI liefert dir die oft geschätzte mittlere Flughöhe und gestaltet Grafiken und Diagramme nach deinem Gusto.
«Generiere ein Icon in schwarz, das Teamwork symbolisiert.» / «Visualisiere unseren Transformationsprozess, indem du die nachfolgenden Aspekte aufnimmst und miteinander in Verbindung bringst: …»
Wenn du KI-generierte Inhalte für kommerzielle Zwecke nutzen willst, informiere dich vorab über die Nutzungsrechte und Datenschutzbedingungen der Modelle. Kennzeichne KI-generierte Inhalte aus ethischen und rechtlichen Gründen transparent als solche. Beachte natürlich auch allfällige Corporate Design-Richtlinien. Und betrachte KI als Ergänzung, aber nicht als Ersatz für menschliche Fähigkeiten und Kreativität.
Dass du KI-generierte Bilder erkennen kannst, wird zu einer wichtigen Medienkompetenz. Hier zeigen wir dir, worauf du achten und was du tun kannst, wenn du dir mal unsicher bist. Mit etwas Übung entwickelst du ein gutes Gespür. Bleibe dennoch immer aufmerksam, denn die Technologien werden täglich besser.
Was bei der Erkennung von Video-Deepfakes gilt, hilft meist auch, um KI-generierte Bilder zu entlarven. Einfach ist es deswegen aber noch lange nicht. Selbst Expert*innen liegen manchmal daneben. Wenn du dir also mal unsicher bist, ist das völlig normal. Wichtig ist, dass du kritisch bleibst und bei Unsicherheit nachforschst.
Ja, manche Bild-KIs haben immer noch Mühe, Hände und Finger korrekt darzustellen. Achte insbesondere auch auf Schmuck: Fingerringe verschmelzen oft unnatürlich mit den Händen.
Schau auf die Details: Wie sind die Zähne angeordnet? Sind sie zu perfekt oder unnatürlich aneinander gereiht? Wie sieht die Haut aus – hat sie merkwürdige Übergänge? Wie sieht’s mit den Pupillen aus, wirken die Augen lebendig oder leblos? Augen in generierten Bildern haben oft einen starren Blick.
Auch wenn es zunehmend besser wird, haben manche Bild-KIs noch Schwierigkeiten damit, Text korrekt und lesbar darzustellen. Wörter ergeben dadurch manchmal keinen Sinn oder Schilder enthalten Fantasie-Sprachen.
Achte dich auch auf Spiegelungen in Fenstern oder auf Oberflächen: Stimmen sie? Woher kommt die Lichtquelle und – gibt es überhaupt eine? Stimmen die Schatten mit der Richtung der Lichtquelle überein?
Suche das fragliche Bild in der (Rückwärts-)Suche von Google, um herauszufinden, wo das Bild allenfalls sonst noch eingesetzt wird. Dies kann dir Rückschlüsse auf die Herkunft des Bildes verraten.
Weltweit engagieren sich zunehmend auch führende Tech-Unternehmen wie Adobe, Intel oder Microsoft dafür, dass die Herkunft von Medieninhalten mit Wasserzeichen zertifiziert werden können. Vielleicht ist dein Bild zertifiziert?
Grundsätzlich gilt: Verlasse dich nicht auf ein Merkmal, sondern prüfe lieber mehrere Aspekte. Bleibe besonders bei perfekten Bildern skeptisch.
Deepfakes gibt es neben Videos natürlich auch in der Form von Bildern. Etwa wenn Bildelemente mittels generativer KI ausgetauscht werden, sodass sich die Botschaft verändert, das Bild aber immer noch täuschend echt aussieht. Bei Bildern ist zusätzlich das Urheberrecht ein kontrovers diskutiertes Thema.
Als Lehrperson stehst du vor der Frage: Soll ich Bild-KI zur Vorbereitung oder im Unterricht nutzen – und wenn ja, wie? Wie so oft gilt auch hier: Klar, nutze die Chancen der neuen Technologien, aber sei dir auch der Grenzen und Risiken bewusst. Damit kannst du deine eigenen Entscheidungen treffen und die Medienkompetenz in deiner Klasse bewusst mitgestalten.
Wie erklärst du einem Kind im Zyklus I, wie ein Solarpanel funktioniert? Oder wie eine Pflanze Fotosynthese betreibt? Besonders multimodale Modelle sind gut darin, Funktionsweise und komplexe Zusammenhänge visuell abzubilden und auf eine bestimmte Altersstufe heruntergebrochen zu erklären. Während GPT-4o für die Erklärung des Solarpanels etwa die anschauliche Metapher einer Fabrik verwenden kann, ergänzt der integrierte Bildgenerator die Ausführungen mit einer passenden Illustration.
Mit dieser Unterstützung hast du bei der Vorbereitung des Unterrichts rasch passendes Bildmaterial zur Hand, ohne viel Lizenzgebühren (oder Nerven) bezahlen zu müssen.
Ein Bild sagt mehr als tausend Worte – besonders, wenn die Worte noch nicht zum eigenen Wortschatz gehören. Wie etwa, wenn im Unterricht Kinder betreut werden, die nicht fliessend Deutsch sprechen. Oder auch, wenn die zentralen Kernbegriffe im Zusammenhang mit dem Unterrichtsmaterial sehr abstrakt sind. Dann können Bilder, Grafiken und visuelle Abläufe helfen, das Thema für alle leicht verständlich zu machen.
Wenn du historische oder naturwissenschaftliche Darstellungen mit Hilfe von Bild-KI generierst und diese in den Unterricht integrierst, lege einerseits offen, dass du KI verwendet hast. Gib andererseits zu bedenken, dass diese keine historisch oder wissenschaftlich korrekten Darstellungen sind, sondern vielmehr visuelle Annäherungen ans Thema, die es so aber nicht zwingend gegeben hat. Möglicherweise lässt sich direkt im Unterricht diskutieren, warum und wo die generierten Bilder vom echtem historischen Bildmaterial abweicht.
Sei dir zudem bewusst, dass KI-Darstellungen Stereotypen verstärken können (da eine generative KI immer verbreitete und gelernte Muster wiedergibt), wenn du beispielsweise kulturelle Gruppen darstellen lässt.
Natürlich kann eine Bild-KI sehr hilfreich sein, wenn es darum geht, komplexe Konzepte visuell zu veranschaulichen. Doch damit übernimmt die KI auch einen Teil der eigenen Denkleistung der Schüler*innen – bei der Bild-KI insbesondere den der kreativen Vorstellungskraft.
Es ist, wie wenn du einen Film schaust, bevor du das Buch dazu gelesen hast: Wenn du anschliessend das Buch trotzdem noch lesen möchtest, hast du im Kopf automatisch die Darstellenden aus dem Film, statt dir dein eigenes Bild von ihnen zu machen. Sei dir also der Macht der Bilder bewusst und dass du damit die Vorstellung der Schüler*innen beeinflusst.
Im Kurs lernen Lehrpersonen KI-Bildgeneratoren kennen und erfahren, was im Hintergrund geschieht, sobald die Prompts abgeschickt werden. Wir thematisieren, wo und wie sich die Bildgeneratoren für den Unterricht eignen und wie Realität, Manipulation und Verantwortung rund um die Bildgenerierung im Unterricht thematisiert werden können. Das 90-minütige Webinar ist in Zusammenarbeit mit LerNetz entstanden.
Weitere Informationen und Inhalte zum Thema «Bild-KIs und Bildgeneratoren» haben wir hier zusammengetragen.
Marcel ist Trainer bei Swisscom. Er steht Ihnen bei allen Fragen rund um das Thema KI zur Verfügung.
Trainer bei Swisscom