Stell dir vor, du schreibst „ein futuristisches Zürich bei Nacht“, und eine KI erzeugt daraus in wenigen Sekunden ein realistisches Bild oder sogar ein Video. Genau das machen moderne Bild und Videogeneratoren. Diese Seite erklärt, wie solche Systeme funktionieren, von den Grundbegriffen über die technischen Hintergründe bis zu den wichtigsten gesellschaftlichen Fragen.
Auf einen Blick: Bild- und Videogeneratoren sind KI-Programme, die aus einer Texteingabe neue Bilder oder Videos erzeugen. Das bekannteste Verfahren dahinter heisst Diffusionsmodell.
Normale KI-Programme erkennen Dinge wie zum Beispiel, ob auf einem Foto eine Katze zu sehen ist. Generative KI macht etwas anders. Sie erzeugt neue Inhalte, wie beispielsweise ein Bild, das es vorher noch nicht gab. Das Programm lernt dazu aus sehr vielen Beispielen. Welche Bilder, Texte oder Videos „typisch“ aussehen und kann dann selbst neue erzeugen, die ähnlich wirken.1)
Bild- und Videogeneratoren sind eine Art generative KI. Man gibt ihnen eine Textbeschreibung (den Prompt) und sie erzeugen daraus ein passendes Bild oder Video.2)
| Begriff | Erklärung |
|---|---|
| Prompt | Die Texteingabe, mit der man beschreibt, was man sehen möchte |
| Seed | Eine Zahl, die den Zufallsstart festlegt. Mit demselben Seed und Prompt bekommt man immer dasselbe Bild |
| Latenter Raum | Eine stark vereinfachte, interne Darstellung des Bildes, mit der das Modell rechnet |
| Training | Das Lernen des Modells aus sehr vielen Beispielbildern. Das passiert einmal, bevor man das Tool nutzt |
| Inference | Die eigentliche Nutzung. Man gibt einen Prompt ein und das fertig trainierte Modell erzeugt das Bild |
Ein guter Prompt beschreibt möglichst genau:
Schwacher Prompt: Ein Hund
Besserer Prompt: Ein Golden Retriever sitzt auf einer sonnigen Wiese, warmes Nachmittagslicht, fotorealistisch, geringe Schärfentiefe
Damit ein Modell Bilder erzeugen kann, braucht es sehr viele Beispiele. Beim Training sieht es Millionen von Bildern zusammen mit passenden Textbeschreibungen. So lernt das Modell, was Begriffe wie „Hund“ oder „Sonnenuntergang“ visuell bedeuten.3)
Dieser Abschnitt erklärt die wichtigsten Ideen im Hintergrund. Es geht um ein grundlegendes Verständnis, nicht um Details.
Ein neuronales Netz ist ein Computerprogramm, das grob vom menschlichen Gehirn inspiriert ist. Es besteht aus vielen kleinen Recheneinheiten, die miteinander verbunden sind. Beim Training werden diese Verbindungen so angepasst, dass das Netz sinnvolle Ergebnisse erzeugt, in diesem Fall neue Bilder.4)
Transformer sind eine spezielle Art von neuronalen Netzen. Sie sind besonders gut darin, Zusammenhänge zu erkennen. Zum Beispiel versteht das Modell, dass „sonnige Wiese“ bestimmte Farben, Lichtverhältnisse und Objekte bedeutet. Der Mechanismus dahinter heisst Attention. Das Modell lernt dabei, welche Teile der Eingabe besonders wichtig sind.5)
Viele ältere Bildgeneratoren benutzen eine Struktur namens U-Net. Das Netz macht das Bild zunächst kleiner und vereinfachter (Encoder), und baut es danach wieder in voller Grösse auf (Decoder). Diese Struktur eignet sich, um Bilder schrittweise zu verbessern und Details hinzuzufügen.6)
Ein VAE besteht aus zwei Teilen:
So muss das Modell nicht mit Millionen von Pixeln rechnen, sondern mit einer viel kleineren, komprimierten Darstellung. Das spart enorm viel Rechenleistung.7)
Diffusionsmodelle sind das Herzstück moderner Bildgeneratoren. Die Grundidee kommt aus der Physik. Wenn man einen Tintentropfen ins Wasser gibt, verteilt er sich langsam gleichmässig, das nennt man Diffusion. KI-Diffusionsmodelle machen das mit Bildern:8)
Merkhilfe: Man stellt sich vor, man beginnt mit einem völlig verrauschten Bild. Mit jedem Schritt wird es etwas klarer, bis nach 20–50 Schritten ein scharfes Bild entsteht, das zum Prompt passt.
Diffusion direkt auf einem Bild in voller Auflösung wäre viel zu langsam. Um das zu lösen, führt man die Diffusion nicht auf den Pixeln selbst durch, sondern im latenten Raum (also der komprimierten Darstellung des VAE). Das macht das Ganze bis zu 95 % schneller, ohne viel Qualität zu verlieren.9)
Ausserdem wird der Textprompt über einen Mechanismus namens Cross-Attention in den Prozess eingebunden. So weiss das Modell, welches Bild es erzeugen soll. Das ist die Grundlage für Tools wie Stable Diffusion.
| Modelltyp | Wie es funktioniert | Bedeutung heute |
|---|---|---|
| GANs | Zwei Netze konkurrieren. Eines erzeugt Bilder, das andere versucht, echte von falschen zu unterscheiden | War lange führend, heute für Text-to-Image weitgehend durch Diffusion ersetzt |
| VAE | Encoder komprimiert, Decoder baut das Bild wieder auf | Wichtiger Baustein in modernen LDMs |
| DDPM | Iteratives Entrauschen | Basis aller modernen Diffusionsmodelle |
| LDM | Diffusion im latenten Raum + Textsteuerung | Grundlage von Stable Diffusion & Co. |
| DiT | Transformer statt U-Net im Diffusionsmodell | Skaliert sehr gut. Basis neuerer Modelle wie FLUX und Sora |
Hier ist der typische Ablauf, wenn man zum Beispiel Stable Diffusion benutzt:
| Parameter | Bedeutung | Effekt |
|---|---|---|
| Seed | Startwert für den Zufallsgenerator | Gleicher Seed + gleicher Prompt = gleiches Bild |
| Guidance Scale | Wie stark der Prompt das Bild beeinflusst | Zu hoch → Artefakte, zu niedrig → Bild passt nicht zum Prompt |
| Steps | Anzahl der Entrauschungs-Schritte | Mehr Schritte = mehr Details, aber dauert länger |
| Negativer Prompt | Was das Bild nicht zeigen soll | Hilft, unerwünschte Elemente zu vermeiden |
Mit ControlNet kann man einem Diffusionsmodell zusätzliche Hinweise geben, zum Beispiel ein Kantenbild, eine Körperhaltung oder eine Tiefenkarte. Das Modell übernimmt dann die Struktur dieser Vorlage, aber erzeugt den Stil aus dem Prompt. So bekommt man viel mehr Kontrolle über Komposition und Aufbau des Bildes.10)
Video bedeutet „Bild + Zeit“. Das macht die Aufgabe schwieriger, denn es reicht nicht, dass jedes einzelne Bild (Frame) gut aussieht.
Die einzelnen Bilder müssen zeitlich zusammenpassen. Figuren sollen nicht von Frame zu Frame ihr Gesicht verändern, und Bewegungen sollen flüssig wirken. Das nennt man zeitliche Konsistenz und gehört zu den grössten Herausforderungen, um solch ein Video zu generieren.11)
| Ansatz | Beschreibung |
|---|---|
| Video Diffusion | Direkte Erweiterung der Bilddiffusion auf mehrere Frames gleichzeitig |
| Kaskaden-Ansatz | Zuerst ein grobes Video, dann wird es mit weiteren Modellen verfeinert und schärfer gemacht (z.B. Imagen Video) |
| Make-A-Video | Das Modell lernt, wie Dinge aussehen, aus Bild-Text-Paaren und wie sie sich bewegen, aus Videomaterial ohne Beschriftungen |
| Latent Video Diffusion | Video-Diffusion im latenten Raum, mehrstufiges Training (z.B. Stable Video Diffusion) |
| Spacetime Patches | Videos werden in kleine Bausteine (Patches) über Raum und Zeit zerlegt und mit einem Transformer verarbeitet – so funktioniert die KI Sora12) |
Bei Video-Prompts reicht eine Inhaltsbeschreibung oft nicht. Man sollte auch beschreiben, was sich bewegt und wie die Kamera sich verhält.
| Tool / Modell | Typ | Besonderheit |
|---|---|---|
| Stable Diffusion | Bildgenerator (open source) | Kostenlos, lokal installierbar, sehr grosse Community |
| Midjourney | Bildgenerator (kommerziell) | Sehr hohe Bildqualität, Bedienung über Discord |
| DALL-E 3 | Bildgenerator (OpenAI) | Gut bei Text im Bild und genauen Anweisungen |
| Adobe Firefly | Bildgenerator | Trainiert auf lizenzierten Bildern, in Creative Cloud integriert |
| Runway Gen-3 | Videogenerator | Schnell, hohe Qualität, kommerziell |
| Pika | Videogenerator | Einfache Bedienung, gut für Bild-zu-Video |
| Sora | Videogenerator (OpenAI) | Kann lange, qualitativ hochwertige Videos erzeugen |
KI Bild und Videogeneratoren werden in vielen Bereichen eingesetzt. Um einen besseren Überblick zu behalten, kann man die Anwendungen in verschiedene Kategorien einteilen:
Mit generativer KI lassen sich sehr realistische Bilder und Videos von Personen erzeugen, sogenannte Deepfakes. Diese können gezielt eingesetzt werden, um falsche Informationen zu verbreiten oder Menschen Dinge in den Mund zu legen, die sie nie gesagt haben. Das Problem ist, dass solche Inhalte für viele Menschen kaum von echten Aufnahmen zu unterscheiden sind. Dadurch wird es schwieriger, zwischen Wahrheit und Manipulation zu unterscheiden.13)
Wenn immer mehr Inhalte künstlich erzeugt werden, kann das langfristig das Vertrauen in Medien schwächen. Fotos und Videos galten früher oft als Beweis. Heute ist das nicht mehr selbstverständlich. Das betrifft zum Beispiel Journalismus, soziale Medien und auch politische Kommunikation.
Ein zentrales Problem ist die Frage, wem ein KI erzeugtes Bild gehört. In vielen Fällen gilt: Wenn kein Mensch kreativ beteiligt ist, gibt es kein klassisches Urheberrecht. Schwierig wird es, wenn ein Mensch aktiv am Ergebnis mitarbeitet, zum Beispiel durch gezielte Prompts oder Nachbearbeitung. Hier ist die Rechtslage noch nicht eindeutig geklärt.
KI Modelle lernen aus grossen Datenmengen aus dem Internet. Diese Daten enthalten oft unbewusste Verzerrungen. Das kann dazu führen, dass bestimmte Gruppen stereotyp dargestellt werden oder weniger sichtbar sind. Solche Verzerrungen nennt man Bias und sie spiegeln gesellschaftliche Ungleichheiten wider.
Neben Deepfakes gibt es weitere Risiken:
Dadurch entsteht ein neues Feld von digitalen Sicherheitsproblemen.
Das Training grosser Modelle benötigt viel Rechenleistung und Energie. Das führt zu einem hohen Stromverbrauch und damit zu Umweltbelastung. Neue Methoden versuchen, diese Kosten zu reduzieren, aber das Problem bleibt bestehen.
Kernaussagen auf einen Blick: