Dies ist eine alte Version des Dokuments!
Bild- und Videogeneratoren mit KI
Diese Seite erklärt, wie KI-gestützte Bild- und Videogeneratoren funktionieren – von den Grundbegriffen über die technischen Hintergründe bis zu gesellschaftlichen Risiken.
Auf einen Blick: Bild- und Videogeneratoren sind KI-Programme, die aus einer Texteingabe neue Bilder oder Videos erzeugen. Das bekannteste Verfahren dahinter heisst Diffusionsmodell.
1. Grundbegriffe
Was ist generative KI?
Normale KI-Programme erkennen Dinge wie zum Beispiel, ob auf einem Foto eine Katze zu sehen ist. Generative KI macht etwas anders. Sie erzeugt neue Inhalte, wie beispielsweise ein Bild, das es vorher noch nicht gab. Das Programm lernt dazu aus sehr vielen Beispielen. Welche Bilder, Texte oder Videos „typisch“ aussehen und kann dann selbst neue erzeugen, die ähnlich wirken.1)
Bild- und Videogeneratoren sind eine Art generative KI. Man gibt ihnen eine Textbeschreibung (den Prompt) und sie erzeugen daraus ein passendes Bild oder Video.2)
| Begriff | Erklärung |
|---|---|
| Prompt | Die Texteingabe, mit der man beschreibt, was man sehen möchte |
| Seed | Eine Zahl, die den Zufallsstart festlegt. Mit demselben Seed und Prompt bekommt man immer dasselbe Bild |
| Latenter Raum | Eine stark vereinfachte, interne Darstellung des Bildes, mit der das Modell rechnet |
| Training | Das Lernen des Modells aus sehr vielen Beispielbildern. Das passiert einmal, bevor man das Tool nutzt |
| Inference | Die eigentliche Nutzung. Man gibt einen Prompt ein und das fertig trainierte Modell erzeugt das Bild |
Was macht einen guten Prompt aus?
Ein guter Prompt beschreibt möglichst genau:
- Was im Bild zu sehen sein soll (Objekte, Personen, Ort)
- Wie es aussehen soll (Stil, Licht, Stimmung, Kameraeinstellung)
- Bei Videos: wie sich Dinge bewegen und wie die Kamera sich verhält
Schwacher Prompt: Ein Hund
Besserer Prompt: Ein Golden Retriever sitzt auf einer sonnigen Wiese, warmes Nachmittagslicht, fotorealistisch, geringe Schärfentiefe
Trainingsdaten
Damit ein Bildgenerator lernen kann, braucht er sehr viele Beispiele. Beim Training sieht das Modell Millionen von Bildern zusammen mit Textbeschreibungen dazu. Das Modell lernt so, was Wörter wie „Hund„ oder „Sonnenuntergang“ visuell bedeuten.3)
2. Technische Grundlagen
Dieser Abschnitt erklärt, was im Hintergrund passiert. Man muss kein Mathematik-Experte sein. Es reicht das Grundprinzip zu verstehen.
Neuronale Netze
Ein neuronales Netz ist eine Art Computerprogramm, das dem menschlichen Gehirn nachempfunden ist. Es besteht aus vielen kleinen Recheneinheiten, die miteinander verbunden sind. Beim Training werden diese Verbindungen so angepasst, dass das Netz die gewünschten Ausgaben erzeugt, weil es hier ja nicht das Ziel ist, etwas zu erkennen, sondern etwas Neues zu erschaffen.4)
Transformer und Attention
Transformer sind eine bestimmte Art von neuronalen Netzen. Sie sind besonders gut darin, Zusammenhänge zu erkennen. Ein Beispiel dafür wäre, dass die Wörter „sonnige Wiese„ zusammengehören und bestimmte Bildmerkmale bedeuten. Der Mechanismus dahinter heisst Attention Das Netz lernt, welche Teile der Eingabe gerade wichtig sind.5)
U-Net
Viele ältere Bildgeneratoren benutzen eine Architektur namens U-Net. Das Netz macht das Bild zunächst kleiner und vereinfachter (Encoder), und baut es danach wieder in voller Grösse auf (Decoder). Diese Struktur eignet sich, um Bilder schrittweise zu verfeinern.6)
Variational Autoencoder (VAE)
Ein VAE besteht aus zwei Teilen:
- Encoder: Ein Bild wird stark vereinfacht und in eine kompakte Form gebracht (latenter Raum).
- Decoder: Aus dieser kompakten Form wird das Bild wieder aufgebaut.
Das klingt zunächst nutzlos, ist aber sehr praktisch: Das Modell muss nicht mit Millionen von Pixeln rechnen, sondern mit einer viel kleineren, komprimierten Darstellung. Das spart enorm viel Rechenleistung.7)
Diffusionsmodelle
Diffusionsmodelle sind das Herzstück moderner Bildgeneratoren. Die Grundidee kommt aus der Physik: Wenn man einen Tintentropfen ins Wasser gibt, verteilt er sich langsam gleichmässig – das nennt man Diffusion. KI-Diffusionsmodelle machen das mit Bildern:8)
- Vorwärtsprozess: Ein echtes Bild wird schrittweise mit Rauschen überlagert, bis es nur noch zufällige Pixel zeigt.
- Rückwärtsprozess: Das Modell lernt, diesen Prozess umzukehren – also aus Rauschen wieder ein sinnvolles Bild zu machen.
- Anwendung: Man beginnt mit purem Rauschen und lässt das Modell es Schritt für Schritt „bereinigen“, geleitet durch den Prompt.
Merkhilfe: Man stellt sich vor, man beginnt mit einem völlig verrauschten Bild. Mit jedem Schritt wird es etwas klarer, bis nach 20–50 Schritten ein scharfes Bild entsteht, das zum Prompt passt.
Latent Diffusion Models (LDM)
Diffusion direkt auf einem Bild in voller Auflösung wäre viel zu langsam. Die Lösung: Man führt die Diffusion nicht auf den Pixeln selbst durch, sondern im latenten Raum (also der komprimierten Darstellung des VAE). Das macht das Ganze bis zu 95 % schneller, ohne viel Qualität zu verlieren.9)
Ausserdem wird der Textprompt über einen Mechanismus namens Cross-Attention in den Prozess eingebunden – so weiss das Modell, welches Bild es erzeugen soll. Das ist die Grundlage für Tools wie Stable Diffusion.
3. Wichtige Modelltypen
| Modelltyp | Wie es funktioniert | Bedeutung heute |
|---|---|---|
| GANs | Zwei Netze konkurrieren: eines erzeugt Bilder, das andere versucht, echte von falschen zu unterscheiden | War lange führend, heute für Text-to-Image weitgehend durch Diffusion ersetzt |
| VAE | Encoder komprimiert, Decoder baut das Bild wieder auf | Wichtiger Baustein in modernen LDMs |
| DDPM | Iteratives Entrauschen | Basis aller modernen Diffusionsmodelle |
| LDM | Diffusion im latenten Raum + Textsteuerung | Grundlage von Stable Diffusion & Co. |
| DiT | Transformer statt U-Net im Diffusionsmodell | Skaliert sehr gut; Basis neuerer Modelle wie FLUX und Sora |
4. Wie funktioniert ein Bildgenerator?
Hier ist der typische Ablauf, wenn man zum Beispiel Stable Diffusion benutzt:
- Textverstehen: Der Prompt wird in eine Zahlen-Darstellung umgewandelt, die das Modell versteht.
- Rauschen erzeugen: Aus einem Seed wird zufälliges Rauschen im latenten Raum erzeugt.
- Schrittweises Entrauschen: Das Modell macht das Rauschen Schritt für Schritt weniger – gesteuert durch den Prompt.
- Guidance: Ein Parameter namens Guidance Scale bestimmt, wie stark der Prompt das Ergebnis beeinflusst.
- Dekodierung: Am Schluss rechnet der VAE-Decoder das Ergebnis in ein richtiges Pixelbild zurück.
Wichtige Parameter
| Parameter | Bedeutung | Effekt |
|---|---|---|
| Seed | Startwert für den Zufallsgenerator | Gleicher Seed + gleicher Prompt = gleiches Bild |
| Guidance Scale | Wie stark der Prompt das Bild beeinflusst | Zu hoch → Artefakte, zu niedrig → Bild passt nicht zum Prompt |
| Steps | Anzahl der Entrauschungs-Schritte | Mehr Schritte = mehr Details, aber dauert länger |
| Negativer Prompt | Was das Bild nicht zeigen soll | Hilft, unerwünschte Elemente zu vermeiden |
ControlNet
Mit ControlNet kann man einem Diffusionsmodell zusätzliche Hinweise geben – zum Beispiel ein Kantenbild, eine Körperhaltung oder eine Tiefenkarte. Das Modell übernimmt dann die Struktur dieser Vorlage, aber erzeugt den Stil aus dem Prompt. So bekommt man viel mehr Kontrolle über Komposition und Aufbau des Bildes.10)
5. Video-Generatoren
Video bedeutet „Bild + Zeit„. Das macht die Aufgabe schwieriger, denn es reicht nicht, dass jedes einzelne Bild (Frame) gut aussieht.
Die einzelnen Bilder müssen zeitlich zusammenpassen. Figuren sollen nicht von Frame zu Frame ihr Gesicht verändern, und Bewegungen sollen flüssig wirken – das nennt man zeitliche Konsistenz.11)
Ansätze
| Ansatz | Beschreibung |
|---|---|
| Video Diffusion | Direkte Erweiterung der Bilddiffusion auf mehrere Frames gleichzeitig |
| Kaskaden-Ansatz | Zuerst ein grobes Video, dann wird es mit weiteren Modellen verfeinert und schärfer gemacht (z.B. Imagen Video) |
| Make-A-Video | Das Modell lernt, wie Dinge aussehen, aus Bild-Text-Paaren – und wie sie sich bewegen, aus Videomaterial ohne Beschriftungen |
| Latent Video Diffusion | Video-Diffusion im latenten Raum, mehrstufiges Training (z.B. Stable Video Diffusion) |
| Spacetime Patches | Videos werden in kleine Bausteine (Patches) über Raum und Zeit zerlegt und mit einem Transformer verarbeitet – so funktioniert Sora12) |
Tipps für Video-Prompts
Bei Video-Prompts reicht eine reine Inhaltsbeschreibung oft nicht. Man sollte auch beschreiben, was sich bewegt und wie die Kamera sich verhält.
- Kamerabewegung angeben: „langsam nach links schwenkend“ oder „statische Kamera“
- Bewegungsart beschreiben: „langsam laufende Person“ statt nur „Person“
- Weniger Elemente im Bild = bessere zeitliche Konsistenz
6. Bekannte Tools und Modelle
| Tool / Modell | Typ | Besonderheit |
|---|---|---|
| Stable Diffusion | Bildgenerator (open source) | Kostenlos, lokal installierbar, sehr grosse Community |
| Midjourney | Bildgenerator (kommerziell) | Sehr hohe Bildqualität, Bedienung über Discord |
| DALL-E 3 | Bildgenerator (OpenAI) | Gut bei Text im Bild und genauen Anweisungen |
| Adobe Firefly | Bildgenerator | Trainiert auf lizenzierten Bildern, in Creative Cloud integriert |
| Runway Gen-3 | Videogenerator | Schnell, hohe Qualität, kommerziell |
| Pika | Videogenerator | Einfache Bedienung, gut für Bild-zu-Video |
| Sora | Videogenerator (OpenAI) | Kann lange, qualitativ hochwertige Videos erzeugen |
7. Anwendungsbereiche
KI-Bild- und Videogeneratoren werden heute in sehr vielen Bereichen eingesetzt:
- Kreativbranche: Konzeptzeichnungen, Illustration, Werbung, Filmstoryboards
- Bildung: Anschauungsmaterial und Visualisierungen
- Forschung: Synthetische Trainingsdaten für andere KI-Modelle
- Industrie: Produktdesign, Architektur-Visualisierungen
- Unterhaltung: Spieleentwicklung, soziale Medien
8. Risiken und gesellschaftliche Fragen
Deepfakes und Desinformation
Generative Modelle können täuschend echte Bilder und Videos von realen Personen erzeugen – sogenannte Deepfakes. Der Begriff setzt sich aus „Deep Learning“ und „Fake„ zusammen. Das BSI (Bundesamt für Sicherheit in der Informationstechnik) warnt, dass damit Desinformationskampagnen durchgeführt, Personen verleumdet oder betrügerische Aktionen ermöglicht werden können.13)
Laut einer Studie der IU Internationalen Hochschule (2025) wissen nur 34,3 % der Menschen in Deutschland, was Deepfakes überhaupt sind – obwohl fast alle Fake News kennen. Diese Wissenslücke ist gefährlich, denn Menschen können Deepfakes kaum von echten Videos unterscheiden.14)
Die Bundeszentrale für politische Bildung (bpb) betont, dass Medienkompetenz deshalb immer wichtiger wird.15)
Herkunftsnachweise und Watermarking
Als technische Gegenmassnahmen gibt es zwei Ansätze:
- C2PA ist ein Standard, der Herkunftsinformationen direkt in eine Datei einbettet. Man kann so nachverfolgen, wer ein Bild erstellt oder verändert hat.16)
- SynthID (Google DeepMind) bettet unsichtbare Wasserzeichen in KI-generierte Bilder und Videos ein. Diese sind für Menschen nicht erkennbar, können aber von Programmen zuverlässig gefunden werden.17)
Regulierung: EU AI Act
In der EU schreibt der AI Act vor, dass KI-generierte Inhalte als solche gekennzeichnet werden müssen – besonders Deepfakes. Soziale Plattformen wie YouTube und Meta setzen das bereits mit „Made with AI„-Labels um.18)
Urheberrecht und Autorschaft
Wem gehört ein KI-generiertes Bild? Das deutsche Recht gibt eine klare Antwort: Nach §2 des Urheberrechtsgesetzes (UrhG) können nur Menschen Urheber sein. Rein KI-generierte Werke sind deshalb nicht urheberrechtlich geschützt – sie gehören niemandem und gelten als gemeinfrei.19)
Schwieriger wird es, wenn ein Mensch viel kreative Arbeit in den Prompt gesteckt und das Ergebnis nachbearbeitet hat. Dann könnte ein Urheberrecht entstehen. Die genaue Grenze ist rechtlich noch nicht abschliessend geklärt.20)
Bias und Repräsentation
KI-Modelle lernen aus Internetdaten – und das Internet spiegelt die Sichtweise bestimmter Gruppen stärker wider als andere. Das führt zu sogenanntem Bias: bestimmte Personengruppen, Körpertypen oder Kulturen werden stereotyp oder gar nicht dargestellt. Das ist kein technisches Versehen, sondern ein Spiegel der Trainingsdaten.21)
Umwelt und Ressourcen
Das Training grosser KI-Modelle braucht enorme Mengen an Rechenleistung und damit Strom. Ansätze wie Latent Diffusion reduzieren diesen Aufwand – aber das grundlegende Problem bleibt bestehen.22)
9. Zusammenfassung
Kernaussagen auf einen Blick:
- Bild- und Videogeneratoren kombinieren einen komprimierten Bildraum (VAE), ein Modell das Zusammenhänge versteht (Transformer oder U-Net) und ein Erzeugungsverfahren (Diffusion).
- Der Diffusionsprozess läuft schrittweise ab: aus Rauschen wird langsam ein zum Prompt passendes Bild.
- Parameter wie Seed, Guidance Scale und Steps steuern das Ergebnis direkt.
- Video-Generatoren haben die zusätzliche Herausforderung, dass alle Frames zeitlich zusammenpassen müssen.
- Die gesellschaftlichen Risiken – Deepfakes, Urheberrecht, Bias, Energieverbrauch – sind mindestens so wichtig wie die Technik.