Dies ist eine alte Version des Dokuments!
Bild- und Videogeneratoren mit KI
Diese Seite erklärt, wie KI-gestützte Bild- und Videogeneratoren funktionieren, von den Grundbegriffen über die technischen Hintergründe bis zu gesellschaftlichen Risiken.
Auf einen Blick: Bild- und Videogeneratoren sind KI-Modelle, die aus einer Texteingabe (Prompt) neue Bilder oder Videos erzeugen. Die bekanntesten Verfahren heute heissen Diffusionsmodelle.
1. Grundbegriffe
Generative KI
Generative KI (engl. generative models) bezeichnet Modelle, die nicht nur Dinge erkennen oder klassifizieren, sondern neue Beispiele erzeugen, die statistisch zur Welt der Trainingsdaten passen. Ein generatives Modell lernt sozusagen die Verteilung der Daten und kann dann neue Samples erzeugen, die den Trainingsdaten ähnlich sind.1)
Bildgeneratoren und Videogeneratoren sind generative Modelle, die Bilder oder Videos erzeugen, häufig konditioniert durch Texteingaben (Text-to-Image, Text-to-Video) oder ein Referenzbild (Image-to-Image, Image-to-Video). Moderne Systeme wandeln textliche Beschreibungen in eine interne Repräsentation um und generieren daraus Bild- oder Videodaten.2)
| Begriff | Erklärung |
|---|---|
| Prompt | Die Texteingabe, mit der du dem Modell beschreibst, was du sehen willst (Objekte, Stil, Stimmung, Bewegung)3) |
| Seed | Der Startwert des Zufallszahlengenerators, dieser macht das Ergebnis reproduzierbar |
| Latenter Raum | Eine komprimierte Zwischendarstellung der Daten, in der das Modell intern rechnet4) |
| Inference | Die Anwendungsphase. Das fertig trainierte Modell erzeugt aus einem Prompt ein neues Bild/Video |
| Training | Das rechenintensive Lernen des Modells aus vielen Beispielen |
Was ist ein Prompt?
Ein guter Prompt beschreibt:
- Was zu sehen sein soll (Objekte, Personen, Umgebung)
- Wie es aussehen soll (Stil, Beleuchtung, Farben, Kameraeinstellung)
- Für Videos zusätzlich: Wie sich Dinge bewegen (Kameraschwenkung, Tempo, Richtung)5)
Schwacher Prompt: Ein Hund
Starker Prompt: Ein Golden Retriever sitzt auf einer sonnigen Wiese, warmes Nachmittagslicht, fotorealistisch, geringe Schärfentiefe, Canon 85mm Objektiv
Trainingsdaten
Bildgeneratoren werden mit riesigen Mengen an Bild-Text-Paaren trainiert. Das Modell CLIP wurde beispielsweise mit 400 Millionen Bild-Text-Paaren trainiert. In der Open-Data-Welt gibt es Datensätze wie LAION-5B mit Milliarden solcher Paare.6)
2. Technische Grundlagen
Dieser Abschnitt erklärt die wichtigsten Bausteine, aus denen Bild- und Videogeneratoren aufgebaut sind.
Neuronale Netze
Ein neuronales Netz ist grob gesagt eine grosse mathematische Funktion mit sehr vielen Parametern. Beim Training wird diese Funktion so angepasst, dass sie die gewünschten Ausgaben produziert. Bei generativen Modellen ist das Ziel nicht „ein Label vorhersagen“, sondern neue Daten erzeugen.7)
Transformer & Attention
Transformer sind eine spezielle Netzarchitektur, die sehr gut darin ist, Zusammenhänge in Sequenzen zu modellieren – zum Beispiel in Texten oder in Bildausschnitten (Patches). Der zentrale Mechanismus heisst Attention. Das Netz lernt, welche Teile der Eingabe für die aktuelle Ausgabe wichtig sind.8)
U-Net
Viele Diffusions-Bildmodelle nutzen Netze, die strukturell einem U-Net ähneln (Encoder-Decoder-Form). Das U-Net wurde ursprünglich für Bildsegmentierung entwickelt; die Grundidee – erst verdichten, dann wieder hochskalieren – passt aber auch sehr gut zu Bildgenerierungsaufgaben.9)
Variational Autoencoder (VAE)
Ein VAE besteht aus zwei Teilen:10)
- Encoder: Bild → komprimierte Darstellung (latente Codes)
- Decoder: latente Codes → Bild zurück
Diese „Kompression + Rekonstruktion„ ermöglicht es, im viel kleineren latenten Raum zu arbeiten statt direkt auf den Pixeln.
Diffusionsmodelle
Das ist das Herzstück moderner Bildgeneratoren:11)
- Vorwärtsprozess: Einem echten Bild wird schrittweise Rauschen hinzugefügt, bis es komplett verrauscht ist.
- Rückwärtsprozess: Das Modell lernt, diesen Prozess umzukehren – es lernt, aus Rauschen schrittweise ein sinnvolles Bild zu rekonstruieren.
- Anwendung (Inference): Man startet mit Zufallsrauschen und lässt das Modell es iterativ „entrauschen“ – gesteuert durch den Prompt.
Merkhilfe: Man stellt sich vor, man beginnt mit einem Schwarz-Weiss-Foto. Mit jedem Schritt wird das Rauschen etwas weniger und das Bild etwas klarer, bis nach 20–50 Schritten ein scharfes, prompt-passendes Bild entsteht.
Latent Diffusion Models (LDM)
Diffusion direkt auf Pixeln ist sehr rechenintensiv. Latent Diffusion Models lösen das so:12)
- Erst das Bild mit dem VAE-Encoder komprimieren → latenter Raum
- Diffusion im latenten Raum durchführen (viel günstiger!)
- Am Schluss mit dem VAE-Decoder wieder zu Pixeln zurückrechnen
Über Cross-Attention wird der Textprompt zusätzlich in den Diffusionsprozess eingebunden. Das ist die Grundlage für Tools wie Stable Diffusion.
3. Wichtige Modelltypen
| Modelltyp | Funktionsprinzip | Bedeutung heute |
|---|---|---|
| GANs | Generator vs. Diskriminator – ein „Wettbewerb„ zwischen zwei Netzen13) | War lange führend, heute für Text-to-Image weitgehend durch Diffusion abgelöst |
| VAE | Encoder komprimiert, Decoder rekonstruiert14) | Wichtiger Baustein in modernen LDMs |
| DDPM | Iteratives Denoising15) | Basis aller modernen Diffusionsmodelle |
| LDM | Diffusion im latenten Raum + Textkonditionierung16) | Grundlage von Stable Diffusion & Co. |
| DiT | Transformer statt U-Net im Diffusionsmodell17) | Skaliert sehr gut; Basis neuerer Modelle wie FLUX, Sora |
—
4. Wie funktioniert ein Bildgenerator?
Hier ist der typische Ablauf eines Text-to-Image-Generators (z.B. Stable Diffusion):
- Text → Embedding: Der Prompt wird von einem Textmodell (z.B. CLIP) in eine Zahlen-Darstellung (Vektor) umgewandelt.18)
- Rauschen erzeugen: Aus einem Seed wird Zufallsrauschen (Gaussian Noise) im latenten Raum erzeugt.19)
- Iteratives Denoising: Das Diffusionsmodell entrauscht das Signal schrittweise, gesteuert durch das Text-Embedding (Cross-Attention).20)
- Guidance: Der Parameter Guidance Scale bestimmt, wie stark der Prompt das Ergebnis beeinflusst.21)
- Dekodierung: Der VAE-Decoder rechnet den latenten Code zurück in ein Pixelbild.22)
Wichtige Parameter
| Parameter | Bedeutung | Effekt |
|---|---|---|
| Seed | Startwert für den Zufallsgenerator23) | Gleicher Seed = reproduzierbares Ergebnis |
| Guidance Scale | Stärke des Prompt-Einflusses24) | Zu hoch → Artefakte; zu niedrig → promptfern |
| Steps | Anzahl der Denoising-Schritte25) | Mehr Steps = mehr Details, aber langsamer |
| Negative Prompt | Was das Bild nicht zeigen soll | Hilft, unerwünschte Elemente zu unterdrücken |
ControlNet – Kontrolle über die Komposition
Mit ControlNet kann man einem Diffusionsmodell zusätzliche Steuersignale geben, z.B. ein Kantenbild, eine Pose oder eine Tiefenkarte. Das ermöglicht viel präzisere Kontrolle über Komposition und Struktur, ohne das Basismodell neu zu trainieren.26)
5. Video-Generatoren
Video heisst „Bild + Zeit“. Das macht die Aufgabe schwieriger, als das Generieren von „nur“ einem Bild.
Es reicht nicht, dass jedes einzelne Frame schön aussieht. Die Frames müssen auch zeitlich konsistent sein. Figuren sollen nicht pro Frame ihr Gesicht ändern. Die Bewegungen sollen flüssig wirken.27)
Ansätze
| Ansatz | Beschreibung |
|---|---|
| Video Diffusion (VDM) | Direkte Erweiterung von Bilddiffusion auf Video-Frames28) |
| Kaskaden-Ansatz | Erst Basis-Video erzeugen, dann mit weiteren Modellen schärfen29) |
| Make-A-Video | „Wie Dinge aussehen„ aus Bild-Text-Daten, „wie sie sich bewegen“ aus unbeschrifteten Videos30) |
| Latent Video Diffusion | Video-LDM im latenten Raum, mehrstufiges Training31) |
| VideoLDM | Effiziente Video-Latent-Diffusion als Alternative zu Pixel-Diffusion32) |
| Spacetime Patches (DiT) | Videos als Patches über Raum und Zeit. Diese sind Transformer-basiert33) |
Tipps für Video-Prompts
Kamerabewegung und Bewegungsart müssen im Video-Prompt explizit beschrieben werden. Anders als bei Bildern reicht die reine Inhaltsbeschreibung oft nicht.34)
- Kamerabewegung explizit beschreiben: „langsam nach links schwenkend“ , „statische Kamera“
- Bewegungsart angeben: „langsam laufende Person“ statt nur „Person“
- Wenig Elemente gleichzeitig = bessere zeitliche Konsistenz
6. Bekannte Tools und Modelle
| Tool / Modell | Typ | Besonderheit |
|---|---|---|
| Stable Diffusion | Bildgenerator (open source) | Lokal installierbar, grosse Community, viele Fine-Tunings |
| Midjourney | Bildgenerator (kommerziell) | Sehr hohe Bildqualität, Discord-basierte Bedienung |
| DALL-E 3 | Bildgenerator (OpenAI) | Stark in Text-im-Bild, gut in Anweisungstreuung |
| Adobe Firefly | Bildgenerator | Trainiert auf lizenzierten Daten; in Creative Cloud integriert |
| Runway Gen-3 | Videogenerator | Schnell, hohe Qualität |
| Pika | Videogenerator | Einfache Bedienung, Bild-zu-Video stark |
| Sora | Videogenerator (OpenAI)35) | Lange Videos, hohe Qualität, aktuell begrenzt verfügbar |
7. Anwendungsbereiche
Bild- und Videogeneratoren finden heute in sehr vielen Bereichen Anwendung. Ein Überblick über die Breite dieser Anwendungen findet sich im WIPO Patent Landscape Report zu Generative AI.36)
- Kreativbranche: Konzeptkunst, Illustration, Werbung, Filmproduktion (Storyboards, Mockups)
- Bildung: Anschauungsmaterial, Visualisierung von Konzepten
- Forschung: Datenaugmentierung (Trainingsdaten erzeugen)
- Industrie: Produktdesign, Visualisierungen
- Unterhaltung: Spieleentwicklung, soziale Medien
8. Risiken und gesellschaftliche Fragen
Deepfakes und Desinformation
Generative Modelle können täuschend echte Bilder und Videos erzeugen. Das NIST-Risikoprofil für Generative AI nennt explizit Gefahren rund um Informationsintegrität, darunter Desinformation, Deepfakes und manipulierte Inhalte.37) Die UNESCO betont, dass Deepfakes „Wissen, Wahrheit und Vertrauen„ unter Druck setzen und Medienkompetenz dadurch immer wichtiger wird.38)
Herkunftsnachweise (Provenance) und Watermarking
Als Gegenmassnahmen gibt es technische Standards:
Regulierung: EU AI Act & Kennzeichnungspflichten
In der EU beschreibt ein freiwilliger Code of Practice Verpflichtungen zur Kennzeichnung von KI-Inhalten sowie zum Labeling von Deepfakes.41)
Urheberrecht und Autorschaft
Das U.S. Copyright Office erklärt, wie der Grundsatz „human authorship„ bei Werken mit KI-generiertem Material angewendet wird: Rein KI-generierte Werke ohne wesentlichen menschlichen Beitrag sind demnach nicht urheberrechtlich schutzfähig.42) Die WIPO beschreibt auf globaler Ebene die wachsende Bedeutung einer tragfähigen Copyright-Infrastruktur im Kontext generativer KI.43)
Bias und Repräsentation
Weil Modelle aus sehr grossen Web-Daten lernen, übernehmen sie auch gesellschaftliche Verzerrungen (Bias). Darunter gehören stereotype Darstellungen oder unfaire Über-/Unterrepräsentation bestimmter Gruppen. Dass Bild-Text-Daten im grossen Stil aus Internetquellen stammen und als „noisy“ beschrieben werden, zeigt sich bereits in Arbeiten zu grossen Datensätzen wie LAION.44)
Umwelt und Ressourcen
Das Training grosser KI-Modelle kostet enorme Mengen an Rechenleistung und Strom. Forschung zu Energie- und Umweltkosten grosser Trainingsläufe weist auf erhebliche finanzielle und ökologische Belastungen hin.45) Ansätze wie Latent Diffusion versuchen, den Rechenaufwand zu reduzieren, indem nicht im Pixelraum trainiert wird.46)
9. Zusammenfassung
Kernaussagen auf einen Blick:
- Bild- und Videogeneratoren kombinieren latenten Raum (VAE), Sequenzmodelle (Transformer oder U-Net) und ein Generationsverfahren (Diffusion).
- Der Diffusionsprozess arbeitet iterativ: aus Rauschen wird Schritt für Schritt ein prompt-passendes Bild.
- Parameter wie Seed, Guidance Scale und Steps steuern das Ergebnis direkt.
- Video-Generatoren müssen zusätzlich zeitliche Konsistenz sicherstellen.
- Die gesellschaftlichen Risiken (Deepfakes, Urheberrecht, Bias, Umwelt) sind mindestens so wichtig wie die Technik.