Dies ist eine alte Version des Dokuments!


Bild- und Videogeneratoren mit KI

Diese Seite erklärt, wie KI-gestützte Bild- und Videogeneratoren funktionieren, von den Grundbegriffen über die technischen Hintergründe bis zu gesellschaftlichen Risiken.

Auf einen Blick: Bild- und Videogeneratoren sind KI-Modelle, die aus einer Texteingabe (Prompt) neue Bilder oder Videos erzeugen. Die bekanntesten Verfahren heute heissen Diffusionsmodelle.

Generative KI (engl. generative models) bezeichnet Modelle, die nicht nur Dinge erkennen oder klassifizieren, sondern neue Beispiele erzeugen, die statistisch zur Welt der Trainingsdaten passen. Ein generatives Modell lernt sozusagen die Verteilung der Daten und kann dann neue Samples erzeugen, die den Trainingsdaten ähnlich sind.1)

Bildgeneratoren und Videogeneratoren sind generative Modelle, die Bilder oder Videos erzeugen, häufig konditioniert durch Texteingaben (Text-to-Image, Text-to-Video) oder ein Referenzbild (Image-to-Image, Image-to-Video). Moderne Systeme wandeln textliche Beschreibungen in eine interne Repräsentation um und generieren daraus Bild- oder Videodaten.2)

Begriff Erklärung
Prompt Die Texteingabe, mit der du dem Modell beschreibst, was du sehen willst (Objekte, Stil, Stimmung, Bewegung)3)
Seed Der Startwert des Zufallszahlengenerators, dieser macht das Ergebnis reproduzierbar
Latenter Raum Eine komprimierte Zwischendarstellung der Daten, in der das Modell intern rechnet4)
Inference Die Anwendungsphase. Das fertig trainierte Modell erzeugt aus einem Prompt ein neues Bild/Video
Training Das rechenintensive Lernen des Modells aus vielen Beispielen

Ein guter Prompt beschreibt:

  • Was zu sehen sein soll (Objekte, Personen, Umgebung)
  • Wie es aussehen soll (Stil, Beleuchtung, Farben, Kameraeinstellung)
  • Für Videos zusätzlich: Wie sich Dinge bewegen (Kameraschwenkung, Tempo, Richtung)5)

Schwacher Prompt: Ein Hund

Starker Prompt: Ein Golden Retriever sitzt auf einer sonnigen Wiese, warmes Nachmittagslicht, fotorealistisch, geringe Schärfentiefe, Canon 85mm Objektiv

Bildgeneratoren werden mit riesigen Mengen an Bild-Text-Paaren trainiert. Das Modell CLIP wurde beispielsweise mit 400 Millionen Bild-Text-Paaren trainiert. In der Open-Data-Welt gibt es Datensätze wie LAION-5B mit Milliarden solcher Paare.6)

Dieser Abschnitt erklärt die wichtigsten Bausteine, aus denen Bild- und Videogeneratoren aufgebaut sind.

Ein neuronales Netz ist grob gesagt eine grosse mathematische Funktion mit sehr vielen Parametern. Beim Training wird diese Funktion so angepasst, dass sie die gewünschten Ausgaben produziert. Bei generativen Modellen ist das Ziel nicht „ein Label vorhersagen“, sondern neue Daten erzeugen.7)

Transformer sind eine spezielle Netzarchitektur, die sehr gut darin ist, Zusammenhänge in Sequenzen zu modellieren – zum Beispiel in Texten oder in Bildausschnitten (Patches). Der zentrale Mechanismus heisst Attention. Das Netz lernt, welche Teile der Eingabe für die aktuelle Ausgabe wichtig sind.8)

Viele Diffusions-Bildmodelle nutzen Netze, die strukturell einem U-Net ähneln (Encoder-Decoder-Form). Das U-Net wurde ursprünglich für Bildsegmentierung entwickelt; die Grundidee – erst verdichten, dann wieder hochskalieren – passt aber auch sehr gut zu Bildgenerierungsaufgaben.9)

Ein VAE besteht aus zwei Teilen:10)

  1. Encoder: Bild → komprimierte Darstellung (latente Codes)
  2. Decoder: latente Codes → Bild zurück

Diese „Kompression + Rekonstruktion„ ermöglicht es, im viel kleineren latenten Raum zu arbeiten statt direkt auf den Pixeln.

Das ist das Herzstück moderner Bildgeneratoren:11)

  1. Vorwärtsprozess: Einem echten Bild wird schrittweise Rauschen hinzugefügt, bis es komplett verrauscht ist.
  2. Rückwärtsprozess: Das Modell lernt, diesen Prozess umzukehren – es lernt, aus Rauschen schrittweise ein sinnvolles Bild zu rekonstruieren.
  3. Anwendung (Inference): Man startet mit Zufallsrauschen und lässt das Modell es iterativ „entrauschen“ – gesteuert durch den Prompt.

Merkhilfe: Man stellt sich vor, man beginnt mit einem Schwarz-Weiss-Foto. Mit jedem Schritt wird das Rauschen etwas weniger und das Bild etwas klarer, bis nach 20–50 Schritten ein scharfes, prompt-passendes Bild entsteht.

Diffusion direkt auf Pixeln ist sehr rechenintensiv. Latent Diffusion Models lösen das so:12)

  1. Erst das Bild mit dem VAE-Encoder komprimieren → latenter Raum
  2. Diffusion im latenten Raum durchführen (viel günstiger!)
  3. Am Schluss mit dem VAE-Decoder wieder zu Pixeln zurückrechnen

Über Cross-Attention wird der Textprompt zusätzlich in den Diffusionsprozess eingebunden. Das ist die Grundlage für Tools wie Stable Diffusion.

Modelltyp Funktionsprinzip Bedeutung heute
GANs Generator vs. Diskriminator – ein „Wettbewerb„ zwischen zwei Netzen13) War lange führend, heute für Text-to-Image weitgehend durch Diffusion abgelöst
VAE Encoder komprimiert, Decoder rekonstruiert14) Wichtiger Baustein in modernen LDMs
DDPM Iteratives Denoising15) Basis aller modernen Diffusionsmodelle
LDM Diffusion im latenten Raum + Textkonditionierung16) Grundlage von Stable Diffusion & Co.
DiT Transformer statt U-Net im Diffusionsmodell17) Skaliert sehr gut; Basis neuerer Modelle wie FLUX, Sora

Hier ist der typische Ablauf eines Text-to-Image-Generators (z.B. Stable Diffusion):

  1. Text → Embedding: Der Prompt wird von einem Textmodell (z.B. CLIP) in eine Zahlen-Darstellung (Vektor) umgewandelt.18)
  2. Rauschen erzeugen: Aus einem Seed wird Zufallsrauschen (Gaussian Noise) im latenten Raum erzeugt.19)
  3. Iteratives Denoising: Das Diffusionsmodell entrauscht das Signal schrittweise, gesteuert durch das Text-Embedding (Cross-Attention).20)
  4. Guidance: Der Parameter Guidance Scale bestimmt, wie stark der Prompt das Ergebnis beeinflusst.21)
  5. Dekodierung: Der VAE-Decoder rechnet den latenten Code zurück in ein Pixelbild.22)
Parameter Bedeutung Effekt
Seed Startwert für den Zufallsgenerator23) Gleicher Seed = reproduzierbares Ergebnis
Guidance Scale Stärke des Prompt-Einflusses24) Zu hoch → Artefakte; zu niedrig → promptfern
Steps Anzahl der Denoising-Schritte25) Mehr Steps = mehr Details, aber langsamer
Negative Prompt Was das Bild nicht zeigen soll Hilft, unerwünschte Elemente zu unterdrücken

Mit ControlNet kann man einem Diffusionsmodell zusätzliche Steuersignale geben, z.B. ein Kantenbild, eine Pose oder eine Tiefenkarte. Das ermöglicht viel präzisere Kontrolle über Komposition und Struktur, ohne das Basismodell neu zu trainieren.26)

Video heisst „Bild + Zeit“. Das macht die Aufgabe schwieriger, als das Generieren von „nur“ einem Bild.

Es reicht nicht, dass jedes einzelne Frame schön aussieht. Die Frames müssen auch zeitlich konsistent sein. Figuren sollen nicht pro Frame ihr Gesicht ändern. Die Bewegungen sollen flüssig wirken.27)

Ansatz Beschreibung
Video Diffusion (VDM) Direkte Erweiterung von Bilddiffusion auf Video-Frames28)
Kaskaden-Ansatz Erst Basis-Video erzeugen, dann mit weiteren Modellen schärfen29)
Make-A-Video „Wie Dinge aussehen„ aus Bild-Text-Daten, „wie sie sich bewegen“ aus unbeschrifteten Videos30)
Latent Video Diffusion Video-LDM im latenten Raum, mehrstufiges Training31)
VideoLDM Effiziente Video-Latent-Diffusion als Alternative zu Pixel-Diffusion32)
Spacetime Patches (DiT) Videos als Patches über Raum und Zeit. Diese sind Transformer-basiert33)

Kamerabewegung und Bewegungsart müssen im Video-Prompt explizit beschrieben werden. Anders als bei Bildern reicht die reine Inhaltsbeschreibung oft nicht.34)

  • Kamerabewegung explizit beschreiben: „langsam nach links schwenkend“ , „statische Kamera“
  • Bewegungsart angeben: „langsam laufende Person“ statt nur „Person“
  • Wenig Elemente gleichzeitig = bessere zeitliche Konsistenz
Tool / Modell Typ Besonderheit
Stable Diffusion Bildgenerator (open source) Lokal installierbar, grosse Community, viele Fine-Tunings
Midjourney Bildgenerator (kommerziell) Sehr hohe Bildqualität, Discord-basierte Bedienung
DALL-E 3 Bildgenerator (OpenAI) Stark in Text-im-Bild, gut in Anweisungstreuung
Adobe Firefly Bildgenerator Trainiert auf lizenzierten Daten; in Creative Cloud integriert
Runway Gen-3 Videogenerator Schnell, hohe Qualität
Pika Videogenerator Einfache Bedienung, Bild-zu-Video stark
Sora Videogenerator (OpenAI)35) Lange Videos, hohe Qualität, aktuell begrenzt verfügbar

Bild- und Videogeneratoren finden heute in sehr vielen Bereichen Anwendung. Ein Überblick über die Breite dieser Anwendungen findet sich im WIPO Patent Landscape Report zu Generative AI.36)

  • Kreativbranche: Konzeptkunst, Illustration, Werbung, Filmproduktion (Storyboards, Mockups)
  • Bildung: Anschauungsmaterial, Visualisierung von Konzepten
  • Forschung: Datenaugmentierung (Trainingsdaten erzeugen)
  • Industrie: Produktdesign, Visualisierungen
  • Unterhaltung: Spieleentwicklung, soziale Medien

Generative Modelle können täuschend echte Bilder und Videos erzeugen. Das NIST-Risikoprofil für Generative AI nennt explizit Gefahren rund um Informationsintegrität, darunter Desinformation, Deepfakes und manipulierte Inhalte.37) Die UNESCO betont, dass Deepfakes „Wissen, Wahrheit und Vertrauen„ unter Druck setzen und Medienkompetenz dadurch immer wichtiger wird.38)

Als Gegenmassnahmen gibt es technische Standards:

  • C2PA beschreibt Spezifikationen für Provenienz-Informationen („Content Credentials“), die direkt in digitale Dateien eingebettet werden.39)
  • SynthID (Google DeepMind) bettet unsichtbare digitale Wasserzeichen in KI-generierte Inhalte ein, die für Menschen nicht sichtbar, aber detektierbar sind.40)

In der EU beschreibt ein freiwilliger Code of Practice Verpflichtungen zur Kennzeichnung von KI-Inhalten sowie zum Labeling von Deepfakes.41)

Das U.S. Copyright Office erklärt, wie der Grundsatz „human authorship„ bei Werken mit KI-generiertem Material angewendet wird: Rein KI-generierte Werke ohne wesentlichen menschlichen Beitrag sind demnach nicht urheberrechtlich schutzfähig.42) Die WIPO beschreibt auf globaler Ebene die wachsende Bedeutung einer tragfähigen Copyright-Infrastruktur im Kontext generativer KI.43)

Weil Modelle aus sehr grossen Web-Daten lernen, übernehmen sie auch gesellschaftliche Verzerrungen (Bias). Darunter gehören stereotype Darstellungen oder unfaire Über-/Unterrepräsentation bestimmter Gruppen. Dass Bild-Text-Daten im grossen Stil aus Internetquellen stammen und als „noisy“ beschrieben werden, zeigt sich bereits in Arbeiten zu grossen Datensätzen wie LAION.44)

Das Training grosser KI-Modelle kostet enorme Mengen an Rechenleistung und Strom. Forschung zu Energie- und Umweltkosten grosser Trainingsläufe weist auf erhebliche finanzielle und ökologische Belastungen hin.45) Ansätze wie Latent Diffusion versuchen, den Rechenaufwand zu reduzieren, indem nicht im Pixelraum trainiert wird.46)

Kernaussagen auf einen Blick:

  1. Bild- und Videogeneratoren kombinieren latenten Raum (VAE), Sequenzmodelle (Transformer oder U-Net) und ein Generationsverfahren (Diffusion).
  2. Der Diffusionsprozess arbeitet iterativ: aus Rauschen wird Schritt für Schritt ein prompt-passendes Bild.
  3. Parameter wie Seed, Guidance Scale und Steps steuern das Ergebnis direkt.
  4. Video-Generatoren müssen zusätzlich zeitliche Konsistenz sicherstellen.
  5. Die gesellschaftlichen Risiken (Deepfakes, Urheberrecht, Bias, Umwelt) sind mindestens so wichtig wie die Technik.

1) , 7) , 13)
Goodfellow et al. (2014): Generative Adversarial Networks. https://arxiv.org/abs/1406.2661
2) , 4) , 12) , 16) , 20) , 22) , 46)
Rombach et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models. https://arxiv.org/abs/2112.10752
6) , 18) , 44)
Radford et al. (2021): Learning Transferable Visual Models From Natural Language Supervision (CLIP). https://arxiv.org/abs/2103.00020
8)
Vaswani et al. (2017): Attention Is All You Need. https://arxiv.org/abs/1706.03762
9)
Ronneberger et al. (2015): U-Net: Convolutional Networks for Biomedical Image Segmentation. https://arxiv.org/abs/1505.04597
10) , 14)
Kingma & Welling (2013): Auto-Encoding Variational Bayes. https://arxiv.org/abs/1312.6114
11) , 15) , 25)
Ho et al. (2020): Denoising Diffusion Probabilistic Models. https://arxiv.org/abs/2006.11239
17)
Peebles & Xie (2022): Scalable Diffusion Models with Transformers. https://arxiv.org/abs/2212.09748
19) , 23)
HuggingFace Diffusers: Re-using seeds for fast prompt engineering. https://huggingface.co/docs/diffusers/v0.14.0/en/using-diffusers/reusing_seeds
21) , 24)
Ho & Salimans (2022): Classifier-Free Diffusion Guidance. https://arxiv.org/abs/2207.12598
26)
Zhang et al. (2023): Adding Conditional Control to Text-to-Image Diffusion Models. https://arxiv.org/abs/2302.05543
27) , 28)
Ho et al. (2022): Video Diffusion Models. https://arxiv.org/abs/2204.03458
29)
Ho et al. (2022): Imagen Video. https://arxiv.org/abs/2210.02303
30)
Singer et al. (2022): Make-A-Video. https://arxiv.org/abs/2209.14792
31)
Blattmann et al. (2023): Stable Video Diffusion. https://arxiv.org/abs/2311.15127
32)
Blattmann et al. (2023): Align your Latents. https://arxiv.org/abs/2304.08818
33) , 35)
OpenAI (2024): Video generation models as world simulators. https://openai.com/index/video-generation-models-as-world-simulators/
36)
WIPO (2024): Patent Landscape Report – Generative Artificial Intelligence. https://www.wipo.int/web-publications/patent-landscape-report-generative-artificial-intelligence-genai/
37)
NIST (2024): AI 600-1 – Generative AI Profile. https://airc.nist.gov/docs/NIST.AI.600-1.GenAI-Profile.ipd.pdf
38)
UNESCO: Deepfakes and the crisis of knowing. https://www.unesco.org/en/articles/deepfakes-and-crisis-knowing
41)
European Commission: Code of Practice on marking and labelling of AI-generated content. https://digital-strategy.ec.europa.eu/en/policies/code-practice-ai-generated-content
42)
U.S. Copyright Office (2023): Copyright and Artificial Intelligence – Policy Guidance. https://www.copyright.gov/ai/ai_policy_guidance.pdf
43)
WIPO: Artificial Intelligence and Intellectual Property. https://www.wipo.int/en/web/frontier-technologies/artificial-intelligence/index
45)
Strubell et al. (2019): Energy and Policy Considerations for Deep Learning in NLP. https://aclanthology.org/P19-1355/
  • ef/ki/bild.1773930887.txt.gz
  • Zuletzt geändert: 2026/03/19 15:34
  • von baechlerl