Bild- und Videogeneratoren mit KI

Dies ist eine alte Version des Dokuments!

Diese Seite erklärt, wie KI-gestützte Bild- und Videogeneratoren funktionieren, von den Grundbegriffen über die technischen Hintergründe bis zu gesellschaftlichen Risiken.

Auf einen Blick: Bild- und Videogeneratoren sind KI-Modelle, die aus einer Texteingabe (Prompt) neue Bilder oder Videos erzeugen. Die bekanntesten Verfahren heute heissen Diffusionsmodelle.

Generative KI (engl. generative models) bezeichnet Modelle, die nicht nur Dinge erkennen oder klassifizieren, sondern neue Beispiele erzeugen, die statistisch zur Welt der Trainingsdaten passen. Ein generatives Modell lernt sozusagen die Verteilung der Daten und kann dann neue Samples erzeugen, die den Trainingsdaten ähnlich sind.¹⁾

Bildgeneratoren und Videogeneratoren sind generative Modelle, die Bilder oder Videos erzeugen, häufig konditioniert durch Texteingaben (Text-to-Image, Text-to-Video) oder ein Referenzbild (Image-to-Image, Image-to-Video). Moderne Systeme wandeln textliche Beschreibungen in eine interne Repräsentation um und generieren daraus Bild- oder Videodaten.²⁾

Begriff	Erklärung
Prompt	Die Texteingabe, mit der du dem Modell beschreibst, was du sehen willst (Objekte, Stil, Stimmung, Bewegung)³⁾
Seed	Der Startwert des Zufallszahlengenerators, dieser macht das Ergebnis reproduzierbar
Latenter Raum	Eine komprimierte Zwischendarstellung der Daten, in der das Modell intern rechnet⁴⁾
Inference	Die Anwendungsphase. Das fertig trainierte Modell erzeugt aus einem Prompt ein neues Bild/Video
Training	Das rechenintensive Lernen des Modells aus vielen Beispielen

Ein guter Prompt beschreibt:

Was zu sehen sein soll (Objekte, Personen, Umgebung)
Wie es aussehen soll (Stil, Beleuchtung, Farben, Kameraeinstellung)
Für Videos zusätzlich: Wie sich Dinge bewegen (Kameraschwenkung, Tempo, Richtung)⁵⁾

Schwacher Prompt: Ein Hund

Starker Prompt: Ein Golden Retriever sitzt auf einer sonnigen Wiese, warmes Nachmittagslicht, fotorealistisch, geringe Schärfentiefe, Canon 85mm Objektiv

Bildgeneratoren werden mit riesigen Mengen an Bild-Text-Paaren trainiert. Das Modell CLIP wurde beispielsweise mit 400 Millionen Bild-Text-Paaren trainiert. In der Open-Data-Welt gibt es Datensätze wie LAION-5B mit Milliarden solcher Paare.⁶⁾

Dieser Abschnitt erklärt die wichtigsten Bausteine, aus denen Bild- und Videogeneratoren aufgebaut sind.

Ein neuronales Netz ist grob gesagt eine grosse mathematische Funktion mit sehr vielen Parametern. Beim Training wird diese Funktion so angepasst, dass sie die gewünschten Ausgaben produziert. Bei generativen Modellen ist das Ziel nicht „ein Label vorhersagen“, sondern neue Daten erzeugen.⁷⁾

Transformer sind eine spezielle Netzarchitektur, die sehr gut darin ist, Zusammenhänge in Sequenzen zu modellieren – zum Beispiel in Texten oder in Bildausschnitten (Patches). Der zentrale Mechanismus heisst Attention. Das Netz lernt, welche Teile der Eingabe für die aktuelle Ausgabe wichtig sind.⁸⁾

Viele Diffusions-Bildmodelle nutzen Netze, die strukturell einem U-Net ähneln (Encoder-Decoder-Form). Das U-Net wurde ursprünglich für Bildsegmentierung entwickelt; die Grundidee – erst verdichten, dann wieder hochskalieren – passt aber auch sehr gut zu Bildgenerierungsaufgaben.⁹⁾

Ein VAE besteht aus zwei Teilen:¹⁰⁾

Encoder: Bild → komprimierte Darstellung (latente Codes)
Decoder: latente Codes → Bild zurück

Diese „Kompression + Rekonstruktion„ ermöglicht es, im viel kleineren latenten Raum zu arbeiten statt direkt auf den Pixeln.

Das ist das Herzstück moderner Bildgeneratoren:¹¹⁾

Vorwärtsprozess: Einem echten Bild wird schrittweise Rauschen hinzugefügt, bis es komplett verrauscht ist.
Rückwärtsprozess: Das Modell lernt, diesen Prozess umzukehren – es lernt, aus Rauschen schrittweise ein sinnvolles Bild zu rekonstruieren.
Anwendung (Inference): Man startet mit Zufallsrauschen und lässt das Modell es iterativ „entrauschen“ – gesteuert durch den Prompt.

Merkhilfe: Man stellt sich vor, man beginnt mit einem Schwarz-Weiss-Foto. Mit jedem Schritt wird das Rauschen etwas weniger und das Bild etwas klarer, bis nach 20–50 Schritten ein scharfes, prompt-passendes Bild entsteht.

Diffusion direkt auf Pixeln ist sehr rechenintensiv. Latent Diffusion Models lösen das so:¹²⁾

Erst das Bild mit dem VAE-Encoder komprimieren → latenter Raum
Diffusion im latenten Raum durchführen (viel günstiger!)
Am Schluss mit dem VAE-Decoder wieder zu Pixeln zurückrechnen

Über Cross-Attention wird der Textprompt zusätzlich in den Diffusionsprozess eingebunden. Das ist die Grundlage für Tools wie Stable Diffusion.

Modelltyp	Funktionsprinzip	Bedeutung heute
GANs	Generator vs. Diskriminator – ein „Wettbewerb„ zwischen zwei Netzen¹³⁾	War lange führend, heute für Text-to-Image weitgehend durch Diffusion abgelöst
VAE	Encoder komprimiert, Decoder rekonstruiert¹⁴⁾	Wichtiger Baustein in modernen LDMs
DDPM	Iteratives Denoising¹⁵⁾	Basis aller modernen Diffusionsmodelle
LDM	Diffusion im latenten Raum + Textkonditionierung¹⁶⁾	Grundlage von Stable Diffusion & Co.
DiT	Transformer statt U-Net im Diffusionsmodell¹⁷⁾	Skaliert sehr gut; Basis neuerer Modelle wie FLUX, Sora

—

Hier ist der typische Ablauf eines Text-to-Image-Generators (z.B. Stable Diffusion):

Text → Embedding: Der Prompt wird von einem Textmodell (z.B. CLIP) in eine Zahlen-Darstellung (Vektor) umgewandelt.¹⁸⁾
Rauschen erzeugen: Aus einem Seed wird Zufallsrauschen (Gaussian Noise) im latenten Raum erzeugt.¹⁹⁾
Iteratives Denoising: Das Diffusionsmodell entrauscht das Signal schrittweise, gesteuert durch das Text-Embedding (Cross-Attention).²⁰⁾
Guidance: Der Parameter Guidance Scale bestimmt, wie stark der Prompt das Ergebnis beeinflusst.²¹⁾
Dekodierung: Der VAE-Decoder rechnet den latenten Code zurück in ein Pixelbild.²²⁾

Parameter	Bedeutung	Effekt
Seed	Startwert für den Zufallsgenerator²³⁾	Gleicher Seed = reproduzierbares Ergebnis
Guidance Scale	Stärke des Prompt-Einflusses²⁴⁾	Zu hoch → Artefakte; zu niedrig → promptfern
Steps	Anzahl der Denoising-Schritte²⁵⁾	Mehr Steps = mehr Details, aber langsamer
Negative Prompt	Was das Bild nicht zeigen soll	Hilft, unerwünschte Elemente zu unterdrücken

Mit ControlNet kann man einem Diffusionsmodell zusätzliche Steuersignale geben, z.B. ein Kantenbild, eine Pose oder eine Tiefenkarte. Das ermöglicht viel präzisere Kontrolle über Komposition und Struktur, ohne das Basismodell neu zu trainieren.²⁶⁾

Video heisst „Bild + Zeit“. Das macht die Aufgabe schwieriger, als das Generieren von „nur“ einem Bild.

Es reicht nicht, dass jedes einzelne Frame schön aussieht. Die Frames müssen auch zeitlich konsistent sein. Figuren sollen nicht pro Frame ihr Gesicht ändern. Die Bewegungen sollen flüssig wirken.²⁷⁾

Ansatz	Beschreibung
Video Diffusion (VDM)	Direkte Erweiterung von Bilddiffusion auf Video-Frames²⁸⁾
Kaskaden-Ansatz	Erst Basis-Video erzeugen, dann mit weiteren Modellen schärfen²⁹⁾
Make-A-Video	„Wie Dinge aussehen„ aus Bild-Text-Daten, „wie sie sich bewegen“ aus unbeschrifteten Videos³⁰⁾
Latent Video Diffusion	Video-LDM im latenten Raum, mehrstufiges Training³¹⁾
VideoLDM	Effiziente Video-Latent-Diffusion als Alternative zu Pixel-Diffusion³²⁾
Spacetime Patches (DiT)	Videos als Patches über Raum und Zeit. Diese sind Transformer-basiert³³⁾

Kamerabewegung und Bewegungsart müssen im Video-Prompt explizit beschrieben werden. Anders als bei Bildern reicht die reine Inhaltsbeschreibung oft nicht.³⁴⁾

Kamerabewegung explizit beschreiben: „langsam nach links schwenkend“ , „statische Kamera“
Bewegungsart angeben: „langsam laufende Person“ statt nur „Person“
Wenig Elemente gleichzeitig = bessere zeitliche Konsistenz

Tool / Modell	Typ	Besonderheit
Stable Diffusion	Bildgenerator (open source)	Lokal installierbar, grosse Community, viele Fine-Tunings
Midjourney	Bildgenerator (kommerziell)	Sehr hohe Bildqualität, Discord-basierte Bedienung
DALL-E 3	Bildgenerator (OpenAI)	Stark in Text-im-Bild, gut in Anweisungstreuung
Adobe Firefly	Bildgenerator	Trainiert auf lizenzierten Daten; in Creative Cloud integriert
Runway Gen-3	Videogenerator	Schnell, hohe Qualität
Pika	Videogenerator	Einfache Bedienung, Bild-zu-Video stark
Sora	Videogenerator (OpenAI)³⁵⁾	Lange Videos, hohe Qualität, aktuell begrenzt verfügbar

Bild- und Videogeneratoren finden heute in sehr vielen Bereichen Anwendung. Ein Überblick über die Breite dieser Anwendungen findet sich im WIPO Patent Landscape Report zu Generative AI.³⁶⁾

Kreativbranche: Konzeptkunst, Illustration, Werbung, Filmproduktion (Storyboards, Mockups)
Bildung: Anschauungsmaterial, Visualisierung von Konzepten
Forschung: Datenaugmentierung (Trainingsdaten erzeugen)
Industrie: Produktdesign, Visualisierungen
Unterhaltung: Spieleentwicklung, soziale Medien

Generative Modelle können täuschend echte Bilder und Videos erzeugen. Das NIST-Risikoprofil für Generative AI nennt explizit Gefahren rund um Informationsintegrität, darunter Desinformation, Deepfakes und manipulierte Inhalte.³⁷⁾ Die UNESCO betont, dass Deepfakes „Wissen, Wahrheit und Vertrauen„ unter Druck setzen und Medienkompetenz dadurch immer wichtiger wird.³⁸⁾

Als Gegenmassnahmen gibt es technische Standards:

C2PA beschreibt Spezifikationen für Provenienz-Informationen („Content Credentials“), die direkt in digitale Dateien eingebettet werden.³⁹⁾
SynthID (Google DeepMind) bettet unsichtbare digitale Wasserzeichen in KI-generierte Inhalte ein, die für Menschen nicht sichtbar, aber detektierbar sind.⁴⁰⁾

In der EU beschreibt ein freiwilliger Code of Practice Verpflichtungen zur Kennzeichnung von KI-Inhalten sowie zum Labeling von Deepfakes.⁴¹⁾

Das U.S. Copyright Office erklärt, wie der Grundsatz „human authorship„ bei Werken mit KI-generiertem Material angewendet wird: Rein KI-generierte Werke ohne wesentlichen menschlichen Beitrag sind demnach nicht urheberrechtlich schutzfähig.⁴²⁾ Die WIPO beschreibt auf globaler Ebene die wachsende Bedeutung einer tragfähigen Copyright-Infrastruktur im Kontext generativer KI.⁴³⁾

Weil Modelle aus sehr grossen Web-Daten lernen, übernehmen sie auch gesellschaftliche Verzerrungen (Bias). Darunter gehören stereotype Darstellungen oder unfaire Über-/Unterrepräsentation bestimmter Gruppen. Dass Bild-Text-Daten im grossen Stil aus Internetquellen stammen und als „noisy“ beschrieben werden, zeigt sich bereits in Arbeiten zu grossen Datensätzen wie LAION.⁴⁴⁾

Das Training grosser KI-Modelle kostet enorme Mengen an Rechenleistung und Strom. Forschung zu Energie- und Umweltkosten grosser Trainingsläufe weist auf erhebliche finanzielle und ökologische Belastungen hin.⁴⁵⁾ Ansätze wie Latent Diffusion versuchen, den Rechenaufwand zu reduzieren, indem nicht im Pixelraum trainiert wird.⁴⁶⁾

Kernaussagen auf einen Blick:

Bild- und Videogeneratoren kombinieren latenten Raum (VAE), Sequenzmodelle (Transformer oder U-Net) und ein Generationsverfahren (Diffusion).
Der Diffusionsprozess arbeitet iterativ: aus Rauschen wird Schritt für Schritt ein prompt-passendes Bild.
Parameter wie Seed, Guidance Scale und Steps steuern das Ergebnis direkt.
Video-Generatoren müssen zusätzlich zeitliche Konsistenz sicherstellen.
Die gesellschaftlichen Risiken (Deepfakes, Urheberrecht, Bias, Umwelt) sind mindestens so wichtig wie die Technik.

¹⁾ , ⁷⁾ , ¹³⁾

Goodfellow et al. (2014): Generative Adversarial Networks. https://arxiv.org/abs/1406.2661

²⁾ , ⁴⁾ , ¹²⁾ , ¹⁶⁾ , ²⁰⁾ , ²²⁾ , ⁴⁶⁾

Rombach et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models. https://arxiv.org/abs/2112.10752

³⁾ , ⁵⁾ , ³⁴⁾

Runway: Text to Video Prompting Guide. https://help.runwayml.com/hc/en-us/articles/47313737321107-Text-to-Video-Prompting-Guide

⁶⁾ , ¹⁸⁾ , ⁴⁴⁾

Radford et al. (2021): Learning Transferable Visual Models From Natural Language Supervision (CLIP). https://arxiv.org/abs/2103.00020

⁸⁾

Vaswani et al. (2017): Attention Is All You Need. https://arxiv.org/abs/1706.03762

⁹⁾

Ronneberger et al. (2015): U-Net: Convolutional Networks for Biomedical Image Segmentation. https://arxiv.org/abs/1505.04597

¹⁰⁾ , ¹⁴⁾

Kingma & Welling (2013): Auto-Encoding Variational Bayes. https://arxiv.org/abs/1312.6114

¹¹⁾ , ¹⁵⁾ , ²⁵⁾

Ho et al. (2020): Denoising Diffusion Probabilistic Models. https://arxiv.org/abs/2006.11239

¹⁷⁾

Peebles & Xie (2022): Scalable Diffusion Models with Transformers. https://arxiv.org/abs/2212.09748

¹⁹⁾ , ²³⁾

HuggingFace Diffusers: Re-using seeds for fast prompt engineering. https://huggingface.co/docs/diffusers/v0.14.0/en/using-diffusers/reusing_seeds

²¹⁾ , ²⁴⁾

Ho & Salimans (2022): Classifier-Free Diffusion Guidance. https://arxiv.org/abs/2207.12598

²⁶⁾

Zhang et al. (2023): Adding Conditional Control to Text-to-Image Diffusion Models. https://arxiv.org/abs/2302.05543

²⁷⁾ , ²⁸⁾

Ho et al. (2022): Video Diffusion Models. https://arxiv.org/abs/2204.03458

²⁹⁾

Ho et al. (2022): Imagen Video. https://arxiv.org/abs/2210.02303

³⁰⁾

Singer et al. (2022): Make-A-Video. https://arxiv.org/abs/2209.14792

³¹⁾

Blattmann et al. (2023): Stable Video Diffusion. https://arxiv.org/abs/2311.15127

³²⁾

Blattmann et al. (2023): Align your Latents. https://arxiv.org/abs/2304.08818

³³⁾ , ³⁵⁾

OpenAI (2024): Video generation models as world simulators. https://openai.com/index/video-generation-models-as-world-simulators/

³⁶⁾

WIPO (2024): Patent Landscape Report – Generative Artificial Intelligence. https://www.wipo.int/web-publications/patent-landscape-report-generative-artificial-intelligence-genai/

³⁷⁾

NIST (2024): AI 600-1 – Generative AI Profile. https://airc.nist.gov/docs/NIST.AI.600-1.GenAI-Profile.ipd.pdf

³⁸⁾

UNESCO: Deepfakes and the crisis of knowing. https://www.unesco.org/en/articles/deepfakes-and-crisis-knowing

³⁹⁾

C2PA: Content Credentials Technical Specification. https://c2pa.org/specifications/specifications/2.3/specs/C2PA_Specification.html

⁴⁰⁾

Google DeepMind: SynthID. https://deepmind.google/models/synthid/

⁴¹⁾

European Commission: Code of Practice on marking and labelling of AI-generated content. https://digital-strategy.ec.europa.eu/en/policies/code-practice-ai-generated-content

⁴²⁾

U.S. Copyright Office (2023): Copyright and Artificial Intelligence – Policy Guidance. https://www.copyright.gov/ai/ai_policy_guidance.pdf

⁴³⁾

WIPO: Artificial Intelligence and Intellectual Property. https://www.wipo.int/en/web/frontier-technologies/artificial-intelligence/index

⁴⁵⁾

Strubell et al. (2019): Energy and Policy Considerations for Deep Learning in NLP. https://aclanthology.org/P19-1355/

Bild- und Videogeneratoren mit KI

1. Grundbegriffe

Generative KI

Was ist ein Prompt?

Trainingsdaten

2. Technische Grundlagen

Neuronale Netze

Transformer & Attention

U-Net

Variational Autoencoder (VAE)

Diffusionsmodelle

Latent Diffusion Models (LDM)

3. Wichtige Modelltypen

4. Wie funktioniert ein Bildgenerator?

Wichtige Parameter

ControlNet – Kontrolle über die Komposition

5. Video-Generatoren

Ansätze

Tipps für Video-Prompts

6. Bekannte Tools und Modelle

7. Anwendungsbereiche

8. Risiken und gesellschaftliche Fragen

Deepfakes und Desinformation

Herkunftsnachweise (Provenance) und Watermarking

Regulierung: EU AI Act & Kennzeichnungspflichten

Urheberrecht und Autorschaft

Bias und Repräsentation

Umwelt und Ressourcen

9. Zusammenfassung

DokuWiki CSC