| Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung |
| ef:ki:bild [2026/03/19 15:33] – [Was ist ein Prompt?] baechlerl | ef:ki:bild [2026/04/22 09:34] (aktuell) – [Was ist generative KI?] baechlerl |
|---|
| ====== Bild- und Videogeneratoren mit KI ====== | ====== Bild- und Videogeneratoren mit KI ====== |
| |
| Diese Seite erklärt, wie KI-gestützte Bild- und Videogeneratoren funktionieren, von den Grundbegriffen über die technischen Hintergründe bis zu gesellschaftlichen Risiken. | Stell dir vor, du schreibst „ein futuristisches Zürich bei Nacht“, und eine KI erzeugt daraus in wenigen Sekunden ein realistisches Bild oder sogar ein Video. |
| | Genau das machen moderne Bild und Videogeneratoren. |
| | Diese Seite erklärt, wie solche Systeme funktionieren, von den Grundbegriffen über die technischen Hintergründe bis zu den wichtigsten gesellschaftlichen Fragen. |
| |
| <WRAP tip> | <WRAP tip> |
| **Auf einen Blick:** Bild- und Videogeneratoren sind KI-Modelle, die aus einer Texteingabe (Prompt) neue Bilder oder Videos erzeugen. Die bekanntesten Verfahren heute heissen **Diffusionsmodelle**. | Auf einen Blick: Bild- und Videogeneratoren sind KI-Programme, die aus einer Texteingabe neue Bilder oder Videos erzeugen. Das bekannteste Verfahren dahinter heisst Diffusionsmodell. |
| </WRAP> | </WRAP> |
| |
| ===== 1. Grundbegriffe ===== | ===== 1. Grundbegriffe ===== |
| |
| ==== Generative KI ==== | ==== Was ist generative KI? ==== |
| |
| **Generative KI** (engl. //generative models//) bezeichnet Modelle, die nicht nur Dinge erkennen oder klassifizieren, sondern **neue Beispiele erzeugen**, die statistisch zur Welt der Trainingsdaten passen. Ein generatives Modell lernt sozusagen die Verteilung der Daten und kann dann neue Samples erzeugen, die den Trainingsdaten ähnlich sind.((Goodfellow et al. (2014): Generative Adversarial Networks. https://arxiv.org/abs/1406.2661)) | <wrap 100px>{{ :ef:ki:screenshot_2026-04-22_084555.png}}</wrap> |
| |
| **Bildgeneratoren** und **Videogeneratoren** sind generative Modelle, die Bilder oder Videos erzeugen, häufig konditioniert durch Texteingaben (//Text-to-Image//, //Text-to-Video//) oder ein Referenzbild (//Image-to-Image//, //Image-to-Video//). Moderne Systeme wandeln textliche Beschreibungen in eine interne Repräsentation um und generieren daraus Bild- oder Videodaten.((Rombach et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models. https://arxiv.org/abs/2112.10752)) | Normale KI-Programme erkennen Dinge wie zum Beispiel, ob auf einem Foto eine Katze zu sehen ist. Generative KI macht etwas anders. Sie erzeugt neue Inhalte, wie beispielsweise ein Bild, das es vorher noch nicht gab. Das Programm lernt dazu aus sehr vielen Beispielen. Welche Bilder, Texte oder Videos "typisch" aussehen und kann dann selbst neue erzeugen, die ähnlich wirken.((IBM: Was sind Diffusionsmodelle? https://www.ibm.com/de-de/think/topics/diffusion-models)) |
| | |
| | Bild- und Videogeneratoren sind eine Art generative KI. Man gibt ihnen eine Textbeschreibung (den Prompt) und sie erzeugen daraus ein passendes Bild oder Video.((Ultralytics: Diffusionsmodelle – Generative AI erklärt. https://www.ultralytics.com/de/blog/what-are-diffusion-models-a-quick-and-comprehensive-guide)) |
| |
| ^ Begriff ^ Erklärung ^ | ^ Begriff ^ Erklärung ^ |
| | **Prompt** | Die Texteingabe, mit der du dem Modell beschreibst, was du sehen willst (Objekte, Stil, Stimmung, Bewegung)((Runway: Text to Video Prompting Guide. https://help.runwayml.com/hc/en-us/articles/47313737321107-Text-to-Video-Prompting-Guide)) | | | Prompt | Die Texteingabe, mit der man beschreibt, was man sehen möchte | |
| | **Seed** | Der Startwert des Zufallszahlengenerators, dieser macht das Ergebnis reproduzierbar | | | Seed | Eine Zahl, die den Zufallsstart festlegt. Mit demselben Seed und Prompt bekommt man immer dasselbe Bild | |
| | **Latenter Raum** | Eine komprimierte Zwischendarstellung der Daten, in der das Modell intern rechnet((Rombach et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models. https://arxiv.org/abs/2112.10752)) | | | Latenter Raum | Eine stark vereinfachte, interne Darstellung des Bildes, mit der das Modell rechnet | |
| | **Inference** | Die Anwendungsphase. Das fertig trainierte Modell erzeugt aus einem Prompt ein neues Bild/Video | | | Training | Das Lernen des Modells aus sehr vielen Beispielbildern. Das passiert einmal, bevor man das Tool nutzt | |
| | **Training** | Das rechenintensive Lernen des Modells aus vielen Beispielen | | | Inference | Die eigentliche Nutzung. Man gibt einen Prompt ein und das fertig trainierte Modell erzeugt das Bild | |
| |
| ==== Was ist ein Prompt? ==== | ==== Was macht einen guten Prompt aus? ==== |
| |
| Ein guter Prompt beschreibt: | Ein guter Prompt beschreibt möglichst genau: |
| * **Was** zu sehen sein soll (Objekte, Personen, Umgebung) | * Was im Bild zu sehen sein soll (Objekte, Personen, Ort) |
| * **Wie** es aussehen soll (Stil, Beleuchtung, Farben, Kameraeinstellung) | * Wie es aussehen soll (Stil, Licht, Stimmung, Kameraeinstellung) |
| * Für Videos zusätzlich: **Wie sich Dinge bewegen** (Kameraschwenkung, Tempo, Richtung)((Runway: Text to Video Prompting Guide. https://help.runwayml.com/hc/en-us/articles/47313737321107-Text-to-Video-Prompting-Guide)) | * Bei Videos: wie sich Dinge bewegen und wie die Kamera sich verhält |
| |
| <WRAP example> | <WRAP example> |
| **Schwacher Prompt:** //Ein Hund// | Schwacher Prompt: //Ein Hund// |
| |
| **Starker Prompt:** //Ein Golden Retriever sitzt auf einer sonnigen Wiese, warmes Nachmittagslicht, fotorealistisch, geringe Schärfentiefe, Canon 85mm Objektiv// | Besserer Prompt: //Ein Golden Retriever sitzt auf einer sonnigen Wiese, warmes Nachmittagslicht, fotorealistisch, geringe Schärfentiefe// |
| </WRAP> | </WRAP> |
| |
| ==== Trainingsdaten ==== | ==== Trainingsdaten ==== |
| |
| Bildgeneratoren werden mit riesigen Mengen an Bild-Text-Paaren trainiert. Das Modell CLIP wurde beispielsweise mit **400 Millionen** Bild-Text-Paaren trainiert. In der Open-Data-Welt gibt es Datensätze wie **LAION-5B** mit Milliarden solcher Paare.((Radford et al. (2021): Learning Transferable Visual Models From Natural Language Supervision (CLIP). https://arxiv.org/abs/2103.00020)) | Damit ein Modell Bilder erzeugen kann, braucht es sehr viele Beispiele. |
| | Beim Training sieht es Millionen von Bildern zusammen mit passenden Textbeschreibungen. |
| | So lernt das Modell, was Begriffe wie „Hund“ oder „Sonnenuntergang“ visuell bedeuten.((Digitalzentrum Franken: KI Bildgenerierung mit Stable Diffusion. https://digitalzentrum-franken.de/aktuelles/detail/ki-bildgenerierung-mit-stable-diffusion)) |
| |
| --- | |
| |
| ===== 2. Technische Grundlagen ===== | ===== 2. Technische Grundlagen ===== |
| |
| <WRAP info> | <WRAP info> |
| Dieser Abschnitt erklärt die wichtigsten Bausteine, aus denen Bild- und Videogeneratoren aufgebaut sind. | Dieser Abschnitt erklärt die wichtigsten Ideen im Hintergrund. Es geht um ein grundlegendes Verständnis, nicht um Details. |
| </WRAP> | </WRAP> |
| |
| ==== Neuronale Netze ==== | ==== Neuronale Netze ==== |
| |
| Ein **neuronales Netz** ist grob gesagt eine grosse mathematische Funktion mit sehr vielen Parametern. Beim Training wird diese Funktion so angepasst, dass sie die gewünschten Ausgaben produziert. Bei generativen Modellen ist das Ziel nicht „ein Label vorhersagen", sondern **neue Daten erzeugen**.((Goodfellow et al. (2014): Generative Adversarial Networks. https://arxiv.org/abs/1406.2661)) | Ein neuronales Netz ist ein Computerprogramm, das grob vom menschlichen Gehirn inspiriert ist. |
| | Es besteht aus vielen kleinen Recheneinheiten, die miteinander verbunden sind. |
| | Beim Training werden diese Verbindungen so angepasst, dass das Netz sinnvolle Ergebnisse erzeugt, in diesem Fall neue Bilder.((IBM: Was sind Diffusionsmodelle? https://www.ibm.com/de-de/think/topics/diffusion-models)) |
| |
| ==== Transformer & Attention ==== | |
| |
| **Transformer** sind eine spezielle Netzarchitektur, die sehr gut darin ist, Zusammenhänge in Sequenzen zu modellieren – zum Beispiel in Texten oder in Bildausschnitten (Patches). Der zentrale Mechanismus heisst **Attention**: Das Netz lernt, welche Teile der Eingabe für die aktuelle Ausgabe wichtig sind.((Vaswani et al. (2017): Attention Is All You Need. https://arxiv.org/abs/1706.03762)) | ==== Transformer und Attention ==== |
| | |
| | Transformer sind eine spezielle Art von neuronalen Netzen. Sie sind besonders gut darin, Zusammenhänge zu erkennen. |
| | Zum Beispiel versteht das Modell, dass „sonnige Wiese“ bestimmte Farben, Lichtverhältnisse und Objekte bedeutet. |
| | Der Mechanismus dahinter heisst Attention. Das Modell lernt dabei, welche Teile der Eingabe besonders wichtig sind.((dogado KI Lexikon: Diffusionsmodelle. https://www.dogado.de/ki-lexikon/diffusionsmodelle)) |
| |
| ==== U-Net ==== | ==== U-Net ==== |
| |
| Viele Diffusions-Bildmodelle nutzen Netze, die strukturell einem **U-Net** ähneln (Encoder-Decoder-Form). Das U-Net wurde ursprünglich für Bildsegmentierung entwickelt; die Grundidee – erst verdichten, dann wieder hochskalieren – passt aber auch sehr gut zu Bildgenerierungsaufgaben.((Ronneberger et al. (2015): U-Net: Convolutional Networks for Biomedical Image Segmentation. https://arxiv.org/abs/1505.04597)) | Viele ältere Bildgeneratoren benutzen eine Struktur namens U-Net. Das Netz macht das Bild zunächst kleiner und vereinfachter (Encoder), und baut es danach wieder in voller Grösse auf (Decoder). Diese Struktur eignet sich, um Bilder schrittweise zu verbessern und Details hinzuzufügen.((IBM: Was sind Diffusionsmodelle? https://www.ibm.com/de-de/think/topics/diffusion-models)) |
| |
| ==== Variational Autoencoder (VAE) ==== | ==== Variational Autoencoder (VAE) ==== |
| |
| Ein **VAE** besteht aus zwei Teilen:((Kingma & Welling (2013): Auto-Encoding Variational Bayes. https://arxiv.org/abs/1312.6114)) | Ein VAE besteht aus zwei Teilen: |
| - **Encoder:** Bild → komprimierte Darstellung (latente Codes) | - Encoder: Ein Bild wird stark vereinfacht und in eine kompakte Form gebracht (latenter Raum). |
| - **Decoder:** latente Codes → Bild zurück | - Decoder: Aus dieser kompakten Form wird das Bild wieder aufgebaut. |
| |
| Diese „Kompression + Rekonstruktion" ermöglicht es, im viel kleineren latenten Raum zu arbeiten statt direkt auf den Pixeln. | So muss das Modell nicht mit Millionen von Pixeln rechnen, sondern mit einer viel kleineren, komprimierten Darstellung. Das spart enorm viel Rechenleistung.((AWS: Was ist Stable Diffusion? https://aws.amazon.com/de/what-is/stable-diffusion/)) |
| |
| ==== Diffusionsmodelle ==== | ==== Diffusionsmodelle ==== |
| |
| Das ist das Herzstück moderner Bildgeneratoren:((Ho et al. (2020): Denoising Diffusion Probabilistic Models. https://arxiv.org/abs/2006.11239)) | Diffusionsmodelle sind das Herzstück moderner Bildgeneratoren. Die Grundidee kommt aus der Physik. Wenn man einen Tintentropfen ins Wasser gibt, verteilt er sich langsam gleichmässig, das nennt man Diffusion. KI-Diffusionsmodelle machen das mit Bildern:((IBM: Was sind Diffusionsmodelle? https://www.ibm.com/de-de/think/topics/diffusion-models)) |
| |
| - **Vorwärtsprozess:** Einem echten Bild wird schrittweise Rauschen hinzugefügt, bis es komplett verrauscht ist. | - Vorwärtsprozess: Ein echtes Bild wird schrittweise mit Rauschen überlagert, bis es nur noch zufällige Pixel zeigt. |
| - **Rückwärtsprozess:** Das Modell lernt, diesen Prozess umzukehren – es lernt, aus Rauschen schrittweise ein sinnvolles Bild zu rekonstruieren. | - Rückwärtsprozess: Das Modell lernt, diesen Prozess umzukehren – also aus Rauschen wieder ein sinnvolles Bild zu machen. |
| - **Anwendung (Inference):** Man startet mit Zufallsrauschen und lässt das Modell es iterativ „entrauschen" – gesteuert durch den Prompt. | - Anwendung: Man beginnt mit purem Rauschen und lässt das Modell es Schritt für Schritt "bereinigen", geleitet durch den Prompt. |
| |
| <WRAP tip> | <WRAP tip> |
| **Merkhilfe:** Man stellt sich vor, man beginnt mit einem Schwarz-Weiss-Foto. Mit jedem Schritt wird das Rauschen etwas weniger und das Bild etwas klarer, bis nach 20–50 Schritten ein scharfes, prompt-passendes Bild entsteht. | Merkhilfe: Man stellt sich vor, man beginnt mit einem völlig verrauschten Bild. Mit jedem Schritt wird es etwas klarer, bis nach 20–50 Schritten ein scharfes Bild entsteht, das zum Prompt passt. |
| </WRAP> | </WRAP> |
| |
| ==== Latent Diffusion Models (LDM) ==== | ==== Latent Diffusion Models (LDM) ==== |
| |
| Diffusion direkt auf Pixeln ist sehr rechenintensiv. **Latent Diffusion Models** lösen das so:((Rombach et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models. https://arxiv.org/abs/2112.10752)) | Diffusion direkt auf einem Bild in voller Auflösung wäre viel zu langsam. Um das zu lösen, führt man die Diffusion nicht auf den Pixeln selbst durch, sondern im latenten Raum (also der komprimierten Darstellung des VAE). Das macht das Ganze bis zu 95 % schneller, ohne viel Qualität zu verlieren.((GuideGlare: Wie Diffusionsmodelle in der KI-Bilderzeugung funktionieren. https://www.guideglare.com/de/plattform/bild-suite/technologie/diffusionsmodelle-ki-bildgeneratoren)) |
| | |
| - Erst das Bild mit dem VAE-Encoder **komprimieren** → latenter Raum | |
| - Diffusion im **latenten Raum** durchführen (viel günstiger!) | |
| - Am Schluss mit dem VAE-Decoder wieder **zu Pixeln zurückrechnen** | |
| | |
| Über **Cross-Attention** wird der Textprompt zusätzlich in den Diffusionsprozess eingebunden. Das ist die Grundlage für Tools wie Stable Diffusion. | |
| |
| | Ausserdem wird der Textprompt über einen Mechanismus namens Cross-Attention in den Prozess eingebunden. So weiss das Modell, welches Bild es erzeugen soll. Das ist die Grundlage für Tools wie Stable Diffusion. |
| |
| |
| ===== 3. Wichtige Modelltypen ===== | ===== 3. Wichtige Modelltypen ===== |
| |
| ^ Modelltyp ^ Funktionsprinzip ^ Bedeutung heute ^ | ^ Modelltyp ^ Wie es funktioniert ^ Bedeutung heute ^ |
| | **GANs** | Generator vs. Diskriminator – ein „Wettbewerb" zwischen zwei Netzen((Goodfellow et al. (2014): Generative Adversarial Networks. https://arxiv.org/abs/1406.2661)) | War lange führend, heute für Text-to-Image weitgehend durch Diffusion abgelöst | | | GANs | Zwei Netze konkurrieren. Eines erzeugt Bilder, das andere versucht, echte von falschen zu unterscheiden | War lange führend, heute für Text-to-Image weitgehend durch Diffusion ersetzt | |
| | **VAE** | Encoder komprimiert, Decoder rekonstruiert((Kingma & Welling (2013): Auto-Encoding Variational Bayes. https://arxiv.org/abs/1312.6114)) | Wichtiger Baustein in modernen LDMs | | | VAE | Encoder komprimiert, Decoder baut das Bild wieder auf | Wichtiger Baustein in modernen LDMs | |
| | **DDPM** | Iteratives Denoising((Ho et al. (2020): Denoising Diffusion Probabilistic Models. https://arxiv.org/abs/2006.11239)) | Basis aller modernen Diffusionsmodelle | | | DDPM | Iteratives Entrauschen | Basis aller modernen Diffusionsmodelle | |
| | **LDM** | Diffusion im latenten Raum + Textkonditionierung((Rombach et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models. https://arxiv.org/abs/2112.10752)) | Grundlage von Stable Diffusion & Co. | | | LDM | Diffusion im latenten Raum + Textsteuerung | Grundlage von Stable Diffusion & Co. | |
| | **DiT** | Transformer statt U-Net im Diffusionsmodell((Peebles & Xie (2022): Scalable Diffusion Models with Transformers. https://arxiv.org/abs/2212.09748)) | Skaliert sehr gut; Basis neuerer Modelle wie FLUX, Sora | | | DiT | Transformer statt U-Net im Diffusionsmodell | Skaliert sehr gut. Basis neuerer Modelle wie FLUX und Sora | |
| |
| --- | |
| |
| ===== 4. Wie funktioniert ein Bildgenerator? ===== | ===== 4. Wie funktioniert ein Bildgenerator? ===== |
| |
| Hier ist der typische Ablauf eines Text-to-Image-Generators (z.B. Stable Diffusion): | Hier ist der typische Ablauf, wenn man zum Beispiel Stable Diffusion benutzt: |
| |
| <WRAP box> | <WRAP box> |
| - **Text → Embedding:** Der Prompt wird von einem Textmodell (z.B. CLIP) in eine Zahlen-Darstellung (Vektor) umgewandelt.((Radford et al. (2021): Learning Transferable Visual Models From Natural Language Supervision (CLIP). https://arxiv.org/abs/2103.00020)) | - Textverstehen: Der Prompt wird in Zahlen umgewandelt |
| - **Rauschen erzeugen:** Aus einem Seed wird Zufallsrauschen (Gaussian Noise) im latenten Raum erzeugt.((HuggingFace Diffusers: Re-using seeds for fast prompt engineering. https://huggingface.co/docs/diffusers/v0.14.0/en/using-diffusers/reusing_seeds)) | - Rauschen erzeugen: Zufälliges Rauschen wird erzeugt |
| - **Iteratives Denoising:** Das Diffusionsmodell entrauscht das Signal schrittweise, gesteuert durch das Text-Embedding (Cross-Attention).((Rombach et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models. https://arxiv.org/abs/2112.10752)) | - Schrittweises Entrauschen: Das Modell entfernt Schritt für Schritt das Rauschen |
| - **Guidance:** Der Parameter **Guidance Scale** bestimmt, wie stark der Prompt das Ergebnis beeinflusst.((Ho & Salimans (2022): Classifier-Free Diffusion Guidance. https://arxiv.org/abs/2207.12598)) | - Guidance: Der Prompt steuert den Prozess |
| - **Dekodierung:** Der VAE-Decoder rechnet den latenten Code zurück in ein Pixelbild.((Rombach et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models. https://arxiv.org/abs/2112.10752)) | - Dekodierung: Am Ende entsteht das Bild |
| </WRAP> | </WRAP> |
| |
| |
| ^ Parameter ^ Bedeutung ^ Effekt ^ | ^ Parameter ^ Bedeutung ^ Effekt ^ |
| | **Seed** | Startwert für den Zufallsgenerator((HuggingFace Diffusers: Re-using seeds for fast prompt engineering. https://huggingface.co/docs/diffusers/v0.14.0/en/using-diffusers/reusing_seeds)) | Gleicher Seed = reproduzierbares Ergebnis | | | Seed | Startwert für den Zufallsgenerator | Gleicher Seed + gleicher Prompt = gleiches Bild | |
| | **Guidance Scale** | Stärke des Prompt-Einflusses((Ho & Salimans (2022): Classifier-Free Diffusion Guidance. https://arxiv.org/abs/2207.12598)) | Zu hoch → Artefakte; zu niedrig → promptfern | | | Guidance Scale | Wie stark der Prompt das Bild beeinflusst | Zu hoch → Artefakte, zu niedrig → Bild passt nicht zum Prompt | |
| | **Steps** | Anzahl der Denoising-Schritte((Ho et al. (2020): Denoising Diffusion Probabilistic Models. https://arxiv.org/abs/2006.11239)) | Mehr Steps = mehr Details, aber langsamer | | | Steps | Anzahl der Entrauschungs-Schritte | Mehr Schritte = mehr Details, aber dauert länger | |
| | **Negative Prompt** | Was das Bild **nicht** zeigen soll | Hilft, unerwünschte Elemente zu unterdrücken | | | Negativer Prompt | Was das Bild nicht zeigen soll | Hilft, unerwünschte Elemente zu vermeiden | |
| |
| ==== ControlNet – Kontrolle über die Komposition ==== | ==== ControlNet ==== |
| | |
| | Mit ControlNet kann man einem Diffusionsmodell zusätzliche Hinweise geben, zum Beispiel ein Kantenbild, eine Körperhaltung oder eine Tiefenkarte. Das Modell übernimmt dann die Struktur dieser Vorlage, aber erzeugt den Stil aus dem Prompt. So bekommt man viel mehr Kontrolle über Komposition und Aufbau des Bildes.((theblue.ai: Diffusionsmodelle – Eindrucksvolle Bilder mit Generative KI erstellen. https://theblue.ai/blog-de/trends/diffusionsmodelle-generative-ki/)) |
| |
| Mit **ControlNet** kann man einem Diffusionsmodell zusätzliche Steuersignale geben, z.B. ein Kantenbild, eine Pose oder eine Tiefenkarte. Das ermöglicht viel präzisere Kontrolle über Komposition und Struktur, ohne das Basismodell neu zu trainieren.((Zhang et al. (2023): Adding Conditional Control to Text-to-Image Diffusion Models. https://arxiv.org/abs/2302.05543)) | |
| |
| ===== 5. Video-Generatoren ===== | ===== 5. Video-Generatoren ===== |
| |
| Video heisst „Bild + Zeit". Das macht die Aufgabe schwieriger, als das Generieren von "nur" einem Bild. | Video bedeutet "Bild + Zeit". Das macht die Aufgabe schwieriger, denn es reicht nicht, dass jedes einzelne Bild (Frame) gut aussieht. |
| |
| <WRAP important> | <WRAP important> |
| Es reicht nicht, dass jedes einzelne Frame schön aussieht. Die Frames müssen auch **zeitlich konsistent** sein. Figuren sollen nicht pro Frame ihr Gesicht ändern. Die Bewegungen sollen flüssig wirken.((Ho et al. (2022): Video Diffusion Models. https://arxiv.org/abs/2204.03458)) | Die einzelnen Bilder müssen zeitlich zusammenpassen. Figuren sollen nicht von Frame zu Frame ihr Gesicht verändern, und Bewegungen sollen flüssig wirken. Das nennt man zeitliche Konsistenz und gehört zu den grössten Herausforderungen, um solch ein Video zu generieren.((DOCMA: Das Ende der Diffusion? Wie die neuen KI-Bildgeneratoren funktionieren. https://www.docma.info/blog/das-ende-der-diffusion-wie-die-neuen-ki-bildgeneratoren-funktionieren)) |
| </WRAP> | </WRAP> |
| |
| |
| ^ Ansatz ^ Beschreibung ^ | ^ Ansatz ^ Beschreibung ^ |
| | **Video Diffusion (VDM)** | Direkte Erweiterung von Bilddiffusion auf Video-Frames((Ho et al. (2022): Video Diffusion Models. https://arxiv.org/abs/2204.03458)) | | | Video Diffusion | Direkte Erweiterung der Bilddiffusion auf mehrere Frames gleichzeitig | |
| | **Kaskaden-Ansatz** | Erst Basis-Video erzeugen, dann mit weiteren Modellen schärfen((Ho et al. (2022): Imagen Video. https://arxiv.org/abs/2210.02303)) | | | Kaskaden-Ansatz | Zuerst ein grobes Video, dann wird es mit weiteren Modellen verfeinert und schärfer gemacht (z.B. Imagen Video) | |
| | **Make-A-Video** | „Wie Dinge aussehen" aus Bild-Text-Daten, „wie sie sich bewegen" aus unbeschrifteten Videos((Singer et al. (2022): Make-A-Video. https://arxiv.org/abs/2209.14792)) | | | Make-A-Video | Das Modell lernt, wie Dinge aussehen, aus Bild-Text-Paaren und wie sie sich bewegen, aus Videomaterial ohne Beschriftungen | |
| | **Latent Video Diffusion** | Video-LDM im latenten Raum, mehrstufiges Training((Blattmann et al. (2023): Stable Video Diffusion. https://arxiv.org/abs/2311.15127)) | | | Latent Video Diffusion | Video-Diffusion im latenten Raum, mehrstufiges Training (z.B. Stable Video Diffusion) | |
| | **VideoLDM** | Effiziente Video-Latent-Diffusion als Alternative zu Pixel-Diffusion((Blattmann et al. (2023): Align your Latents. https://arxiv.org/abs/2304.08818)) | | | Spacetime Patches | Videos werden in kleine Bausteine (Patches) über Raum und Zeit zerlegt und mit einem Transformer verarbeitet – so funktioniert die KI Sora((DOCMA: Das Ende der Diffusion? Wie die neuen KI-Bildgeneratoren funktionieren. https://www.docma.info/blog/das-ende-der-diffusion-wie-die-neuen-ki-bildgeneratoren-funktionieren)) | |
| | **Spacetime Patches (DiT)** | Videos als Patches über Raum und Zeit. Diese sind Transformer-basiert((OpenAI (2024): Video generation models as world simulators. https://openai.com/index/video-generation-models-as-world-simulators/)) | | |
| |
| ==== Tipps für Video-Prompts ==== | ==== Tipps für Video-Prompts ==== |
| |
| Kamerabewegung und Bewegungsart müssen im Video-Prompt explizit beschrieben werden. Anders als bei Bildern reicht die reine Inhaltsbeschreibung oft nicht.((Runway: Text to Video Prompting Guide. https://help.runwayml.com/hc/en-us/articles/47313737321107-Text-to-Video-Prompting-Guide)) | Bei Video-Prompts reicht eine Inhaltsbeschreibung oft nicht. Man sollte auch beschreiben, was sich bewegt und wie die Kamera sich verhält. |
| | |
| | * Kamerabewegung angeben: //"langsam nach links schwenkend"// oder //"statische Kamera"// |
| | * Bewegungsart beschreiben: //"langsam laufende Person"// statt nur //"Person"// |
| | * Weniger Elemente im Bild = bessere zeitliche Konsistenz |
| |
| * Kamerabewegung explizit beschreiben: //"langsam nach links schwenkend"// , //"statische Kamera"// | |
| * Bewegungsart angeben: //"langsam laufende Person"// statt nur //"Person"// | |
| * Wenig Elemente gleichzeitig = bessere zeitliche Konsistenz | |
| |
| ===== 6. Bekannte Tools und Modelle ===== | ===== 6. Bekannte Tools und Modelle ===== |
| |
| ^ Tool / Modell ^ Typ ^ Besonderheit ^ | ^ Tool / Modell ^ Typ ^ Besonderheit ^ |
| | **Stable Diffusion** | Bildgenerator (open source) | Lokal installierbar, grosse Community, viele Fine-Tunings | | | Stable Diffusion | Bildgenerator (open source) | Kostenlos, lokal installierbar, sehr grosse Community | |
| | **Midjourney** | Bildgenerator (kommerziell) | Sehr hohe Bildqualität, Discord-basierte Bedienung | | | Midjourney | Bildgenerator (kommerziell) | Sehr hohe Bildqualität, Bedienung über Discord | |
| | **DALL-E 3** | Bildgenerator (OpenAI) | Stark in Text-im-Bild, gut in Anweisungstreuung | | | DALL-E 3 | Bildgenerator (OpenAI) | Gut bei Text im Bild und genauen Anweisungen | |
| | **Adobe Firefly** | Bildgenerator | Trainiert auf lizenzierten Daten; in Creative Cloud integriert | | | Adobe Firefly | Bildgenerator | Trainiert auf lizenzierten Bildern, in Creative Cloud integriert | |
| | **Runway Gen-3** | Videogenerator | Schnell, hohe Qualität | | | Runway Gen-3 | Videogenerator | Schnell, hohe Qualität, kommerziell | |
| | **Pika** | Videogenerator | Einfache Bedienung, Bild-zu-Video stark | | | Pika | Videogenerator | Einfache Bedienung, gut für Bild-zu-Video | |
| | **Sora** | Videogenerator (OpenAI)((OpenAI (2024): Video generation models as world simulators. https://openai.com/index/video-generation-models-as-world-simulators/)) | Lange Videos, hohe Qualität, aktuell begrenzt verfügbar | | | Sora | Videogenerator (OpenAI) | Kann lange, qualitativ hochwertige Videos erzeugen | |
| |
| ===== 7. Anwendungsbereiche ===== | ===== 7. Anwendungsbereiche ===== |
| |
| Bild- und Videogeneratoren finden heute in sehr vielen Bereichen Anwendung. Ein Überblick über die Breite dieser Anwendungen findet sich im WIPO Patent Landscape Report zu Generative AI.((WIPO (2024): Patent Landscape Report – Generative Artificial Intelligence. https://www.wipo.int/web-publications/patent-landscape-report-generative-artificial-intelligence-genai/)) | KI Bild und Videogeneratoren werden in vielen Bereichen eingesetzt. Um einen besseren Überblick zu behalten, kann man die Anwendungen in verschiedene Kategorien einteilen: |
| | |
| | ==== Kreative Anwendungen ==== |
| | |
| | * Kunst und Design: Unterstützung bei Ideen, Entwürfen und Visualisierungen |
| | * Film und Medien: Erstellung von Storyboards, visuellen Effekten und Konzeptbildern |
| | * Spieleentwicklung: Generierung von Figuren, Landschaften und Texturen |
| | |
| | ==== Praktische und berufliche Anwendungen ==== |
| | |
| | * Architektur und Produktdesign: Realistische Visualisierung von Gebäuden und Objekten |
| | * Marketing: Erstellung von Bildern und Videos für Werbung und soziale Medien |
| | * Bildung: Veranschaulichung von komplexen Inhalten, z. B. historische Szenen oder wissenschaftliche Prozesse |
| | |
| | ==== Wissenschaft und Technik ==== |
| | |
| | * Forschung: Generierung von synthetischen Daten für das Training anderer KI Modelle |
| | * Medizin: Simulationen und Visualisierungen, vor allem in Ausbildung und Forschung |
| | |
| | ==== Alltag ==== |
| | |
| | * Private Nutzung: Erstellung von Bildern, Videos oder kreativen Projekten |
| | * Social Media: Inhalte für Posts, Profile oder persönliche Projekte |
| |
| * **Kreativbranche:** Konzeptkunst, Illustration, Werbung, Filmproduktion (Storyboards, Mockups) | |
| * **Bildung:** Anschauungsmaterial, Visualisierung von Konzepten | |
| * **Forschung:** Datenaugmentierung (Trainingsdaten erzeugen) | |
| * **Industrie:** Produktdesign, Visualisierungen | |
| * **Unterhaltung:** Spieleentwicklung, soziale Medien | |
| |
| ===== 8. Risiken und gesellschaftliche Fragen ===== | ===== 8. Risiken und gesellschaftliche Fragen ===== |
| | |
| ==== Deepfakes und Desinformation ==== | ==== Deepfakes und Desinformation ==== |
| |
| Generative Modelle können täuschend echte Bilder und Videos erzeugen. Das NIST-Risikoprofil für Generative AI nennt explizit Gefahren rund um Informationsintegrität, darunter Desinformation, Deepfakes und manipulierte Inhalte.((NIST (2024): AI 600-1 – Generative AI Profile. https://airc.nist.gov/docs/NIST.AI.600-1.GenAI-Profile.ipd.pdf)) Die UNESCO betont, dass Deepfakes „Wissen, Wahrheit und Vertrauen" unter Druck setzen und **Medienkompetenz** dadurch immer wichtiger wird.((UNESCO: Deepfakes and the crisis of knowing. https://www.unesco.org/en/articles/deepfakes-and-crisis-knowing)) | Mit generativer KI lassen sich sehr realistische Bilder und Videos von Personen erzeugen, sogenannte Deepfakes. |
| | Diese können gezielt eingesetzt werden, um falsche Informationen zu verbreiten oder Menschen Dinge in den Mund zu legen, die sie nie gesagt haben. |
| | Das Problem ist, dass solche Inhalte für viele Menschen kaum von echten Aufnahmen zu unterscheiden sind. |
| | Dadurch wird es schwieriger, zwischen Wahrheit und Manipulation zu unterscheiden.((BSI: Deepfakes Gefahren und Gegenmassnahmen. https://www.bsi.bund.de)) |
| |
| ==== Herkunftsnachweise (Provenance) und Watermarking ==== | |
| |
| Als Gegenmassnahmen gibt es technische Standards: | ==== Verlust von Vertrauen ==== |
| |
| * **C2PA** beschreibt Spezifikationen für Provenienz-Informationen („Content Credentials"), die direkt in digitale Dateien eingebettet werden.((C2PA: Content Credentials Technical Specification. https://c2pa.org/specifications/specifications/2.3/specs/C2PA_Specification.html)) | Wenn immer mehr Inhalte künstlich erzeugt werden, kann das langfristig das Vertrauen in Medien schwächen. |
| * **SynthID** (Google DeepMind) bettet unsichtbare digitale Wasserzeichen in KI-generierte Inhalte ein, die für Menschen nicht sichtbar, aber detektierbar sind.((Google DeepMind: SynthID. https://deepmind.google/models/synthid/)) | Fotos und Videos galten früher oft als Beweis. Heute ist das nicht mehr selbstverständlich. |
| | Das betrifft zum Beispiel Journalismus, soziale Medien und auch politische Kommunikation. |
| |
| ==== Regulierung: EU AI Act & Kennzeichnungspflichten ==== | |
| |
| In der EU beschreibt ein freiwilliger **Code of Practice** Verpflichtungen zur Kennzeichnung von KI-Inhalten sowie zum Labeling von Deepfakes.((European Commission: Code of Practice on marking and labelling of AI-generated content. https://digital-strategy.ec.europa.eu/en/policies/code-practice-ai-generated-content)) | |
| |
| ==== Urheberrecht und Autorschaft ==== | ==== Urheberrecht und Autorschaft ==== |
| |
| Das U.S. Copyright Office erklärt, wie der Grundsatz „human authorship" bei Werken mit KI-generiertem Material angewendet wird: Rein KI-generierte Werke ohne wesentlichen menschlichen Beitrag sind demnach nicht urheberrechtlich schutzfähig.((U.S. Copyright Office (2023): Copyright and Artificial Intelligence – Policy Guidance. https://www.copyright.gov/ai/ai_policy_guidance.pdf)) Die WIPO beschreibt auf globaler Ebene die wachsende Bedeutung einer tragfähigen Copyright-Infrastruktur im Kontext generativer KI.((WIPO: Artificial Intelligence and Intellectual Property. https://www.wipo.int/en/web/frontier-technologies/artificial-intelligence/index)) | Ein zentrales Problem ist die Frage, wem ein KI erzeugtes Bild gehört. |
| | In vielen Fällen gilt: Wenn kein Mensch kreativ beteiligt ist, gibt es kein klassisches Urheberrecht. |
| | Schwierig wird es, wenn ein Mensch aktiv am Ergebnis mitarbeitet, zum Beispiel durch gezielte Prompts oder Nachbearbeitung. |
| | Hier ist die Rechtslage noch nicht eindeutig geklärt. |
| |
| ==== Bias und Repräsentation ==== | ==== Bias und Repräsentation ==== |
| |
| Weil Modelle aus sehr grossen Web-Daten lernen, übernehmen sie auch gesellschaftliche Verzerrungen (**Bias**). Darunter gehören stereotype Darstellungen oder unfaire Über-/Unterrepräsentation bestimmter Gruppen. Dass Bild-Text-Daten im grossen Stil aus Internetquellen stammen und als „noisy" beschrieben werden, zeigt sich bereits in Arbeiten zu grossen Datensätzen wie LAION.((Radford et al. (2021): Learning Transferable Visual Models From Natural Language Supervision (CLIP). https://arxiv.org/abs/2103.00020)) | KI Modelle lernen aus grossen Datenmengen aus dem Internet. Diese Daten enthalten oft unbewusste Verzerrungen. |
| | Das kann dazu führen, dass bestimmte Gruppen stereotyp dargestellt werden oder weniger sichtbar sind. |
| | Solche Verzerrungen nennt man Bias und sie spiegeln gesellschaftliche Ungleichheiten wider. |
| | |
| | |
| | ==== Missbrauch und Manipulation ==== |
| | |
| | Neben Deepfakes gibt es weitere Risiken: |
| | |
| | * Erstellung von Fake Bildern für Betrug |
| | * Manipulation von Beweismaterial |
| | * Automatisierte Propaganda |
| | |
| | Dadurch entsteht ein neues Feld von digitalen Sicherheitsproblemen. |
| |
| ==== Umwelt und Ressourcen ==== | ==== Umwelt und Ressourcen ==== |
| |
| Das Training grosser KI-Modelle kostet enorme Mengen an Rechenleistung und Strom. Forschung zu Energie- und Umweltkosten grosser Trainingsläufe weist auf erhebliche finanzielle und ökologische Belastungen hin.((Strubell et al. (2019): Energy and Policy Considerations for Deep Learning in NLP. https://aclanthology.org/P19-1355/)) Ansätze wie Latent Diffusion versuchen, den Rechenaufwand zu reduzieren, indem nicht im Pixelraum trainiert wird.((Rombach et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models. https://arxiv.org/abs/2112.10752)) | Das Training grosser Modelle benötigt viel Rechenleistung und Energie. |
| | Das führt zu einem hohen Stromverbrauch und damit zu Umweltbelastung. |
| | Neue Methoden versuchen, diese Kosten zu reduzieren, aber das Problem bleibt bestehen. |
| | |
| | ===== 9. Spannende (Erklär)videos zum Thema generative KI ==== |
| | <WRAP download> |
| | "AI, Machine Learning, Deep Learning and Generative AI Explained"((https://www.youtube.com/watch?v=qYNweeDHiyU)) |
| | |
| | "Generative AI in a Nutshell - how to survive and thrive in the age of AI"((https://www.youtube.com/watch?v=2IK3DFHRFfw)) |
| | |
| | "Evolution of AI"((https://www.youtube.com/shorts/HVn1v9Bsibw)) |
| | |
| | </WRAP> |
| |
| |
| ===== 9. Zusammenfassung ===== | ===== 10. Zusammenfassung ===== |
| |
| <WRAP round tip> | <WRAP round tip> |
| **Kernaussagen auf einen Blick:** | Kernaussagen auf einen Blick: |
| |
| - Bild- und Videogeneratoren kombinieren **latenten Raum** (VAE), **Sequenzmodelle** (Transformer oder U-Net) und ein **Generationsverfahren** (Diffusion). | - Bild- und Videogeneratoren kombinieren einen komprimierten Bildraum (VAE), ein Modell das Zusammenhänge versteht (Transformer oder U-Net) und ein Erzeugungsverfahren (Diffusion). |
| - Der Diffusionsprozess arbeitet iterativ: aus Rauschen wird Schritt für Schritt ein prompt-passendes Bild. | - Der Diffusionsprozess läuft schrittweise ab: aus Rauschen wird langsam ein zum Prompt passendes Bild. |
| - Parameter wie **Seed**, **Guidance Scale** und **Steps** steuern das Ergebnis direkt. | - Parameter wie Seed, Guidance Scale und Steps steuern das Ergebnis direkt. |
| - Video-Generatoren müssen zusätzlich **zeitliche Konsistenz** sicherstellen. | - Video-Generatoren haben die zusätzliche Herausforderung, dass alle Frames zeitlich zusammenpassen müssen. |
| - Die gesellschaftlichen Risiken (Deepfakes, Urheberrecht, Bias, Umwelt) sind mindestens so wichtig wie die Technik. | - Die gesellschaftlichen Risiken – Deepfakes, Urheberrecht, Bias, Energieverbrauch – sind mindestens so wichtig wie die Technik. |
| </WRAP> | </WRAP> |