Dies ist eine alte Version des Dokuments!
Grundwissen zur Künstlichen Intelligenz
- Erkläre die Begriffe „Künstliche Intelligenz“, „Maschinelles Lernen“, „Neuronale Netzwerke“
- Welche grundlegenden Prinzipien und Abläufe liegen der prozeduralen Programmierung, der objektorientierten Programmierung und neuronalen Netzwerken zugrunde, und worin unterscheiden sie sich? Erkläre an einem konkreten Beispiel.
- Wie funktionieren Neuronale Netzwerke und Maschinelles Lernen konkret? Erkläre die Begriffe:
- Neuronen, Gewichte (weights), Bias (Schwellwert)
- Schichten (Layers)
- Kostenfunktion
- Backpropagation
- Aktivierungsfunktion (z.B. Sigmoid)
- LLMs
- Erkläre grob, was ein LLM ist und wie es funktioniert
- Inwieweit kann man ein LLM als eine Mathematische Funktion bezeichnen?
- Was versteht man unter Pre-Training und RLHF (Reinforcement Learning from Human Feedback)?
- Warum brachte die Transformer-Architektur einen gewaltigen Vorteil gegenüber herkömmlichen Verfahren und worin besteht sie grob gesagt?
- Wie werden Wörter codiert? Was versteht man unter dem „Attention-Mechanismus“
Quellen
Bild- und Videogeneratoren mit KI
Stell dir vor, du schreibst „ein futuristisches Zürich bei Nacht“ – und eine KI erzeugt daraus in wenigen Sekunden ein realistisches Bild oder sogar ein Video.
Genau das machen moderne Bild- und Videogeneratoren.
Diese Seite erklärt, wie solche Systeme funktionieren – von den Grundbegriffen über die technischen Hintergründe bis zu den wichtigsten gesellschaftlichen Fragen.
Auf einen Blick: Bild- und Videogeneratoren sind KI-Programme, die aus einer Texteingabe neue Bilder oder Videos erzeugen. Das wichtigste Verfahren dahinter nennt man Diffusionsmodell.
1. Grundbegriffe
Was ist generative KI?
Normale KI erkennt Dinge, zum Beispiel ob auf einem Bild eine Katze zu sehen ist. Generative KI geht einen Schritt weiter: Sie erzeugt neue Inhalte, die es vorher noch nicht gab.
Das Modell lernt aus sehr vielen Beispielen. Es erkennt dabei Muster – also wie typische Bilder, Texte oder Videos aussehen – und kann daraus neue Inhalte erzeugen, die ähnlich wirken.1)
Bild- und Videogeneratoren gehören zu dieser Art von KI. Man gibt eine Beschreibung (den Prompt) ein und das Modell erzeugt daraus ein passendes Bild oder Video.
| Begriff | Erklärung |
|---|---|
| Prompt | Texteingabe, die beschreibt, was erzeugt werden soll |
| Seed | Startwert für den Zufall – gleicher Seed = gleiches Bild |
| Latenter Raum | Vereinfachte interne Darstellung eines Bildes |
| Training | Lernphase mit vielen Beispielbildern |
| Inference | Nutzung des Modells (Prompt → Bild) |
Was macht einen guten Prompt aus?
Ein guter Prompt beschreibt möglichst genau:
- Was im Bild zu sehen sein soll (Objekte, Personen, Ort)
- Wie es aussehen soll (Stil, Licht, Stimmung)
- Optional: Kameraeinstellung oder Perspektive
Schwacher Prompt: Ein Hund
Besserer Prompt: Ein Golden Retriever sitzt auf einer sonnigen Wiese, warmes Nachmittagslicht, fotorealistisch, geringe Schärfentiefe
Trainingsdaten
Damit ein Modell Bilder erzeugen kann, braucht es sehr viele Beispiele. Beim Training sieht es Millionen von Bildern zusammen mit passenden Textbeschreibungen.
So lernt das Modell, was Begriffe wie „Hund“ oder „Sonnenuntergang“ visuell bedeuten.2)
2. Technische Grundlagen
Dieser Abschnitt erklärt die wichtigsten Ideen im Hintergrund. Man muss kein Experte sein – es geht um das Grundverständnis.
Neuronale Netze
Ein neuronales Netz ist ein Computerprogramm, das grob vom menschlichen Gehirn inspiriert ist. Es besteht aus vielen kleinen Recheneinheiten, die miteinander verbunden sind.
Beim Training werden diese Verbindungen so angepasst, dass das Netz sinnvolle Ergebnisse erzeugt – in diesem Fall neue Bilder.3)
Transformer und Attention
Transformer sind eine spezielle Art von neuronalen Netzen. Sie sind besonders gut darin, Zusammenhänge zu erkennen.
Ein Beispiel: Das Modell versteht, dass „sonnige Wiese“ bestimmte Farben, Lichtverhältnisse und Objekte bedeutet.
Der Mechanismus dahinter heisst Attention. Das Modell lernt dabei, welche Teile der Eingabe wichtig sind.4)
U-Net
Viele Bildgeneratoren verwenden eine Struktur namens U-Net. Das Modell vereinfacht das Bild zuerst (Encoder) und baut es danach wieder auf (Decoder).
So kann es Bilder schrittweise verbessern und Details hinzufügen.5)
Variational Autoencoder (VAE)
Ein VAE besteht aus zwei Teilen:
- Encoder: Wandelt ein Bild in eine kompakte Darstellung (latenter Raum) um
- Decoder: Baut aus dieser Darstellung wieder ein Bild auf
Dadurch muss das Modell nicht direkt mit Millionen von Pixeln rechnen, sondern mit einer kleineren, effizienteren Darstellung.6)
Diffusionsmodelle
Diffusionsmodelle sind das Herz moderner Bildgeneratoren.
Die Idee kommt aus der Physik: Wenn sich ein Stoff verteilt (Diffusion), wird er mit der Zeit immer gleichmässiger.
Bei Bildern funktioniert das so:7)
- Vorwärtsprozess: Ein Bild wird Schritt für Schritt verrauscht, bis nur noch Zufall übrig bleibt
- Rückwärtsprozess: Das Modell lernt, dieses Rauschen wieder in ein sinnvolles Bild umzuwandeln
- Anwendung: Man startet mit Rauschen und erzeugt daraus Schritt für Schritt ein Bild
Merkhilfe: Man beginnt mit reinem Rauschen. Mit jedem Schritt wird das Bild klarer, bis es zum Prompt passt.
Latent Diffusion Models (LDM)
Um Rechenleistung zu sparen, wird die Diffusion nicht direkt auf dem Bild durchgeführt, sondern im latenten Raum.
Das macht den Prozess deutlich schneller, ohne grosse Qualitätsverluste.8)
Der Prompt wird über Cross-Attention eingebunden, sodass das Modell weiss, welches Bild erzeugt werden soll.
3. Wichtige Modelltypen
| Modelltyp | Funktionsweise | Bedeutung |
|---|---|---|
| GANs | Zwei Netze konkurrieren miteinander | Früher wichtig, heute weniger relevant |
| VAE | Komprimiert und rekonstruiert Bilder | Bestandteil moderner Modelle |
| DDPM | Schrittweises Entrauschen | Basis von Diffusion |
| LDM | Diffusion im latenten Raum | Grundlage moderner Tools |
| DiT | Transformer im Diffusionsprozess | Neue, skalierbare Ansätze |
4. Wie funktioniert ein Bildgenerator?
Typischer Ablauf:
- Der Prompt wird in Zahlen umgewandelt
- Zufälliges Rauschen wird erzeugt
- Das Modell entfernt Schritt für Schritt das Rauschen
- Der Prompt steuert den Prozess
- Am Ende wird das Bild erzeugt
Wichtige Parameter
| Parameter | Bedeutung |
|---|---|
| Seed | Bestimmt den Zufall |
| Guidance Scale | Wie stark der Prompt wirkt |
| Steps | Anzahl der Schritte |
| Negativer Prompt | Was nicht im Bild sein soll |
ControlNet
ControlNet erlaubt zusätzliche Kontrolle, z. B. über Formen oder Posen. Das Modell übernimmt die Struktur und kombiniert sie mit dem Stil aus dem Prompt.9)
5. Video-Generatoren
Ein Video besteht aus vielen Bildern (Frames), die zusammenpassen müssen.
Die grösste Herausforderung ist die zeitliche Konsistenz: Objekte und Personen sollen sich logisch und stabil über mehrere Frames bewegen.
Ansätze
| Ansatz | Beschreibung |
|---|---|
| Video Diffusion | Erweiterung von Bilddiffusion |
| Kaskadenmodell | Mehrstufige Verbesserung |
| Latent Video Diffusion | Effizientere Berechnung |
| Spacetime Patches | Verarbeitung über Raum und Zeit |
Tipps für Prompts
- Bewegung beschreiben
- Kamera angeben
- Szene einfach halten
6. Tools und Modelle
| Tool | Besonderheit |
|---|---|
| Stable Diffusion | Open Source |
| Midjourney | Sehr hohe Qualität |
| DALL-E 3 | Gute Textverarbeitung |
| Firefly | Lizenzierte Daten |
| Runway | Video |
| Pika | Einfache Bedienung |
| Sora | Hochwertige Videos |
7. Anwendungsbereiche
- Kreativarbeit (Design, Werbung)
- Bildung
- Forschung
- Industrie
- Unterhaltung
8. Risiken
Deepfakes
Täuschend echte Fake-Inhalte können entstehen und zur Desinformation genutzt werden.
Urheberrecht
Rein KI-generierte Inhalte sind meist nicht geschützt. Die Rechtslage ist noch unklar.
Bias
Modelle übernehmen Verzerrungen aus den Trainingsdaten.
Umwelt
Training benötigt viel Energie.
9. Zusammenfassung
- KI erzeugt Bilder aus Text
- Diffusion ist das zentrale Verfahren
- Parameter steuern das Ergebnis
- Video ist komplexer als Bild
- Risiken sind wichtig zu beachten