Grundwissen zur Künstlichen Intelligenz

Dies ist eine alte Version des Dokuments!

Erkläre die Begriffe „Künstliche Intelligenz“, „Maschinelles Lernen“, „Neuronale Netzwerke“
Welche grundlegenden Prinzipien und Abläufe liegen der prozeduralen Programmierung, der objektorientierten Programmierung und neuronalen Netzwerken zugrunde, und worin unterscheiden sie sich? Erkläre an einem konkreten Beispiel.
Wie funktionieren Neuronale Netzwerke und Maschinelles Lernen konkret? Erkläre die Begriffe:
1. Neuronen, Gewichte (weights), Bias (Schwellwert)
2. Schichten (Layers)
3. Kostenfunktion
4. Backpropagation
5. Aktivierungsfunktion (z.B. Sigmoid)
LLMs
1. Erkläre grob, was ein LLM ist und wie es funktioniert
2. Inwieweit kann man ein LLM als eine Mathematische Funktion bezeichnen?
3. Was versteht man unter Pre-Training und RLHF (Reinforcement Learning from Human Feedback)?
4. Warum brachte die Transformer-Architektur einen gewaltigen Vorteil gegenüber herkömmlichen Verfahren und worin besteht sie grob gesagt?
5. Wie werden Wörter codiert? Was versteht man unter dem „Attention-Mechanismus“

Neuronale Netzwerke: Deep Learning (3Blue1Brown)

Stell dir vor, du schreibst „ein futuristisches Zürich bei Nacht“, und eine KI erzeugt daraus in wenigen Sekunden ein realistisches Bild oder sogar ein Video.

Genau das machen moderne Bild und Videogeneratoren.

Diese Seite erklärt, wie solche Systeme funktionieren, von den Grundbegriffen über die technischen Hintergründe bis zu den wichtigsten gesellschaftlichen Fragen.

Auf einen Blick: Bild und Videogeneratoren sind KI Programme, die aus einer Texteingabe neue Bilder oder Videos erzeugen. Das wichtigste Verfahren dahinter nennt man Diffusionsmodell.

Normale KI erkennt Dinge, zum Beispiel ob auf einem Bild eine Katze zu sehen ist.

Generative KI geht einen Schritt weiter: Sie erzeugt neue Inhalte, die es vorher noch nicht gab.

Das Modell lernt aus sehr vielen Beispielen. Es erkennt dabei Muster, also wie typische Bilder, Texte oder Videos aussehen, und kann daraus neue Inhalte erzeugen, die ähnlich wirken.¹⁾

Bild und Videogeneratoren gehören zu dieser Art von KI. Man gibt eine Beschreibung, den sogenannten Prompt, ein und das Modell erzeugt daraus ein passendes Bild oder Video.

Begriff	Erklärung
Prompt	Texteingabe, die beschreibt, was erzeugt werden soll
Seed	Startwert für den Zufall, gleicher Seed führt zum gleichen Bild
Latenter Raum	Vereinfachte interne Darstellung eines Bildes
Training	Lernphase mit vielen Beispielbildern
Inference	Nutzung des Modells, Prompt führt zu einem Bild

Ein guter Prompt beschreibt möglichst genau:

Was im Bild zu sehen sein soll
Wie es aussehen soll, zum Beispiel Stil oder Licht
Optional die Perspektive oder Kamera

Schwacher Prompt: Ein Hund

Besserer Prompt: Ein Golden Retriever sitzt auf einer sonnigen Wiese, warmes Nachmittagslicht, fotorealistisch, geringe Schärfentiefe

Damit ein Modell Bilder erzeugen kann, braucht es sehr viele Beispiele.

Beim Training sieht es Millionen von Bildern zusammen mit passenden Textbeschreibungen.

So lernt das Modell, was Begriffe wie „Hund“ oder „Sonnenuntergang“ visuell bedeuten.²⁾

Dieser Abschnitt erklärt die wichtigsten Ideen im Hintergrund. Es geht um ein grundlegendes Verständnis, nicht um Details.

Ein neuronales Netz ist ein Computerprogramm, das grob vom menschlichen Gehirn inspiriert ist.

Es besteht aus vielen kleinen Recheneinheiten, die miteinander verbunden sind.

Beim Training werden diese Verbindungen so angepasst, dass das Netz sinnvolle Ergebnisse erzeugt, in diesem Fall neue Bilder.³⁾

Transformer sind eine spezielle Art von neuronalen Netzen. Sie sind besonders gut darin, Zusammenhänge zu erkennen.

Zum Beispiel versteht das Modell, dass „sonnige Wiese“ bestimmte Farben, Lichtverhältnisse und Objekte bedeutet.

Der Mechanismus dahinter heisst Attention. Das Modell lernt dabei, welche Teile der Eingabe besonders wichtig sind.⁴⁾

Viele Bildgeneratoren verwenden eine Struktur namens U Net.

Das Modell vereinfacht das Bild zuerst und baut es danach wieder auf.

So kann es Bilder schrittweise verbessern und Details hinzufügen.⁵⁾

Ein VAE besteht aus zwei Teilen:

Encoder: Wandelt ein Bild in eine kompakte Darstellung um
Decoder: Baut aus dieser Darstellung wieder ein Bild auf

Dadurch muss das Modell nicht direkt mit allen Pixeln rechnen, sondern mit einer vereinfachten Version.⁶⁾

Diffusionsmodelle sind das Herz moderner Bildgeneratoren.

Die Idee ist einfach: Ein Bild wird zuerst immer stärker verrauscht, bis nur noch Zufall übrig bleibt. Das Modell lernt dann, diesen Prozess umzukehren.

Vorwärtsprozess: Bild wird schrittweise verrauscht
Rückwärtsprozess: Rauschen wird wieder in ein Bild umgewandelt
Anwendung: Man startet mit Zufall und erzeugt daraus ein Bild

Man kann sich das so vorstellen: Aus chaotischem Rauschen entsteht Schritt für Schritt ein klares Bild.

Um schneller zu sein, wird die Diffusion nicht direkt auf dem Bild durchgeführt, sondern im latenten Raum.

Das spart viel Rechenleistung und macht moderne Modelle erst praktikabel.⁷⁾

Modelltyp	Funktionsweise	Bedeutung
GANs	Zwei Netze konkurrieren miteinander	Heute weniger wichtig für Text zu Bild
VAE	Komprimiert und rekonstruiert Bilder	Bestandteil moderner Modelle
DDPM	Schrittweises Entrauschen	Grundlage von Diffusion
LDM	Diffusion im latenten Raum	Basis aktueller Systeme
DiT	Transformer im Diffusionsprozess	Neue skalierbare Modelle

Typischer Ablauf:

Der Prompt wird in Zahlen umgewandelt
Zufälliges Rauschen wird erzeugt
Das Modell entfernt Schritt für Schritt das Rauschen
Der Prompt steuert den Prozess
Am Ende entsteht das Bild

Parameter	Bedeutung
Seed	Bestimmt den Zufall
Guidance Scale	Stärke des Prompts
Steps	Anzahl Schritte
Negativer Prompt	Was vermieden werden soll

ControlNet erlaubt zusätzliche Kontrolle, zum Beispiel über Formen oder Posen.

Das Modell übernimmt die Struktur und kombiniert sie mit dem Stil aus dem Prompt.⁸⁾

Ein Video besteht aus vielen einzelnen Bildern, die zeitlich zusammenpassen müssen.

Die grösste Herausforderung ist die zeitliche Konsistenz. Objekte sollen sich stabil und logisch bewegen.

Ansatz	Beschreibung
Video Diffusion	Erweiterung von Bilddiffusion auf mehrere Frames
Kaskadenmodell	Mehrstufige Verbesserung
Latent Video Diffusion	Effizientere Verarbeitung
Spacetime Patches	Verarbeitung über Raum und Zeit

Bewegung beschreiben
Kamera angeben
Szene nicht zu komplex machen

Tool	Besonderheit
Stable Diffusion	Open Source
Midjourney	Sehr hohe Bildqualität
DALL E 3	Gute Umsetzung von Text
Firefly	Lizenzierte Daten
Runway	Video
Pika	Einfache Bedienung
Sora	Sehr realistische Videos

KI Bild und Videogeneratoren werden in vielen Bereichen eingesetzt. Um einen besseren Überblick zu behalten, kann man die Anwendungen in verschiedene Kategorien einteilen:

Kunst und Design: Unterstützung bei Ideen, Entwürfen und Visualisierungen
Film und Medien: Erstellung von Storyboards, visuellen Effekten und Konzeptbildern
Spieleentwicklung: Generierung von Figuren, Landschaften und Texturen

Architektur und Produktdesign: Realistische Visualisierung von Gebäuden und Objekten
Marketing: Erstellung von Bildern und Videos für Werbung und soziale Medien
Bildung: Veranschaulichung von komplexen Inhalten, z. B. historische Szenen oder wissenschaftliche Prozesse

Forschung: Generierung von synthetischen Daten für das Training anderer KI Modelle
Medizin: Simulationen und Visualisierungen, vor allem in Ausbildung und Forschung

Private Nutzung: Erstellung von Bildern, Videos oder kreativen Projekten
Social Media: Inhalte für Posts, Profile oder persönliche Projekte

Mit generativer KI lassen sich sehr realistische Bilder und Videos von Personen erzeugen, sogenannte Deepfakes.

Diese können gezielt eingesetzt werden, um falsche Informationen zu verbreiten oder Menschen Dinge in den Mund zu legen, die sie nie gesagt haben.

Das Problem ist, dass solche Inhalte für viele Menschen kaum von echten Aufnahmen zu unterscheiden sind.

Dadurch wird es schwieriger, zwischen Wahrheit und Manipulation zu unterscheiden.⁹⁾

Wenn immer mehr Inhalte künstlich erzeugt werden, kann das langfristig das Vertrauen in Medien schwächen.

Fotos und Videos galten früher oft als Beweis. Heute ist das nicht mehr selbstverständlich.

Das betrifft zum Beispiel Journalismus, soziale Medien und auch politische Kommunikation.

Ein zentrales Problem ist die Frage, wem ein KI erzeugtes Bild gehört.

In vielen Fällen gilt: Wenn kein Mensch kreativ beteiligt ist, gibt es kein klassisches Urheberrecht.

Schwierig wird es, wenn ein Mensch aktiv am Ergebnis mitarbeitet, zum Beispiel durch gezielte Prompts oder Nachbearbeitung.

Hier ist die Rechtslage noch nicht eindeutig geklärt.

KI Modelle lernen aus grossen Datenmengen aus dem Internet. Diese Daten enthalten oft unbewusste Verzerrungen.

Das kann dazu führen, dass bestimmte Gruppen stereotyp dargestellt werden oder weniger sichtbar sind.

Solche Verzerrungen nennt man Bias und sie spiegeln gesellschaftliche Ungleichheiten wider.

Neben Deepfakes gibt es weitere Risiken:

Erstellung von Fake Bildern für Betrug
Manipulation von Beweismaterial
Automatisierte Propaganda

Dadurch entsteht ein neues Feld von digitalen Sicherheitsproblemen.

Das Training grosser Modelle benötigt viel Rechenleistung und Energie.

Das führt zu einem hohen Stromverbrauch und damit zu Umweltbelastung.

Neue Methoden versuchen, diese Kosten zu reduzieren, aber das Problem bleibt bestehen.

KI kann aus Text Bilder und Videos erzeugen
Diffusionsmodelle sind das zentrale Verfahren
Parameter steuern das Ergebnis
Videos sind komplexer als Bilder
Die gesellschaftlichen Auswirkungen sind zentral

¹⁾ , ³⁾ , ⁵⁾

IBM: Was sind Diffusionsmodelle? https://www.ibm.com/de-de/think/topics/diffusion-models

²⁾

Digitalzentrum Franken: KI Bildgenerierung mit Stable Diffusion. https://digitalzentrum-franken.de/aktuelles/detail/ki-bildgenerierung-mit-stable-diffusion

⁴⁾

dogado KI Lexikon: Diffusionsmodelle. https://www.dogado.de/ki-lexikon/diffusionsmodelle

⁶⁾

AWS: Was ist Stable Diffusion? https://aws.amazon.com/de/what-is/stable-diffusion/

⁷⁾

GuideGlare: Diffusionsmodelle erklärt. https://www.guideglare.com/de/plattform/bild-suite/technologie/diffusionsmodelle-ki-bildgeneratoren

⁸⁾

theblue.ai: Diffusionsmodelle erklärt. https://theblue.ai/blog-de/trends/diffusionsmodelle-generative-ki/

⁹⁾

BSI: Deepfakes Gefahren und Gegenmassnahmen. https://www.bsi.bund.de

Grundwissen zur Künstlichen Intelligenz

Quellen

Bild- und Videogeneratoren mit KI

1. Grundbegriffe

Was ist generative KI?

Was macht einen guten Prompt aus?

Trainingsdaten

2. Technische Grundlagen

Neuronale Netze

Transformer und Attention

U Net

Variational Autoencoder, VAE

Diffusionsmodelle

Latent Diffusion Models

3. Wichtige Modelltypen

4. Wie funktioniert ein Bildgenerator?

Wichtige Parameter

ControlNet

5. Video Generatoren

Ansätze

Tipps für Prompts

6. Tools und Modelle

7. Anwendungsbereiche

Kreative Anwendungen

Praktische und berufliche Anwendungen

Wissenschaft und Technik

Alltag

8. Risiken und gesellschaftliche Fragen

Deepfakes und Desinformation

Verlust von Vertrauen

Urheberrecht und Autorschaft

Bias und Repräsentation

Missbrauch und Manipulation

Umwelt und Ressourcen

9. Zusammenfassung

DokuWiki CSC