Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
| Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
| ef:ki:grundissen [2026/04/21 20:36] – bauert | ef:ki:grundissen [2026/05/06 10:38] (aktuell) – lehmannr | ||
|---|---|---|---|
| Zeile 1: | Zeile 1: | ||
| ====== Grundwissen zur Künstlichen Intelligenz ====== | ====== Grundwissen zur Künstlichen Intelligenz ====== | ||
| + | Bei der kurzen Prüfung werde ich vor allem die Konzepte abfragen, d.h. Faktenwissen. | ||
| + | Die unten grün markierten Inhalte sind sehr interessant, | ||
| + | |||
| - Erkläre die Begriffe " | - Erkläre die Begriffe " | ||
| Zeile 8: | Zeile 11: | ||
| - Kostenfunktion | - Kostenfunktion | ||
| - Backpropagation | - Backpropagation | ||
| - | - Aktivierungsfunktion | + | - Aktivierungsfunktion |
| - LLMs | - LLMs | ||
| - Erkläre grob, was ein LLM ist und wie es funktioniert | - Erkläre grob, was ein LLM ist und wie es funktioniert | ||
| Zeile 14: | Zeile 17: | ||
| - Was versteht man unter Pre-Training und RLHF (Reinforcement Learning from Human Feedback)? | - Was versteht man unter Pre-Training und RLHF (Reinforcement Learning from Human Feedback)? | ||
| - Warum brachte die Transformer-Architektur einen gewaltigen Vorteil gegenüber herkömmlichen Verfahren und worin besteht sie grob gesagt? | - Warum brachte die Transformer-Architektur einen gewaltigen Vorteil gegenüber herkömmlichen Verfahren und worin besteht sie grob gesagt? | ||
| - | - Wie werden Wörter codiert? Was versteht man unter dem " | + | - Wie werden Wörter codiert? Was versteht man unter dem " |
| + | - Was ist der Unterschied zwischen generativer und prädiktiver KI? | ||
| + | - Ein LLM gibt für ein und dieselbe Eingabe nicht immer dieselbe Ausgabe, ein Diffussionsmodell für die Bildgenerierung schon. Nimm zu dieser Aussage Stellung. | ||
| + | - Warum sind GPU (Graphikkarten bzw. Graphikprozessoren) in der KI so wichtig? | ||
| + | - Welche zwei Bedeutungen hat das Wort " | ||
| + | - Gib ein persönliches kurzes Statement ab bezüglich der These "Durch KI werden die durch die Studenten eingereichgten Produkte immer besser, obwohl sie in mündlichen Prüfungen immer schlechter abschneiden." | ||
| + | - Was könnte unter den Begriffen "Skill Skipping", | ||
| + | - Nenne Bereiche, die in Zukunft durch den Einsatz von KI komplett verändert werden könnten. Erkläre kurz. | ||
| + | |||
| + | <color # | ||
| + | |||
| + | <color # | ||
| + | |||
| + | <color # | ||
| + | |||
| + | <color # | ||
| ==== Quellen ==== | ==== Quellen ==== | ||
| Zeile 25: | Zeile 43: | ||
| - | ====== Bild- und Videogeneratoren mit KI ====== | ||
| - | |||
| - | Stell dir vor, du schreibst „ein futuristisches Zürich bei Nacht“, und eine KI erzeugt daraus in wenigen Sekunden ein realistisches Bild oder sogar ein Video. | ||
| - | |||
| - | Genau das machen moderne Bild und Videogeneratoren. | ||
| - | |||
| - | Diese Seite erklärt, wie solche Systeme funktionieren, | ||
| - | |||
| - | <WRAP tip> | ||
| - | Auf einen Blick: Bild und Videogeneratoren sind KI Programme, die aus einer Texteingabe neue Bilder oder Videos erzeugen. Das wichtigste Verfahren dahinter nennt man Diffusionsmodell. | ||
| - | </ | ||
| - | |||
| - | |||
| - | ===== 1. Grundbegriffe ===== | ||
| - | |||
| - | ==== Was ist generative KI? ==== | ||
| - | |||
| - | Normale KI erkennt Dinge, zum Beispiel ob auf einem Bild eine Katze zu sehen ist. | ||
| - | |||
| - | Generative KI geht einen Schritt weiter: Sie erzeugt neue Inhalte, die es vorher noch nicht gab. | ||
| - | |||
| - | Das Modell lernt aus sehr vielen Beispielen. Es erkennt dabei Muster, also wie typische Bilder, Texte oder Videos aussehen, und kann daraus neue Inhalte erzeugen, die ähnlich wirken.((IBM: | ||
| - | |||
| - | Bild und Videogeneratoren gehören zu dieser Art von KI. Man gibt eine Beschreibung, | ||
| - | |||
| - | ^ Begriff ^ Erklärung ^ | ||
| - | | Prompt | Texteingabe, | ||
| - | | Seed | Startwert für den Zufall, gleicher Seed führt zum gleichen Bild | | ||
| - | | Latenter Raum | Vereinfachte interne Darstellung eines Bildes | | ||
| - | | Training | Lernphase mit vielen Beispielbildern | | ||
| - | | Inference | Nutzung des Modells, Prompt führt zu einem Bild | | ||
| - | |||
| - | |||
| - | ==== Was macht einen guten Prompt aus? ==== | ||
| - | |||
| - | Ein guter Prompt beschreibt möglichst genau: | ||
| - | |||
| - | * Was im Bild zu sehen sein soll | ||
| - | * Wie es aussehen soll, zum Beispiel Stil oder Licht | ||
| - | * Optional die Perspektive oder Kamera | ||
| - | |||
| - | <WRAP example> | ||
| - | Schwacher Prompt: //Ein Hund// | ||
| - | |||
| - | Besserer Prompt: //Ein Golden Retriever sitzt auf einer sonnigen Wiese, warmes Nachmittagslicht, | ||
| - | </ | ||
| - | |||
| - | |||
| - | ==== Trainingsdaten ==== | ||
| - | |||
| - | Damit ein Modell Bilder erzeugen kann, braucht es sehr viele Beispiele. | ||
| - | |||
| - | Beim Training sieht es Millionen von Bildern zusammen mit passenden Textbeschreibungen. | ||
| - | |||
| - | So lernt das Modell, was Begriffe wie „Hund“ oder „Sonnenuntergang“ visuell bedeuten.((Digitalzentrum Franken: KI Bildgenerierung mit Stable Diffusion. https:// | ||
| - | |||
| - | |||
| - | ===== 2. Technische Grundlagen ===== | ||
| - | |||
| - | <WRAP info> | ||
| - | Dieser Abschnitt erklärt die wichtigsten Ideen im Hintergrund. Es geht um ein grundlegendes Verständnis, | ||
| - | </ | ||
| - | |||
| - | |||
| - | ==== Neuronale Netze ==== | ||
| - | |||
| - | Ein neuronales Netz ist ein Computerprogramm, | ||
| - | |||
| - | Es besteht aus vielen kleinen Recheneinheiten, | ||
| - | |||
| - | Beim Training werden diese Verbindungen so angepasst, dass das Netz sinnvolle Ergebnisse erzeugt, in diesem Fall neue Bilder.((IBM: | ||
| - | |||
| - | |||
| - | ==== Transformer und Attention ==== | ||
| - | |||
| - | Transformer sind eine spezielle Art von neuronalen Netzen. Sie sind besonders gut darin, Zusammenhänge zu erkennen. | ||
| - | |||
| - | Zum Beispiel versteht das Modell, dass „sonnige Wiese“ bestimmte Farben, Lichtverhältnisse und Objekte bedeutet. | ||
| - | |||
| - | Der Mechanismus dahinter heisst Attention. Das Modell lernt dabei, welche Teile der Eingabe besonders wichtig sind.((dogado KI Lexikon: Diffusionsmodelle. https:// | ||
| - | |||
| - | |||
| - | ==== U Net ==== | ||
| - | |||
| - | Viele Bildgeneratoren verwenden eine Struktur namens U Net. | ||
| - | |||
| - | Das Modell vereinfacht das Bild zuerst und baut es danach wieder auf. | ||
| - | |||
| - | So kann es Bilder schrittweise verbessern und Details hinzufügen.((IBM: | ||
| - | |||
| - | |||
| - | ==== Variational Autoencoder, | ||
| - | |||
| - | Ein VAE besteht aus zwei Teilen: | ||
| - | |||
| - | - Encoder: Wandelt ein Bild in eine kompakte Darstellung um | ||
| - | - Decoder: Baut aus dieser Darstellung wieder ein Bild auf | ||
| - | |||
| - | Dadurch muss das Modell nicht direkt mit allen Pixeln rechnen, sondern mit einer vereinfachten Version.((AWS: | ||
| - | |||
| - | |||
| - | ==== Diffusionsmodelle ==== | ||
| - | |||
| - | Diffusionsmodelle sind das Herz moderner Bildgeneratoren. | ||
| - | |||
| - | Die Idee ist einfach: Ein Bild wird zuerst immer stärker verrauscht, bis nur noch Zufall übrig bleibt. Das Modell lernt dann, diesen Prozess umzukehren. | ||
| - | |||
| - | - Vorwärtsprozess: | ||
| - | - Rückwärtsprozess: | ||
| - | - Anwendung: Man startet mit Zufall und erzeugt daraus ein Bild | ||
| - | |||
| - | <WRAP tip> | ||
| - | Man kann sich das so vorstellen: Aus chaotischem Rauschen entsteht Schritt für Schritt ein klares Bild. | ||
| - | </ | ||
| - | |||
| - | |||
| - | ==== Latent Diffusion Models ==== | ||
| - | |||
| - | Um schneller zu sein, wird die Diffusion nicht direkt auf dem Bild durchgeführt, | ||
| - | |||
| - | Das spart viel Rechenleistung und macht moderne Modelle erst praktikabel.((GuideGlare: | ||
| - | |||
| - | |||
| - | ===== 3. Wichtige Modelltypen ===== | ||
| - | |||
| - | ^ Modelltyp ^ Funktionsweise ^ Bedeutung ^ | ||
| - | | GANs | Zwei Netze konkurrieren miteinander | Heute weniger wichtig für Text zu Bild | | ||
| - | | VAE | Komprimiert und rekonstruiert Bilder | Bestandteil moderner Modelle | | ||
| - | | DDPM | Schrittweises Entrauschen | Grundlage von Diffusion | | ||
| - | | LDM | Diffusion im latenten Raum | Basis aktueller Systeme | | ||
| - | | DiT | Transformer im Diffusionsprozess | Neue skalierbare Modelle | | ||
| - | |||
| - | |||
| - | ===== 4. Wie funktioniert ein Bildgenerator? | ||
| - | |||
| - | Typischer Ablauf: | ||
| - | |||
| - | <WRAP box> | ||
| - | - Der Prompt wird in Zahlen umgewandelt | ||
| - | - Zufälliges Rauschen wird erzeugt | ||
| - | - Das Modell entfernt Schritt für Schritt das Rauschen | ||
| - | - Der Prompt steuert den Prozess | ||
| - | - Am Ende entsteht das Bild | ||
| - | </ | ||
| - | |||
| - | |||
| - | ==== Wichtige Parameter ==== | ||
| - | |||
| - | ^ Parameter ^ Bedeutung ^ | ||
| - | | Seed | Bestimmt den Zufall | | ||
| - | | Guidance Scale | Stärke des Prompts | | ||
| - | | Steps | Anzahl Schritte | | ||
| - | | Negativer Prompt | Was vermieden werden soll | | ||
| - | |||
| - | |||
| - | ==== ControlNet ==== | ||
| - | |||
| - | ControlNet erlaubt zusätzliche Kontrolle, zum Beispiel über Formen oder Posen. | ||
| - | |||
| - | Das Modell übernimmt die Struktur und kombiniert sie mit dem Stil aus dem Prompt.((theblue.ai: | ||
| - | |||
| - | |||
| - | ===== 5. Video Generatoren ===== | ||
| - | |||
| - | Ein Video besteht aus vielen einzelnen Bildern, die zeitlich zusammenpassen müssen. | ||
| - | |||
| - | <WRAP important> | ||
| - | Die grösste Herausforderung ist die zeitliche Konsistenz. Objekte sollen sich stabil und logisch bewegen. | ||
| - | </ | ||
| - | |||
| - | |||
| - | ==== Ansätze ==== | ||
| - | |||
| - | ^ Ansatz ^ Beschreibung ^ | ||
| - | | Video Diffusion | Erweiterung von Bilddiffusion auf mehrere Frames | | ||
| - | | Kaskadenmodell | Mehrstufige Verbesserung | | ||
| - | | Latent Video Diffusion | Effizientere Verarbeitung | | ||
| - | | Spacetime Patches | Verarbeitung über Raum und Zeit | | ||
| - | |||
| - | |||
| - | ==== Tipps für Prompts ==== | ||
| - | |||
| - | * Bewegung beschreiben | ||
| - | * Kamera angeben | ||
| - | * Szene nicht zu komplex machen | ||
| - | |||
| - | |||
| - | ===== 6. Tools und Modelle ===== | ||
| - | |||
| - | ^ Tool ^ Besonderheit ^ | ||
| - | | Stable Diffusion | Open Source | | ||
| - | | Midjourney | Sehr hohe Bildqualität | | ||
| - | | DALL E 3 | Gute Umsetzung von Text | | ||
| - | | Firefly | Lizenzierte Daten | | ||
| - | | Runway | Video | | ||
| - | | Pika | Einfache Bedienung | | ||
| - | | Sora | Sehr realistische Videos | | ||
| - | |||
| - | |||
| - | ===== 7. Anwendungsbereiche ===== | ||
| - | |||
| - | KI Bild und Videogeneratoren werden in vielen Bereichen eingesetzt. Um einen besseren Überblick zu behalten, kann man die Anwendungen in verschiedene Kategorien einteilen: | ||
| - | |||
| - | ==== Kreative Anwendungen ==== | ||
| - | |||
| - | * Kunst und Design: Unterstützung bei Ideen, Entwürfen und Visualisierungen | ||
| - | * Film und Medien: Erstellung von Storyboards, | ||
| - | * Spieleentwicklung: | ||
| - | |||
| - | ==== Praktische und berufliche Anwendungen ==== | ||
| - | |||
| - | * Architektur und Produktdesign: | ||
| - | * Marketing: Erstellung von Bildern und Videos für Werbung und soziale Medien | ||
| - | * Bildung: Veranschaulichung von komplexen Inhalten, z. B. historische Szenen oder wissenschaftliche Prozesse | ||
| - | |||
| - | ==== Wissenschaft und Technik ==== | ||
| - | |||
| - | * Forschung: Generierung von synthetischen Daten für das Training anderer KI Modelle | ||
| - | * Medizin: Simulationen und Visualisierungen, | ||
| - | |||
| - | ==== Alltag ==== | ||
| - | |||
| - | * Private Nutzung: Erstellung von Bildern, Videos oder kreativen Projekten | ||
| - | * Social Media: Inhalte für Posts, Profile oder persönliche Projekte | ||
| - | |||
| - | |||
| - | ===== 8. Risiken und gesellschaftliche Fragen ===== | ||
| - | |||
| - | ==== Deepfakes und Desinformation ==== | ||
| - | |||
| - | Mit generativer KI lassen sich sehr realistische Bilder und Videos von Personen erzeugen, sogenannte Deepfakes. | ||
| - | |||
| - | Diese können gezielt eingesetzt werden, um falsche Informationen zu verbreiten oder Menschen Dinge in den Mund zu legen, die sie nie gesagt haben. | ||
| - | |||
| - | Das Problem ist, dass solche Inhalte für viele Menschen kaum von echten Aufnahmen zu unterscheiden sind. | ||
| - | |||
| - | Dadurch wird es schwieriger, | ||
| - | |||
| - | |||
| - | ==== Verlust von Vertrauen ==== | ||
| - | |||
| - | Wenn immer mehr Inhalte künstlich erzeugt werden, kann das langfristig das Vertrauen in Medien schwächen. | ||
| - | |||
| - | Fotos und Videos galten früher oft als Beweis. Heute ist das nicht mehr selbstverständlich. | ||
| - | |||
| - | Das betrifft zum Beispiel Journalismus, | ||
| - | |||
| - | |||
| - | ==== Urheberrecht und Autorschaft ==== | ||
| - | |||
| - | Ein zentrales Problem ist die Frage, wem ein KI erzeugtes Bild gehört. | ||
| - | |||
| - | In vielen Fällen gilt: Wenn kein Mensch kreativ beteiligt ist, gibt es kein klassisches Urheberrecht. | ||
| - | |||
| - | Schwierig wird es, wenn ein Mensch aktiv am Ergebnis mitarbeitet, | ||
| - | |||
| - | Hier ist die Rechtslage noch nicht eindeutig geklärt. | ||
| - | |||
| - | |||
| - | ==== Bias und Repräsentation ==== | ||
| - | |||
| - | KI Modelle lernen aus grossen Datenmengen aus dem Internet. Diese Daten enthalten oft unbewusste Verzerrungen. | ||
| - | |||
| - | Das kann dazu führen, dass bestimmte Gruppen stereotyp dargestellt werden oder weniger sichtbar sind. | ||
| - | |||
| - | Solche Verzerrungen nennt man Bias und sie spiegeln gesellschaftliche Ungleichheiten wider. | ||
| - | |||
| - | |||
| - | ==== Missbrauch und Manipulation ==== | ||
| - | |||
| - | Neben Deepfakes gibt es weitere Risiken: | ||
| - | |||
| - | * Erstellung von Fake Bildern für Betrug | ||
| - | * Manipulation von Beweismaterial | ||
| - | * Automatisierte Propaganda | ||
| - | |||
| - | Dadurch entsteht ein neues Feld von digitalen Sicherheitsproblemen. | ||
| - | |||
| - | |||
| - | ==== Umwelt und Ressourcen ==== | ||
| - | |||
| - | Das Training grosser Modelle benötigt viel Rechenleistung und Energie. | ||
| - | |||
| - | Das führt zu einem hohen Stromverbrauch und damit zu Umweltbelastung. | ||
| - | |||
| - | Neue Methoden versuchen, diese Kosten zu reduzieren, aber das Problem bleibt bestehen. | ||
| - | |||
| - | |||
| - | ===== 9. Zusammenfassung ===== | ||
| - | |||
| - | <WRAP tip> | ||
| - | - KI kann aus Text Bilder und Videos erzeugen | ||
| - | - Diffusionsmodelle sind das zentrale Verfahren | ||
| - | - Parameter steuern das Ergebnis | ||
| - | - Videos sind komplexer als Bilder | ||
| - | - Die gesellschaftlichen Auswirkungen sind zentral | ||
| - | </ | ||