Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
| Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
| ef:ki:llm [2026/04/22 18:02] – [3. Training von LLMs] emmeneggerg | ef:ki:llm [2026/04/23 12:32] (aktuell) – [5. GPUs] emmeneggerg | ||
|---|---|---|---|
| Zeile 11: | Zeile 11: | ||
| </ | </ | ||
| - | < | + | < |
| Ein LLM arbeitet nicht direkt mit Wörtern, sondern mit Tokens. Ein solches Token kann verschiedene Formen haben z.B. | Ein LLM arbeitet nicht direkt mit Wörtern, sondern mit Tokens. Ein solches Token kann verschiedene Formen haben z.B. | ||
| * ein ganzes Wort (Baum) | * ein ganzes Wort (Baum) | ||
| Zeile 30: | Zeile 30: | ||
| Das Modell wählt dabei nicht immer strikt das wahrscheinlichste Token aus, sondern variiert seine Auswahl leicht, um natürlichere und abwechslungsreichere Texte zu erzeugen. Dies erklärt, weshalb bei identischen Eingaben unterschiedliche Antworten entstehen können. | Das Modell wählt dabei nicht immer strikt das wahrscheinlichste Token aus, sondern variiert seine Auswahl leicht, um natürlichere und abwechslungsreichere Texte zu erzeugen. Dies erklärt, weshalb bei identischen Eingaben unterschiedliche Antworten entstehen können. | ||
| + | |||
| + | Sobald ein Token dem Text hinzugefügt wurde, beginnt das Ganze von neuem und der nächste Token wird vorhergesagt. Nun gehört das vorher generierte Token zum gegebenen Text. Es folgt einem autoregressiven Modell. | ||
| + | |||
| + | <WRAP box> | ||
| + | Beispiel: Starttext: «Der Hund». Das LLM ergänzt das Token «rennt». Nun ist der neue Kontext: «Der Hund rennt» und ein neues Token wird generiert. | ||
| + | </ | ||
| + | |||
| Um solche Wahrscheinlichkeiten berechnen zu können, wird ein LLM mit enormen Mengen an Textdaten trainiert, die häufig aus dem Internet stammen. | Um solche Wahrscheinlichkeiten berechnen zu können, wird ein LLM mit enormen Mengen an Textdaten trainiert, die häufig aus dem Internet stammen. | ||
| Zeile 35: | Zeile 42: | ||
| ===== 3. Training von LLMs ===== | ===== 3. Training von LLMs ===== | ||
| Für das Training kann man sich das LLM wie eine riesige Maschine mit unzähligen Hebeln vorstellen, die richtig eingestellt werden muss. Wird die Position eines Hebels verändert, also die Einstellungen verstellt, kommt ein anderes Ergebnis heraus. Bei einem LLM sind es jedoch keine Hebel, sondern sogenannte Weights (Gewichte)/ | Für das Training kann man sich das LLM wie eine riesige Maschine mit unzähligen Hebeln vorstellen, die richtig eingestellt werden muss. Wird die Position eines Hebels verändert, also die Einstellungen verstellt, kommt ein anderes Ergebnis heraus. Bei einem LLM sind es jedoch keine Hebel, sondern sogenannte Weights (Gewichte)/ | ||
| - | {{ : | + | {{ : |
| + | //Je nach Einstellung der Parameter ändern sich die Vorhersagen.// | ||
| ==== Training Schritt 1 ==== | ==== Training Schritt 1 ==== | ||
| Zeile 44: | Zeile 52: | ||
| Die Anzahl an Berechnungen, | Die Anzahl an Berechnungen, | ||
| + | <WRAP box> | ||
| Gedankenexperiment: | Gedankenexperiment: | ||
| Es sind über 100' | Es sind über 100' | ||
| + | </ | ||
| ==== Training Schritt 2: RLHF - Reinforcement Learning with Human Feedback ==== | ==== Training Schritt 2: RLHF - Reinforcement Learning with Human Feedback ==== | ||
| Nach dem ersten Trainingsschritt kann das Modell zwar Texte vervollständigen, | Nach dem ersten Trainingsschritt kann das Modell zwar Texte vervollständigen, | ||
| - | |||
| Deshalb werden zusätzliche Trainingsschritte durchgeführt, | Deshalb werden zusätzliche Trainingsschritte durchgeführt, | ||
| Zeile 57: | Zeile 66: | ||
| Der Transformer ermöglicht es, einen gesamten Textabschnitt gleichzeitig zu analysieren und Zusammenhänge zwischen verschiedenen Teilen des Textes herzustellen. | Der Transformer ermöglicht es, einen gesamten Textabschnitt gleichzeitig zu analysieren und Zusammenhänge zwischen verschiedenen Teilen des Textes herzustellen. | ||
| + | |||
| + | {{ : | ||
| + | //Bild: Wie frühere Modelle Sätze bearbeiten und wie Transformer dies tun.// | ||
| Da ein Transformer nicht direkt mit rohem Text arbeiten kann, wird dieser zunächst in Tokens zerlegt (Tokenisierung). Anschliessend werden die Tokens in sogenannte Vektoren umgewandelt, | Da ein Transformer nicht direkt mit rohem Text arbeiten kann, wird dieser zunächst in Tokens zerlegt (Tokenisierung). Anschliessend werden die Tokens in sogenannte Vektoren umgewandelt, | ||
| - | {{:bild_embeddings.png|}} | + | {{ :ef: |
| + | //Bild: Beispiel wie Wörter als Embeddings dargestellt werden// | ||
| Der Transformer besteht aus wiederkehrenden Schichten von Attention-Mechanismen und FNN. | Der Transformer besteht aus wiederkehrenden Schichten von Attention-Mechanismen und FNN. | ||
| - | * Attention-Mechanismus (Aufmerksamkeitsmechanismus) | ||
| - | * FNN: Feedforward-Neuronal-Networks | ||
| + | <WRAP info> | ||
| + | **Attention-Mechanismus (Aufmerksamkeitsmechanismus)** | ||
| Der Aufmerksamkeitsmechanismus ermöglicht dem LLM, sich auf relevante Teile der Daten zu konzentrieren und irrelevante Details zu ignorieren. Indem Tokens je nach Kontext als unterschiedlich wichtig gewertet werden, können Zusammenhänge besser dargestellt und verstanden werden. | Der Aufmerksamkeitsmechanismus ermöglicht dem LLM, sich auf relevante Teile der Daten zu konzentrieren und irrelevante Details zu ignorieren. Indem Tokens je nach Kontext als unterschiedlich wichtig gewertet werden, können Zusammenhänge besser dargestellt und verstanden werden. | ||
| Zeile 71: | Zeile 84: | ||
| Sogenannte Kontextfenster bestimmen, wie viel Text das Modell gleichzeitig berücksichtigt. Kleinere Modelle berücksichtigen ca. 2'000 Tokens, grössere Modelle über 100' | Sogenannte Kontextfenster bestimmen, wie viel Text das Modell gleichzeitig berücksichtigt. Kleinere Modelle berücksichtigen ca. 2'000 Tokens, grössere Modelle über 100' | ||
| + | </ | ||
| + | <WRAP info> | ||
| + | **FNN: Feedforward-Neuronal-Networks** | ||
| Die FNN sind einfache neuronale Netzwerke, die Informationen von einer Schicht zur nächsthöheren weitergeben. Sie werden verwendet damit das Gelernte aus dem Training angewendet werden kann. | Die FNN sind einfache neuronale Netzwerke, die Informationen von einer Schicht zur nächsthöheren weitergeben. Sie werden verwendet damit das Gelernte aus dem Training angewendet werden kann. | ||
| + | </ | ||
| + | |||
| Die Daten durchlaufen mehrfach diese Schichten, wodurch das Modell schrittweise ermittelt, welche Informationen entscheidend sind, um das nächste Token vorherzusagen. | Die Daten durchlaufen mehrfach diese Schichten, wodurch das Modell schrittweise ermittelt, welche Informationen entscheidend sind, um das nächste Token vorherzusagen. | ||
| + | {{ : | ||
| + | |||
| Am Ende dieses Prozesses wird der letzte Vektor vorhergesagt, | Am Ende dieses Prozesses wird der letzte Vektor vorhergesagt, | ||
| + | {{ : | ||
| + | //Bild: Beispiel, wie sich Vektoren beeinflussen, | ||
| - | {{: | ||
| - | |||
| - | Sobald ein Token dem Text hinzugefügt wurde, beginnt das Ganze von neuem und der nächste Token wird vorhergesagt. Nun gehört das vorher generierte Token zum Kontext. Es folgt also einem autoregressiven Modell. | ||
| - | |||
| - | <WRAP box> | ||
| - | Beispiel: Starttext: «Der Hund». Das LLM ergänzt das Token «rennt». Nun ist der neue Kontext: «Der Hund rennt» und ein neues Token wird generiert. | ||
| - | </ | ||
| Wissenschaftler haben das Grundgerüst von diesen Transformern gebaut, doch wie sie sich dann verhalten, hängt davon ab, wie die Parameter im Training eingestellt worden sind. Darum ist es äusserst schwierig zu sagen, warum ein LLM ein Token vorschlägt. Doch die Ergebnisse sprechen für sich: LLM produzieren flüssige Texte, die kaum mehr zu unterscheiden sind von Texten, die von Menschen geschrieben wurden. | Wissenschaftler haben das Grundgerüst von diesen Transformern gebaut, doch wie sie sich dann verhalten, hängt davon ab, wie die Parameter im Training eingestellt worden sind. Darum ist es äusserst schwierig zu sagen, warum ein LLM ein Token vorschlägt. Doch die Ergebnisse sprechen für sich: LLM produzieren flüssige Texte, die kaum mehr zu unterscheiden sind von Texten, die von Menschen geschrieben wurden. | ||
| Zeile 91: | Zeile 106: | ||
| Um LLMs herzustellen, | Um LLMs herzustellen, | ||
| - | {{:bild_gpu.png|}} | + | {{ :ef:ki:gpu.png? |
| ===== 6. Grenzen und Probleme von LLMs ===== | ===== 6. Grenzen und Probleme von LLMs ===== | ||
| * LLMs erfordern erhebliche Ressourcen für Entwicklung und Training. Häufig werden grössere Modelle auf bereits bestehenden Basismodellen aufgebaut, die ein grundlegendes Sprachverständnis besitzen. | * LLMs erfordern erhebliche Ressourcen für Entwicklung und Training. Häufig werden grössere Modelle auf bereits bestehenden Basismodellen aufgebaut, die ein grundlegendes Sprachverständnis besitzen. | ||
| + | * LLMs verstehen nichts im menschlichen Sinne. Sie haben Probleme mit logischen Schlussfolgerungen, | ||
| * Da LLMs auf Wahrscheinlichkeiten basieren, können sie Antworten erzeugen, die überzeugend wirken, jedoch faktisch falsch sind. Diese bezeichnet man als Halluzinationen. | * Da LLMs auf Wahrscheinlichkeiten basieren, können sie Antworten erzeugen, die überzeugend wirken, jedoch faktisch falsch sind. Diese bezeichnet man als Halluzinationen. | ||
| * Selbst wenn die LLM durch Transformer riesige Teile des Textes beachten, bleibt die Kapazität endlich. Das LLM kann nur Informationen anschauen, welche in einem begrenzten Kontextfenster liegen. Dies führt dazu, dass frühere Gesprächsteile vergessen werden oder Zusammenhänge verloren gehen. Dies passiert insbesondere bei sehr langen Argumentationen. | * Selbst wenn die LLM durch Transformer riesige Teile des Textes beachten, bleibt die Kapazität endlich. Das LLM kann nur Informationen anschauen, welche in einem begrenzten Kontextfenster liegen. Dies führt dazu, dass frühere Gesprächsteile vergessen werden oder Zusammenhänge verloren gehen. Dies passiert insbesondere bei sehr langen Argumentationen. | ||
| - | * LLMs verstehen nichts im menschlichen Sinne. Sie haben Probleme mit logischen Schlussfolgerungen, | ||
| * Da LLMs mit menschengemachten Texten trainiert werden, können Vorurteile aus den Trainingsdaten übernommen werden. Es entstehen Verzerrungen (Bias). Siehe 6. Gruppe. | * Da LLMs mit menschengemachten Texten trainiert werden, können Vorurteile aus den Trainingsdaten übernommen werden. Es entstehen Verzerrungen (Bias). Siehe 6. Gruppe. | ||
| * Zudem ist das Wissen eines LLMs in der Regel auf den Trainingszeitraum beschränkt und wird nicht automatisch aktualisiert. Dadurch fehlen Informationen über aktuelle Entwicklungen oder neue wissenschaftliche Erkenntnisse. | * Zudem ist das Wissen eines LLMs in der Regel auf den Trainingszeitraum beschränkt und wird nicht automatisch aktualisiert. Dadurch fehlen Informationen über aktuelle Entwicklungen oder neue wissenschaftliche Erkenntnisse. | ||