Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
| Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
| ef:ki:nn [2026/04/21 11:00] – andristn | ef:ki:nn [2026/04/23 14:17] (aktuell) – andristn | ||
|---|---|---|---|
| Zeile 21: | Zeile 21: | ||
| </ | </ | ||
| - | Weiss wird zu 0.0, schwarz zu 1.0. Und weil das Bild 28×28 Pixel gross ist, entstehen genau 784 Werte. Deshalb | + | Weiss wird zu 0.0, schwarz zu 1.0. Und weil das Bild 28×28 Pixel gross ist, entstehen genau 784 Werte. Deshalb |
| ===== Gewichte und gewichtete Summe ===== | ===== Gewichte und gewichtete Summe ===== | ||
| Zeile 33: | Zeile 33: | ||
| 784 Inputs mal 128 Hidden-Neuronen ergibt über 100' | 784 Inputs mal 128 Hidden-Neuronen ergibt über 100' | ||
| - | Die grünen Kreise in der Mitte, | + | Die grünen Kreise in der Mitte, |
| - | <m>z = (x_1 \cdot w_1) + (x_2 \cdot w_2) + \ldots | + | <code> |
| + | z = (x₁ · w₁) + (x₂ · w₂) + … + (x₇₈₄ · w₇₈₄) + b | ||
| + | </code> | ||
| - | Oder kompakter | + | Oder kompakter als Summe: |
| - | <m>z = \sum_{i=1}^{784} x_i \cdot w_i + b</m> | + | <code> |
| + | 784 | ||
| + | z = Σ xᵢ · wᵢ + b | ||
| + | | ||
| + | </code> | ||
| Und im Code passiert das für alle 128 Neuronen auf einmal, dank der Matrix-Multiplikation: | Und im Code passiert das für alle 128 Neuronen auf einmal, dank der Matrix-Multiplikation: | ||
| Zeile 47: | Zeile 53: | ||
| </ | </ | ||
| - | Dieses | + | Dieses z ist noch nicht das finale Ergebnis des Neurons. Es ist die rohe gewichtete Summe, auch // |
| ===== Aktivierungsfunktion: | ===== Aktivierungsfunktion: | ||
| - | Ist <m>z</ | + | Ist z grösser als 0, kommt der Wert durch. Ist er kleiner oder gleich 0, wird er auf 0 gesetzt: |
| <code python> | <code python> | ||
| Zeile 57: | Zeile 63: | ||
| </ | </ | ||
| - | Was danach rauskommt, fliesst zu den orangen Kreisen rechts in der Grafik, der **Output Layer**. Dort passiert genau dasselbe nochmal, mit Gewichten | + | Was danach rauskommt, fliesst zu den orangen Kreisen rechts in der Grafik, der **Output Layer**. Dort passiert genau dasselbe nochmal, mit Gewichten |
| <code python> | <code python> | ||
| Zeile 71: | Zeile 77: | ||
| ==== ReLU ==== | ==== ReLU ==== | ||
| - | ReLU steht für //Rectified Linear Unit//, auf Deutsch in etwa "gleichgerichtete lineare Einheit" | + | ReLU steht für //Rectified Linear Unit//, auf Deutsch in etwa „gleichgerichtete lineare Einheit" |
| <code python> | <code python> | ||
| Zeile 80: | Zeile 86: | ||
| Mathematisch sieht das so aus: | Mathematisch sieht das so aus: | ||
| - | <m>f(z) = \max(0, z) = \left\{ \begin{matrix} z & \mbox{wenn } z > 0 \\ 0 & \mbox{sonst} \end{matrix} \right.</m> | + | <code> |
| + | ⎧ z wenn z > 0 | ||
| + | f(z) = max(0, z) = ⎨ | ||
| + | ⎩ 0 sonst | ||
| + | </code> | ||
| Warum macht man das überhaupt? Ohne eine Aktivierungsfunktion wäre das ganze Netz nur eine einzige grosse lineare Gleichung, egal wie viele Schichten man draufpackt. ReLU bringt die **Nichtlinearität** rein, die das Netz braucht, um wirklich komplexe Muster zu lernen. Ein Neuron, das 0 ausgibt, ist quasi stumm. Es gibt nichts weiter. Ein Neuron, das einen positiven Wert ausgibt, feuert und beeinflusst die nächste Schicht. | Warum macht man das überhaupt? Ohne eine Aktivierungsfunktion wäre das ganze Netz nur eine einzige grosse lineare Gleichung, egal wie viele Schichten man draufpackt. ReLU bringt die **Nichtlinearität** rein, die das Netz braucht, um wirklich komplexe Muster zu lernen. Ein Neuron, das 0 ausgibt, ist quasi stumm. Es gibt nichts weiter. Ein Neuron, das einen positiven Wert ausgibt, feuert und beeinflusst die nächste Schicht. | ||
| Zeile 96: | Zeile 106: | ||
| Mathematisch passiert Folgendes: jeder Rohwert wird mit der Exponentialfunktion hochgerechnet und dann durch die Summe aller hochgerechneten Werte geteilt: | Mathematisch passiert Folgendes: jeder Rohwert wird mit der Exponentialfunktion hochgerechnet und dann durch die Summe aller hochgerechneten Werte geteilt: | ||
| - | <m>\sigma(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{52} e^{z_j}}</m> | + | <code> |
| + | e^(zᵢ) | ||
| + | σ(zᵢ) | ||
| + | 52 | ||
| + | Σ | ||
| + | j=1 | ||
| + | </code> | ||
| Das sorgt dafür, dass ein hoher Rohwert eine hohe Wahrscheinlichkeit bekommt und ein tiefer eine kleine. Am Ende schaut das Netz einfach, welcher der 52 Neuronen die höchste Wahrscheinlichkeit hat, und das ist dann der vorhergesagte Buchstabe: | Das sorgt dafür, dass ein hoher Rohwert eine hohe Wahrscheinlichkeit bekommt und ein tiefer eine kleine. Am Ende schaut das Netz einfach, welcher der 52 Neuronen die höchste Wahrscheinlichkeit hat, und das ist dann der vorhergesagte Buchstabe: | ||
| Zeile 112: | Zeile 128: | ||
| Mathematisch sieht ein Perzeptron so aus: | Mathematisch sieht ein Perzeptron so aus: | ||
| - | <m>y = \left\{ \begin{matrix} | + | <code> |
| + | | ||
| + | y = ⎨ | ||
| + | | ||
| + | </code> | ||
| Das Problem dabei ist schnell klar. Mit nur 0 und 1 kann man keine Wahrscheinlichkeiten ausdrücken, | Das Problem dabei ist schnell klar. Mit nur 0 und 1 kann man keine Wahrscheinlichkeiten ausdrücken, | ||
| Zeile 137: | Zeile 157: | ||
| Um das Ganze mal ganz konkret zu machen, schauen wir uns ein Perzeptron an, das die logische // | Um das Ganze mal ganz konkret zu machen, schauen wir uns ein Perzeptron an, das die logische // | ||
| - | ^ < | + | ^ x₁ ^ x₂ ^ y (AND) ^ |
| | 0 | 0 | 0 | | | 0 | 0 | 0 | | ||
| | 0 | 1 | 0 | | | 0 | 1 | 0 | | ||
| Zeile 145: | Zeile 165: | ||
| Ein einzelnes Perzeptron mit zwei Inputs reicht, um das zu lernen. Wir brauchen nur passende Gewichte und einen Bias. Zum Beispiel: | Ein einzelnes Perzeptron mit zwei Inputs reicht, um das zu lernen. Wir brauchen nur passende Gewichte und einen Bias. Zum Beispiel: | ||
| - | <m>w_1 = 1, \quad w_2 = 1, \quad b = -1.5</m> | + | <code> |
| + | w₁ = 1, w₂ = 1, | ||
| + | </code> | ||
| Rechnen wir das für alle vier Fälle durch: | Rechnen wir das für alle vier Fälle durch: | ||
| - | * < | + | * x₁ = 0, x₂ = 0: |
| - | * < | + | * x₁ = 0, x₂ = 1: |
| - | * < | + | * x₁ = 1, x₂ = 0: |
| - | * < | + | * x₁ = 1, x₂ = 1: |
| - | Das Perzeptron gibt also genau dann 1 aus, wenn beide Inputs 1 sind. Die **Entscheidungsgrenze** ist hier die Gerade | + | Das Perzeptron gibt also genau dann 1 aus, wenn beide Inputs 1 sind. Die **Entscheidungsgrenze** ist hier die Gerade |
| ===== Gewichtete Summe, Schwellenwert und Entscheidungsgrenze ===== | ===== Gewichtete Summe, Schwellenwert und Entscheidungsgrenze ===== | ||
| Zeile 164: | Zeile 186: | ||
| </ | </ | ||
| - | Das Ergebnis | + | Das Ergebnis z ist einfach eine Zahl, die zusammenfasst, |
| - | Jetzt kommt der **Schwellenwert** ins Spiel. Man kann sich das vorstellen wie eine Eingangstür. Nur wenn die gewichtete Summe gross genug ist, also den Schwellenwert überschreitet, | + | Jetzt kommt der **Schwellenwert** ins Spiel. Man kann sich das vorstellen wie eine Eingangstür. Nur wenn die gewichtete Summe gross genug ist, also den Schwellenwert überschreitet, |
| <code python> | <code python> | ||
| Zeile 182: | Zeile 204: | ||
| ==== Schritt 1: Fehler messen ==== | ==== Schritt 1: Fehler messen ==== | ||
| - | Der erste Schritt ist, den Fehler zu messen. Das macht die **Loss Function**, | + | Der erste Schritt ist, den Fehler zu messen. Das macht die **Loss Function**. Davon gibt es natürlich mehrere Varianten, die zwei wichtigsten sind //Mean Squared Error// und //Cross Entropy Loss//. |
| + | |||
| + | Der **Mean Squared Error** (MSE) ist der Klassiker und wird zum Beispiel auch von 3Blue1Brown in seiner bekannten YouTube-Serie über neuronale Netzwerke verwendet. Er misst den Fehler, indem er für jedes Output-Neuron die Differenz zwischen Vorhersage und richtigem Wert quadriert und dann den Durchschnitt bildet: | ||
| + | |||
| + | < | ||
| + | 1 | ||
| + | MSE = ─── | ||
| + | | ||
| + | </ | ||
| + | |||
| + | Wir haben uns aber für **Cross Entropy Loss** entschieden, | ||
| <code python> | <code python> | ||
| Zeile 189: | Zeile 221: | ||
| </ | </ | ||
| - | Mathematisch gesehen berechnet | + | Mathematisch gesehen berechnet |
| - | <m>L = -\sum_{i} y_i \cdot \log(\hat{y}_i)</m> | + | <code> |
| + | L = − Σ yᵢ · log(ŷᵢ) | ||
| + | i | ||
| + | </code> | ||
| + | |||
| + | Der grosse Vorteil von Cross Entropy gegenüber MSE ist, dass er starke Fehler viel härter bestraft. Sagt das Netz mit 99% Sicherheit " | ||
| War die Vorhersage für " | War die Vorhersage für " | ||
| Zeile 199: | Zeile 236: | ||
| Hier kommt der **Gradient** ins Spiel. Ein Gradient sagt uns für jedes einzelne Gewicht, in welche Richtung und wie stark es den Loss beeinflusst. Man kann sich das wie einen Hügel vorstellen. Der Loss ist die Höhe, und wir wollen den tiefsten Punkt finden. Der Gradient zeigt uns die steilste Richtung bergauf, also gehen wir genau die entgegengesetzte Richtung bergab. Das nennt sich **Gradientenabstieg**. | Hier kommt der **Gradient** ins Spiel. Ein Gradient sagt uns für jedes einzelne Gewicht, in welche Richtung und wie stark es den Loss beeinflusst. Man kann sich das wie einen Hügel vorstellen. Der Loss ist die Höhe, und wir wollen den tiefsten Punkt finden. Der Gradient zeigt uns die steilste Richtung bergauf, also gehen wir genau die entgegengesetzte Richtung bergab. Das nennt sich **Gradientenabstieg**. | ||
| - | Bei einem einzelnen Neuron ist das noch überschaubar. Angenommen, wir haben einen Output-Neuron mit nur einem Gewicht | + | Um den Gradienten zu berechnen, müssen |
| - | <m>\delta = \hat{y} - y</m> | + | <code> |
| + | w ──► | ||
| + | | ||
| + | | ||
| + | </code> | ||
| - | Das Gewicht | + | Das Gewicht |
| - | <m>\frac{\partial | + | <code> |
| + | ∂L | ||
| + | ──── | ||
| + | | ||
| + | </code> | ||
| - | Und das Gewicht wird dann in die entgegengesetzte Richtung angepasst: | + | Wir leiten also drei Mal einzeln ab und multiplizieren |
| - | < | + | **1. Ableitung des Loss nach der Vorhersage** |
| - | Dabei ist <m>\eta</m> die **Lernrate**, | + | Cross Entropy Loss ist L = −Σ yᵢ · log(ŷᵢ). Leiten wir ihn nach ŷ ab: |
| + | |||
| + | <code> | ||
| + | | ||
| + | ──── | ||
| + | | ||
| + | </code> | ||
| + | |||
| + | **2. Ableitung der Softmax nach der gewichteten Summe** | ||
| + | |||
| + | Hier wird es etwas komplizierter. Softmax ist nämlich eine Funktion, bei der jeder Output ŷᵢ von //allen// z-Werten gleichzeitig abhängt (wegen der Summe im Nenner). Die vollständige Ableitung ist deshalb eine sogenannte Jacobi-Matrix und würde den Rahmen hier sprengen. Wir sparen uns den detaillierten Zwischenschritt und halten einfach fest: es gibt eine wohldefinierte Ableitung. | ||
| + | |||
| + | **3. Ableitung der gewichteten Summe nach dem Gewicht** | ||
| + | |||
| + | Die gewichtete Summe ist z = w·x + b. Leiten wir nach w ab, bleibt einfach x übrig: | ||
| + | |||
| + | < | ||
| + | | ||
| + | ──── | ||
| + | | ||
| + | </ | ||
| + | |||
| + | **Alles einsetzen** | ||
| + | |||
| + | Wenn man nun alle drei Teile in die Kettenregel einsetzt und sauber ausrechnet (das ist der Punkt, an dem sich die komplizierte Softmax-Ableitung mit der −y/ŷ aus dem Cross Entropy Loss gegenseitig auffrisst), bleibt am Ende dieser wunderschön einfache Ausdruck übrig: | ||
| + | |||
| + | < | ||
| + | | ||
| + | ──── | ||
| + | | ||
| + | </ | ||
| + | |||
| + | Das ist genau das, was wir vorhin als " | ||
| + | |||
| + | **Gradient für den Bias** | ||
| + | |||
| + | Für den Bias b läuft dieselbe Kettenregel, | ||
| + | |||
| + | < | ||
| + | | ||
| + | ──── | ||
| + | | ||
| + | </ | ||
| + | |||
| + | Also ist der Gradient für den Bias einfach der Fehler selbst, ohne Multiplikation mit dem Input: | ||
| + | |||
| + | < | ||
| + | | ||
| + | ──── | ||
| + | | ||
| + | </ | ||
| + | |||
| + | **Update-Regel** | ||
| + | |||
| + | Jetzt wo wir beide Gradienten kennen, können wir Gewicht und Bias in die entgegengesetzte Richtung anpassen: | ||
| + | |||
| + | < | ||
| + | w_neu = w_alt − η · (∂L / ∂w) = w_alt − η · δ · x | ||
| + | |||
| + | b_neu = b_alt − η · (∂L / ∂b) = b_alt − η · δ | ||
| + | </ | ||
| + | |||
| + | Dabei ist η (eta) die **Lernrate**, | ||
| <code python> | <code python> | ||
| Zeile 219: | Zeile 326: | ||
| Ist die Lernrate zu gross, springt das Netz über das Minimum hinweg. Ist sie zu klein, braucht das Training ewig. 0.01 ist ein guter Startwert für unser Netz. | Ist die Lernrate zu gross, springt das Netz über das Minimum hinweg. Ist sie zu klein, braucht das Training ewig. 0.01 ist ein guter Startwert für unser Netz. | ||
| - | ==== Schritt 3: Fehler zurück durch das Netz ===== | + | **Das Ganze als Matrix** |
| + | |||
| + | Bisher haben wir so getan, als hätten wir nur ein einziges Gewicht w und einen einzigen Input x. In Wirklichkeit ist w natürlich die ganze **Gewichtsmatrix W** und x der ganze **Input-Vektor**. Schauen wir uns ein Mini-Beispiel mit 3 Inputs und 2 Hidden-Neuronen an: | ||
| + | |||
| + | < | ||
| + | X = [ x₁ x₂ x₃ ] | ||
| + | |||
| + | |||
| + | ⎡ w₁₁ | ||
| + | W = ⎢ w₂₁ | ||
| + | ⎣ w₃₁ | ||
| + | |||
| + | |||
| + | b = [ b₁ b₂ ] | ||
| + | </ | ||
| + | |||
| + | Die gewichtete Summe ist dann eine Matrix-Multiplikation: | ||
| + | |||
| + | < | ||
| + | z = X · W + b | ||
| + | |||
| + | = [x₁·w₁₁ + x₂·w₂₁ + x₃·w₃₁ + b₁ , x₁·w₁₂ + x₂·w₂₂ + x₃·w₃₂ + b₂] | ||
| + | </ | ||
| + | |||
| + | Für die Ableitung gilt genau dasselbe Prinzip wie vorher, nur eben für alle Gewichte auf einmal. Statt δ · x schreiben wir die Matrix-Version: | ||
| + | |||
| + | < | ||
| + | | ||
| + | ──── | ||
| + | | ||
| + | </ | ||
| + | |||
| + | Das Xᵀ (X transponiert) sorgt dabei einfach dafür, dass die Dimensionen zusammenpassen. Im Code ist genau das diese Zeile, die du schon von oben kennst: | ||
| + | |||
| + | <code python> | ||
| + | self.W1 -= self.lr * (X.T @ d1) / N | ||
| + | </ | ||
| + | |||
| + | Der Vorteil der Matrix-Schreibweise ist enorm: statt 100' | ||
| + | |||
| + | ==== Schritt 3: Fehler zurück durch das Netz ==== | ||
| Soweit so gut für einen einzelnen Neuron. Aber jetzt kommt die eigentliche Herausforderung. | Soweit so gut für einen einzelnen Neuron. Aber jetzt kommt die eigentliche Herausforderung. | ||
| Zeile 233: | Zeile 380: | ||
| Mathematisch: | Mathematisch: | ||
| - | <m>\delta_2 | + | <code> |
| + | δ₂ | ||
| + | </code> | ||
| - | Jetzt muss dieser Fehler zurück durch die Gewichte | + | Jetzt muss dieser Fehler zurück durch die Gewichte |
| - | <m>\delta_1 = (\delta_2 \cdot W_2^T) \odot \mbox{ReLU}'(z_1)</m> | + | <code> |
| + | z₁ ──► | ||
| + | (ReLU) (W₂, b₂) (Softmax) | ||
| + | </code> | ||
| - | Das <m>\mbox{ReLU}' | + | z₁ wirkt also über mehrere Zwischenschritte auf den Loss. Die Kettenregel sagt uns: |
| + | |||
| + | <code> | ||
| + | | ||
| + | ──── | ||
| + | | ||
| + | </code> | ||
| + | |||
| + | Schauen wir uns jeden Teil an: | ||
| + | |||
| + | * **∂L / ∂z₂** | ||
| + | * **∂z₂ / ∂a₁** | ||
| + | * **∂a₁ / ∂z₁** | ||
| + | |||
| + | Setzen wir alles zusammen: | ||
| + | |||
| + | < | ||
| + | δ₁ = (δ₂ · W₂ᵀ) | ||
| + | </ | ||
| + | |||
| + | Das ⊙ steht dabei für " | ||
| + | |||
| + | Das ReLU' | ||
| <code python> | <code python> | ||
| Zeile 256: | Zeile 430: | ||
| Mathematisch passiert hier für jede Schicht dasselbe wie beim einzelnen Neuron, nur jetzt für alle Gewichte gleichzeitig: | Mathematisch passiert hier für jede Schicht dasselbe wie beim einzelnen Neuron, nur jetzt für alle Gewichte gleichzeitig: | ||
| - | <m>W_2 = W_2 - \eta \cdot \frac{a_1^T \cdot \delta_2}{N}</m> | + | <code> |
| + | | ||
| + | W₂ | ||
| + | N | ||
| - | < | + | Xᵀ · δ₁ |
| + | W₁ | ||
| + | N | ||
| + | </code> | ||
| - | Die Division durch <m>N</ | + | Die Division durch N ist dabei wichtig: sie mittelt den Fehler über alle Trainingsbeispiele im Batch, damit kein einzelnes Bild zu viel Einfluss hat. |
| - | Dieser ganze Prozess | + | Dieser ganze Prozess – Forward Pass, Loss berechnen, Fehler zurückpropagieren, |
| <code python> | <code python> | ||
| Zeile 278: | Zeile 458: | ||
| ==== Input Layer ==== | ==== Input Layer ==== | ||
| - | Die **Input Layer** ist der Eingang des Netzes. Hier kommt das Bild rein, nichts weiter. Jeder Pixel wird zu einem Neuron, und weil unsere Bilder 28×28 Pixel gross sind, hat diese Schicht genau 784 Neuronen. Sie rechnet nichts, sie bewertet nichts, sie gibt einfach die rohen Pixelwerte weiter. In der Grafik sind das die lila Kreise ganz links, beschriftet mit < | + | Die **Input Layer** ist der Eingang des Netzes. Hier kommt das Bild rein, nichts weiter. Jeder Pixel wird zu einem Neuron, und weil unsere Bilder 28×28 Pixel gross sind, hat diese Schicht genau 784 Neuronen. Sie rechnet nichts, sie bewertet nichts, sie gibt einfach die rohen Pixelwerte weiter. In der Grafik sind das die lila Kreise ganz links, beschriftet mit x₁ bis x₇₈₄. |
| ==== Hidden Layer ==== | ==== Hidden Layer ==== | ||
| Zeile 315: | Zeile 495: | ||
| * **Perzeptron** – einfachstes künstliches Neuron, gibt nur 0 oder 1 aus | * **Perzeptron** – einfachstes künstliches Neuron, gibt nur 0 oder 1 aus | ||
| * **Feedforward-Netz** – Informationen fliessen nur in eine Richtung, von Input zu Output | * **Feedforward-Netz** – Informationen fliessen nur in eine Richtung, von Input zu Output | ||
| - | * **gewichtete Summe** – <m>z = \sum w_i x_i + b</m>, das Zwischenergebnis eines Neurons | + | * **gewichtete Summe** – z = Σ wᵢ·xᵢ |
| * **Schwellenwert** – Grenze zwischen feuern und nicht feuern (bei ReLU: 0) | * **Schwellenwert** – Grenze zwischen feuern und nicht feuern (bei ReLU: 0) | ||
| * **Entscheidungsgrenze** – hochdimensionale Trennfläche, | * **Entscheidungsgrenze** – hochdimensionale Trennfläche, | ||
| Zeile 325: | Zeile 505: | ||
| * **flache vs. tiefe Netze** – eine vs. viele Hidden Layers, Komplexität und Rechenaufwand steigen | * **flache vs. tiefe Netze** – eine vs. viele Hidden Layers, Komplexität und Rechenaufwand steigen | ||
| + | ===== Quellen ===== | ||
| + | ==== Videos ==== | ||
| + | Die Videoserie von // | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | ==== Wikipedia ==== | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | ==== Weiterführende Literatur ==== | ||
| + | * Michael Nielsen: //Neural Networks and Deep Learning// – kostenloses Online-Buch unter [[http:// | ||
| + | * Ian Goodfellow, Yoshua Bengio, Aaron Courville: //Deep Learning// – frei verfügbar unter [[https:// | ||
| + | ==== Bibliotheken und Tools ==== | ||
| - | + | * [[https:// | |
| - | + | * [[https:// | |
| - | + | ||