當前位置：首頁 > news >正文

網(wǎng)站名稱是什么/網(wǎng)站優(yōu)化網(wǎng)絡推廣seo

news 2025/7/1 18:17:18

網(wǎng)站名稱是什么,網(wǎng)站優(yōu)化網(wǎng)絡推廣seo,山東的互聯(lián)網(wǎng)公司都有什么,模板之家下載的模板怎么打開目錄前言1. 簡介2. 神經(jīng)網(wǎng)絡中的鏈式法則3. 微積分的計算4. 公式含義5. 代價函數(shù)對權重偏置的敏感度6. 多個神經(jīng)元的情形7. 回顧相關資料結語前言 3Blue1Brown 視頻筆記，僅供自己參考這個章節(jié)主要來深度講解反向傳播中的一些微積分理論官網(wǎng)：https://…

前言

3Blue1Brown 視頻筆記，僅供自己參考

這個章節(jié)主要來深度講解反向傳播中的一些微積分理論

官網(wǎng)：https://www.3blue1brown.com

視頻：https://www.bilibili.com/video/BV16x411V7Qg

1. 簡介

在這里插入圖片描述

這章開始我們就假設你已經(jīng)看過第三章了，上章讓大家直觀上感受了反向傳播算法的原理

在這里插入圖片描述

在這章里，我們會更深入講解一些其中的微積分理論，這個看不太懂很正常，所以我們的六字格言 “停一停想一想” 在這依舊管用，這章我們的目標是給大家展示在機器學習中，我們一般是怎么理解鏈式法則的，這點跟別的基礎微積分課講得會有點不一樣

在這里插入圖片描述

對于微積分不夠熟悉的觀眾，我之前已經(jīng)做了一整個系列了，大家感興趣的可以看看：Calculus

2. 神經(jīng)網(wǎng)絡中的鏈式法則

在這里插入圖片描述

我們從最最簡單的網(wǎng)絡講起吧，每層只有一個神經(jīng)元

在這里插入圖片描述

圖上這個網(wǎng)絡就是由 3 個權重和 3 個偏置決定的，我們的目標是理解代價函數(shù)對于這些變量有多敏感，這樣我們就知道怎么調整這些變量才可以使得代價降低得最快，

在這里插入圖片描述

我們先來關注最后兩個神經(jīng)元吧，我給最后一個神經(jīng)元的激活值一個上標 L，表示它處于第 L 層，那么，前一個神經(jīng)元的激活值就是 $a^{(L-1)}$ ，這里的上標不是指數(shù)，而是用來標記我們正在討論哪一層，過一會我會用到下標來表示別的意思

在這里插入圖片描述

給定一個訓練樣本，我們把這個最終層激活值要接近的目標叫做 y，例如 y 可能是 0 或者 1，那么這個簡易網(wǎng)絡對于單個訓練樣本的代價就等于 $\color{black}(a^{(L)}-\color{gold}y\color{black})^2$ ，對于這個樣本，我們把這個代價值標記為 $\color{red}C_0$

在這里插入圖片描述

還記得嗎，最終層的激活值是這么算出來的，即一個權重 $\color{blue}w^L$ 乘上前一個神經(jīng)元的激活值再加上一個偏置 $\color{pink}b^L$ ，最后把加權和塞進一個特定的非線性函數(shù)，例如 sigmoid 或者 ReLU 之類的，給這個加權和起一個名字會方便很多，就叫它 $\color{green}z^L$ 好了，跟對應的激活值用同一個上標

在這里插入圖片描述

這里的項挺多，概括起來我們拿權重 $\color{blue}w^L$ 、前一個激活值 $a^{(L-1)}$ 以及偏置值 $\color{pink}b^L$ 一起來算出 $\color{green}z^L$ 再算出 $a^{(L)}$ ，最后再用上常量 $\color{gold}y$ 算出代價值 $\color{red}C_0$ ，當然 $a^{(L-1)}$ 也是由它自己的權重和偏置決定的，以此類推，但我們現(xiàn)在重點不在那里

在這里插入圖片描述

上面這些東西都是數(shù)字，沒錯吧，我們可以想象每個數(shù)字都對應一個數(shù)軸，我們第一個目標是理解代價函數(shù)對權重 $\color{blue}w^L$ 的微小變化有多敏感，或者換句話講求 $\color{red}C_0$ 對 $\color{blue}w^L$ 的導數(shù)

在這里插入圖片描述

當你看到 $\color{blue}\partial w$ 之類的項時，請把它當做這是對 $\color{blue}w$ 的微小擾動，好比改變 0.01，然后把 $\color{red}\partial C_0$ 當做 “改變 $\color{blue}w$ 對 $\color{red}C_0$ 的值造成的變化”，我們求得是這兩個數(shù)的比值

在這里插入圖片描述

概念上說 $\color{blue}w^L$ 的微小變化會導致 $\color{green}z^L$ 產(chǎn)生些變化，然后會導致 $a^L$ 產(chǎn)生變化，最終影響到代價值

在這里插入圖片描述

那么，我們把式子拆開，首先求 $\color{green}z^L$ 的變化量比上 $\color{blue}w^L$ 的變化量，也就是求 $\color{green}z^L$ 關于 $\color{blue}w^L$ 的導數(shù)，同理考慮 $a^L$ 的變化量比上因變量 $\color{green}z^L$ 的變化量，以及最終的 $\color{red}C_0$ 的變化量比上直接改動 $a^L$ 產(chǎn)生的變化量

在這里插入圖片描述

這不就是鏈式法則么，把三個比值相乘就可以算出 $\color{red}C_0$ 對 $\color{blue}w^L$ 的微小變化有多敏感

3. 微積分的計算

在這里插入圖片描述

現(xiàn)在圖上多了一大堆符號，稍微花點時間理解一下每個符號都是什么意思吧，因為馬上我們就要對各個部分求導了

在這里插入圖片描述

$\color{red}C_0$ 關于 $a^L$ 的導數(shù)就是 $\color{black}2(a^{(L)}-\color{gold}y\color{black})$ ，這也就意味著導數(shù)的大小跟網(wǎng)絡最終的輸出減目標結果的差成正比，如果網(wǎng)絡的輸出差別很大，即使 $\color{blue}w$ 稍稍變一點代價也會改變非常大

在這里插入圖片描述

$a^L$ 對 $\color{green}z^L$ 求導就是求 sigmoid 的導數(shù)，或就你選擇的非線性激活函數(shù)求導

在這里插入圖片描述

而 $\color{green}z^L$ 對 $\color{blue}w^L$ 求導結果就是 $a^{L-1}$

4. 公式含義

在這里插入圖片描述

對我自己來說，這里如果不退一步好好想想這些公式的含義，很容易卡住

在這里插入圖片描述

就最后這個導數(shù)來說，這個權重的改變量 $\color{blue}\partial w$ 對最后一層的影響有多大取決于之前一層的神經(jīng)元，所謂的 “一同激活的神經(jīng)元關聯(lián)在一起” 的出處即來源于此

在這里插入圖片描述

不過這只是包含一個訓練樣本的代價對 $\color{blue}w^{(L)}$ 的導數(shù)，由于總的代價函數(shù)是許許多多訓練樣本所有代價的總平均，它對 $\color{blue}w^{(L)}$ 的導數(shù)就需要求 $\frac{\color{red}\partial C}{\color{blue}\partial w^ {(L)}}$ 這個表達式之于每一個訓練樣本的平均

在這里插入圖片描述

當然這只是梯度向量 $\color{red}\nabla C$ 的一個分量，而梯度向量 $\color{red}\nabla C$ 本身則由代價函數(shù)對每一個權重和每一個偏置求偏導構成的

5. 代價函數(shù)對權重偏置的敏感度

在這里插入圖片描述

值得注意的是，求出這些偏導中的一個就完成了一大半的工作量，對偏置的求導步驟也就基本相同，只要把 $\frac{\color{green}\partial z}{\color{blue} \partial w}$ 替換成 $\frac{\color{green}\partial z}{\color{pink} \partial b}$ ，對應的公式中可以看出導數(shù) $\frac{\color{green}\partial z}{\color{pink} \partial b}$ 等于 1