展示型手機(jī)網(wǎng)站模板seo就業(yè)
文章目錄
- 1. 梯度下降概念
- 2. 梯度下降的技巧
- 2.1 動(dòng)態(tài)設(shè)置學(xué)習(xí)率
- 2.2 Adagrad調(diào)整梯度
- 2.3 隨機(jī)梯度下降(SGD)
- 2.4 特征縮放
- 3. 梯度下降理論基礎(chǔ)
1. 梯度下降概念
- 梯度:Loss 對參數(shù)在某一點(diǎn)的偏微分,函數(shù)沿梯度的方向具有最大的變化率
- 梯度下降:從某點(diǎn)出發(fā),計(jì)算該點(diǎn)梯度,以一定的學(xué)習(xí)率沿著該梯度的反方向移動(dòng),直到梯度接近 0
- 公式: w t + 1 = w t ? η d L d w w_{t+1} = w_t - \eta \frac{dL}{dw} wt+1?=wt??ηdwdL?
2. 梯度下降的技巧
2.1 動(dòng)態(tài)設(shè)置學(xué)習(xí)率
- 原理:離終端越遠(yuǎn),學(xué)習(xí)率越大;離終點(diǎn)越近,學(xué)習(xí)率越小。
- 公式: η t = η t \eta_t = \frac{\eta}{\sqrt{t}} ηt?=t?η?
其中,t 是迭代次數(shù)。
2.2 Adagrad調(diào)整梯度
-
原理:
- 梯度大的時(shí)候,調(diào)正的步伐不一定要大,要綜合考慮到二階導(dǎo)數(shù)的影響。
- 通過參數(shù)的歷史信息來調(diào)整學(xué)習(xí)率。
-
使用 Adagrad 方法更新參數(shù)的公式:
- η t σ t = η ∑ i = 1 t ( g i ) 2 \frac{\eta^t}{\sigma^t} = \frac{\eta}{\sqrt{\sum_{i=1}^{t} (g^i)^2}} σtηt?=∑i=1t?(gi)2?η?
- w t + 1 = w t ? η t σ t g t w^{t+1} = w^t - \frac{\eta^t}{\sigma^t} g^t wt+1=wt?σtηt?gt
其中: σ t \sigma^t σt 是梯度平方的累加和(即歷史梯度的平方和的平方根)。
-
總結(jié):化簡后,分子是一階導(dǎo)數(shù),分母其實(shí)是反應(yīng)二階導(dǎo)數(shù)的影響
2.3 隨機(jī)梯度下降(SGD)
- 概念:不考慮所有樣本,每次隨機(jī)選取某個(gè)或某些樣本點(diǎn)來做梯度下降更新參數(shù)。
- 作用:
- 訓(xùn)練更迅速,結(jié)果也不會太差。
- 可能受到某些樣本的影響,導(dǎo)致不精確。
2.4 特征縮放
- 概念:將不同的輸入特征統(tǒng)一縮放到相同的范圍或分布。
特征歸一化
- 公式: x ′ = x ? min ? ( x ) max ? ( x ) ? min ? ( x ) x' = \frac{x - \min(x)}{\max(x) - \min(x)} x′=max(x)?min(x)x?min(x)?
- 將數(shù)據(jù)統(tǒng)一到特定的范圍,避免某些極端數(shù)據(jù)的影響。
特征標(biāo)準(zhǔn)化
-
公式: x ′ = x ? μ σ x' = \frac{x - \mu}{\sigma} x′=σx?μ?
其中:- μ \mu μ 是特征的均值。
- σ \sigma σ 是特征的標(biāo)準(zhǔn)差。
-
效果:
- 數(shù)據(jù)更符合正態(tài)分布,處理后的特征均值為 0,標(biāo)準(zhǔn)差為 1。
- 減少特征間方差的差異,幫助加速收斂。
特征縮放的優(yōu)點(diǎn)
-
未處理之前:
- Loss 是一個(gè)橢圓,每次更新沿著等高線(梯度)方向走,不是往圓心(最低點(diǎn))走。
- 如果不使用 Adagrad,可能很難得到好的結(jié)果。
-
處理之后:
- Loss 是一個(gè)圓,每次更新都往圓心(最低點(diǎn))走,容易訓(xùn)練。
- 有助于模型訓(xùn)練和加快收斂速度。
3. 梯度下降理論基礎(chǔ)
泰勒級數(shù)近似
- 理論:
- 移動(dòng)方向與梯度(偏導(dǎo))方向相反時(shí),內(nèi)積最小。
- 發(fā)現(xiàn)附近以 $\theta $ 半徑圈的最小值,移動(dòng)到那里。
使用前提
- Loss function 必須是無限可微的。
- 附近圈小,可以忽略高次項(xiàng),意味著學(xué)習(xí)率要足夠小。