網(wǎng)站做淘寶客賺錢嗎濟南網(wǎng)絡(luò)優(yōu)化網(wǎng)站
? ? ? ? 深度學(xué)習(xí)過程中,若模型出現(xiàn)了過擬合問題體現(xiàn)為高方差。有兩種解決方法:
- 增加訓(xùn)練樣本的數(shù)量
- 采用正則化技術(shù)
????????增加訓(xùn)練樣本的數(shù)量是一種非??煽康姆椒?#xff0c;但有時候你沒辦法獲得足夠多的訓(xùn)練數(shù)據(jù)或者獲取數(shù)據(jù)的成本很高,這時候正則化技術(shù)就可以有效的幫助你避免模型過擬合。接下來本文就來講解一下深度學(xué)習(xí)中的正則化起作用的原理(文中以L2正則化為例)。
????????有關(guān)正則化的基礎(chǔ)知識,可以回看我之前的文章哦:
【機器學(xué)習(xí)300問】18、正則化是如何解決過擬合問題的?http://t.csdnimg.cn/vX2mP
一、包括L2正則化項的損失函數(shù)長什么樣
????????在損失函數(shù)(如均方誤差、交叉熵誤差等)的基礎(chǔ)上,L2正則化引入了一個與權(quán)重向量W相關(guān)的正則化項,通常表示為:
符號 | 解釋 |
包含正則化項的總損失函數(shù) | |
代表未加正則化項的原始損失函數(shù),這通常是對每個樣本的損失的平均值,如交叉熵?fù)p失或均方誤差損失 | |
分別表示網(wǎng)絡(luò)中的權(quán)重和偏置參數(shù) | |
正則化項的系數(shù),這是一個超參數(shù),用于控制正則化的強度 | |
訓(xùn)練樣本的數(shù)量 | |
L2正則化項,通常稱為權(quán)重衰減項。是所有權(quán)重矩陣的Frobenius范數(shù)的平方的和。Frobenius范數(shù)是一個矩陣范數(shù),等同于矩陣元素的平方和的平方根 | |
表示第 |
二、L2正則化的作用機制
(1)權(quán)重縮小
????????在優(yōu)化過程中,由于L2正則化項的存在,當(dāng)模型試圖降低原始損失時,同時需要考慮減小權(quán)重的平方和。這會促使模型在訓(xùn)練過程中選擇較小的權(quán)重值,避免權(quán)重值過大導(dǎo)致模型對訓(xùn)練數(shù)據(jù)的過度敏感。
(2)防止過擬合
????????較小的權(quán)重值意味著模型對單個特征的影響不會過于突出,減少了模型對訓(xùn)練數(shù)據(jù)中噪聲和個別樣本特性的過度學(xué)習(xí),有利于提高模型在未見過數(shù)據(jù)上的泛化能力。
三、L2正則化到底是怎么起作用的嘛!
(1)微觀上,對激活函數(shù)的影響
????????激活函數(shù)tanh(雙曲正切函數(shù))的輸出范圍在-1到1之間,形狀類似于Sigmoid函數(shù)但更為平緩,且在兩端飽和區(qū)的梯度更接近于0。公式就不贅述了之前的文章詳細(xì)介紹過了,我們在這里只關(guān)注函數(shù)的圖像,從圖像上理解就可以了。
? ? ? ? ?用表示,那么我們發(fā)現(xiàn),只要
非常小,如果
只涉及少量參數(shù),我們就只利用了雙曲正切函數(shù)的線性狀態(tài),如下圖所示:
????????當(dāng)L2正則化懲罰過大時,模型的權(quán)重被迫保持較小的值,也就是說也會很小。對于tanh激活函數(shù)意味著:
- tanh函數(shù)接近線性(斜率為1),較小的權(quán)重導(dǎo)致輸入信號大部分位于tanh函數(shù)的線性區(qū)域內(nèi),使得模型的非線性表達(dá)能力減弱,趨向于線性模型。
- 過強的L2正則化可能會限制tanh激活函數(shù)充分發(fā)揮其非線性變換的能力,尤其是對于需要捕捉復(fù)雜非線性關(guān)系的任務(wù),模型可能無法有效學(xué)習(xí)數(shù)據(jù)的深層次結(jié)構(gòu)。
? ? ? ? 在之前的文章中講到過,如果激活函數(shù)都是線性函數(shù),那么無論你的神經(jīng)網(wǎng)絡(luò)有多深,節(jié)點有很多,都相當(dāng)于一個簡單的線性模型。這就是為什么L2正則化通過約束權(quán)重的大小,間接降低了模型的復(fù)雜度。
(2)宏觀上,對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的影響
? ? ? ? 現(xiàn)在我們假設(shè)一種很極端的情況,正則化參數(shù)非常大,因此對權(quán)重的懲罰非常大,導(dǎo)致權(quán)重很小,小到約等于0。因為公式
,我們?nèi)绻豢紤]偏置。就會得到
,這樣一來從神經(jīng)網(wǎng)絡(luò)的在該節(jié)點的輸出
。意味著這個神經(jīng)元死亡了。如果用圖來表示的話就是:
? ? ? ? 顯然,模型的復(fù)雜度被降低了,提高模型的泛化能力。