怎么幫公司做網(wǎng)站建設(shè)如何創(chuàng)建公司網(wǎng)站
一、優(yōu)化問題
1、優(yōu)化目標(biāo)
(1)優(yōu)化和深度學(xué)習(xí)的目標(biāo)是根本不同的。前者主要關(guān)注的是最小化目標(biāo),后者則關(guān)注在給定有限數(shù)據(jù)量的情況下尋找合適的模型。
(2)優(yōu)化算法的目標(biāo)函數(shù)通常是基于訓(xùn)練數(shù)據(jù)集的損失函數(shù),因此優(yōu)化的目標(biāo)是減少訓(xùn)練誤差;深度學(xué)習(xí)(或更廣義地說,統(tǒng)計推斷)的目標(biāo)是減少泛化誤差,因此除了使用優(yōu)化算法來減少訓(xùn)練誤差之外,我們還需要注意過擬合。
(3)f(x)就是我們代碼中的loss()函數(shù),我們想要最小化損失。
(4)目標(biāo)函數(shù),是不管輸入時什么矩陣,都處理為一個向量
(5)限制集合:給C的取值設(shè)置條件,比如說令權(quán)重方差為1均值為0的限制
2、局部最小與全局最小
(1)x處對應(yīng)的f(x)值小于在x附近任意其他點(diǎn)的f(x)值,那么f(x)可能是局部最小值。如果f(x)在x處的值是整個域中目標(biāo)函數(shù)的最小值,那么f(x)是全局最小值。
(2)數(shù)學(xué)公式
(3)使用迭代優(yōu)化算法求解,一般只能得到局部最小值:深度學(xué)習(xí)模型的目標(biāo)函數(shù)通常有許多局部最優(yōu)解。當(dāng)優(yōu)化問題的數(shù)值解接近局部最優(yōu)值時,隨著目標(biāo)函數(shù)解的梯度接近或變?yōu)榱?#xff0c;通過最終迭代獲得的數(shù)值解可能僅使目標(biāo)函數(shù)局部最優(yōu),而不是全局最優(yōu)。
(4)只有一定程度的噪聲可能會使參數(shù)跳出局部最小值(是小批量隨機(jī)梯度下降的有利特性之一,小批量上梯度的自然變化能夠?qū)?shù)從局部極小值中跳出)。
3、總結(jié)
(1)最小化訓(xùn)練誤差并不能保證我們找到最佳的參數(shù)集來最小化泛化誤差。
(2)優(yōu)化問題可能有許多局部最小值。
二、凸性
1、凸集
(1)數(shù)學(xué)公式
(2)集合
2、凸函數(shù)
(1)數(shù)學(xué)公式
(2)在x!=f(x)時成立,為嚴(yán)格凸函數(shù)
(3)凸優(yōu)化問題
(4)深度學(xué)習(xí)中的凸和非凸:學(xué)習(xí)的模型基本上都是非凸的,因?yàn)橥沟?#xff08;比如線性)很簡單,那么信息就不多,非凸更接近實(shí)際生活中的例子。
二、梯度下降
1、梯度下降
(1)學(xué)習(xí)率的大小很重要:學(xué)習(xí)率太大會使模型發(fā)散,學(xué)習(xí)率太小會沒有進(jìn)展。
(2)梯度下降會可能陷入局部極小值,而得不到全局最小值。
(3)在高維模型中,調(diào)整學(xué)習(xí)率是很復(fù)雜的。
(4)預(yù)處理方法適當(dāng)有助于調(diào)節(jié)比例。
2、隨機(jī)梯度下降
(1)在樣本中隨機(jī)選擇一個,雖然沒有計算每一個梯度求平均平滑,但是總體趨勢是差不多的
(2)對于凸問題,在廣泛的學(xué)習(xí)率選擇,隨機(jī)梯度下降將收斂到最優(yōu)解。
(3)當(dāng)訓(xùn)練數(shù)據(jù)集中有更多樣本時,計算梯度下降的每次迭代的代價更高,因此在這些情況下,首選隨機(jī)梯度下降。
3、小批量隨機(jī)梯度下降
(1)將計算機(jī)并行考慮進(jìn)去。
(2)但是需要考慮合適的小批量,批量很小的時候,收斂快但計算慢,批量大的時候,計算代價很大。
(3)小批量隨機(jī)梯度下降比隨機(jī)梯度下降和梯度下降的速度快,收斂風(fēng)險較小。
(4)在訓(xùn)練期間降低學(xué)習(xí)率有助于訓(xùn)練,前期學(xué)習(xí)率大一些,后期學(xué)習(xí)率調(diào)小。
(5)小批量隨機(jī)梯度下降兼顧了計算和統(tǒng)計效率。
(6)在小批量隨機(jī)梯度下降中,我們處理通過訓(xùn)練數(shù)據(jù)的隨機(jī)排列獲得的批量數(shù)據(jù)(即每個觀測值只處理一次,但按隨機(jī)順序)。
三、沖量法
1、動量法用過去梯度的平均值來替換梯度,這大大加快了收斂速度。
2、動量法可以防止在隨機(jī)梯度下降的優(yōu)化過程停滯的問題。
3、由于對過去的數(shù)據(jù)進(jìn)行了指數(shù)降權(quán),有效梯度數(shù)為1/1?β。
4、動量法的實(shí)現(xiàn)非常簡單,但它需要我們存儲額外的狀態(tài)向量(動量v)。
四、Adam
1、t比較大的時候
2、在t小的時候進(jìn)行修正
3、g_t'
五、總結(jié)
1、深度學(xué)習(xí)模型大多是非凸
2、小批量隨機(jī)梯度下降是最常用的優(yōu)化算法
3、沖量對梯度會更加平滑
4、Adam對梯度做平滑,并且對梯度各個維度值都做重新調(diào)整