中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

如何在雅虎臺(tái)灣做企業(yè)網(wǎng)站站長(zhǎng)工具綜合查詢2020

如何在雅虎臺(tái)灣做企業(yè)網(wǎng)站,站長(zhǎng)工具綜合查詢2020,網(wǎng)站設(shè)計(jì)中下拉列表怎么做,煙臺(tái)網(wǎng)絡(luò)推廣隨機(jī)梯度下降 在前面的章節(jié)中,我們一直在訓(xùn)練過程中使用隨機(jī)梯度下降,但沒有解釋它為什么起作用。為了澄清這一點(diǎn),我們剛在 :numref:sec_gd中描述了梯度下降的基本原則。本節(jié)繼續(xù)更詳細(xì)地說明隨機(jī)梯度下降(stochastic gradient d…

隨機(jī)梯度下降

在前面的章節(jié)中,我們一直在訓(xùn)練過程中使用隨機(jī)梯度下降,但沒有解釋它為什么起作用。為了澄清這一點(diǎn),我們剛在 :numref:sec_gd中描述了梯度下降的基本原則。本節(jié)繼續(xù)更詳細(xì)地說明隨機(jī)梯度下降(stochastic gradient descent)。

%matplotlib inline
import math
import torch
from d2l import torch as d2l

隨機(jī)梯度更新

在深度學(xué)習(xí)中,目標(biāo)函數(shù)通常是訓(xùn)練數(shù)據(jù)集中每個(gè)樣本的損失函數(shù)的平均值。給定 n n n個(gè)樣本的訓(xùn)練數(shù)據(jù)集,我們假設(shè) f i ( x ) f_i(\mathbf{x}) fi?(x)是關(guān)于索引 i i i的訓(xùn)練樣本的損失函數(shù),其中 x \mathbf{x} x是參數(shù)向量。然后我們得到目標(biāo)函數(shù)

f ( x ) = 1 n ∑ i = 1 n f i ( x ) . f(\mathbf{x}) = \frac{1}{n} \sum_{i = 1}^n f_i(\mathbf{x}). f(x)=n1?i=1n?fi?(x).

x \mathbf{x} x的目標(biāo)函數(shù)的梯度計(jì)算為

? f ( x ) = 1 n ∑ i = 1 n ? f i ( x ) . \nabla f(\mathbf{x}) = \frac{1}{n} \sum_{i = 1}^n \nabla f_i(\mathbf{x}). ?f(x)=n1?i=1n??fi?(x).

如果使用梯度下降法,則每個(gè)自變量迭代的計(jì)算代價(jià)為 O ( n ) \mathcal{O}(n) O(n),它隨 n n n線性增長(zhǎng)。因此,當(dāng)訓(xùn)練數(shù)據(jù)集較大時(shí),每次迭代的梯度下降計(jì)算代價(jià)將較高。

隨機(jī)梯度下降(SGD)可降低每次迭代時(shí)的計(jì)算代價(jià)。在隨機(jī)梯度下降的每次迭代中,我們對(duì)數(shù)據(jù)樣本隨機(jī)均勻采樣一個(gè)索引 i i i,其中 i ∈ { 1 , … , n } i\in\{1,\ldots, n\} i{1,,n},并計(jì)算梯度 ? f i ( x ) \nabla f_i(\mathbf{x}) ?fi?(x)以更新 x \mathbf{x} x

x ← x ? η ? f i ( x ) , \mathbf{x} \leftarrow \mathbf{x} - \eta \nabla f_i(\mathbf{x}), xx?η?fi?(x),

其中 η \eta η是學(xué)習(xí)率。我們可以看到,每次迭代的計(jì)算代價(jià)從梯度下降的 O ( n ) \mathcal{O}(n) O(n)降至常數(shù) O ( 1 ) \mathcal{O}(1) O(1)。此外,我們要強(qiáng)調(diào),隨機(jī)梯度 ? f i ( x ) \nabla f_i(\mathbf{x}) ?fi?(x)是對(duì)完整梯度 ? f ( x ) \nabla f(\mathbf{x}) ?f(x)的無偏估計(jì),因?yàn)?/p>

E i ? f i ( x ) = 1 n ∑ i = 1 n ? f i ( x ) = ? f ( x ) . \mathbb{E}_i \nabla f_i(\mathbf{x}) = \frac{1}{n} \sum_{i = 1}^n \nabla f_i(\mathbf{x}) = \nabla f(\mathbf{x}). Ei??fi?(x)=n1?i=1n??fi?(x)=?f(x).

這意味著,平均而言,隨機(jī)梯度是對(duì)梯度的良好估計(jì)。

現(xiàn)在,我們將把它與梯度下降進(jìn)行比較,方法是向梯度添加均值為0、方差為1的隨機(jī)噪聲,以模擬隨機(jī)梯度下降。

def f(x1, x2):  # 目標(biāo)函數(shù)return x1 ** 2 + 2 * x2 ** 2def f_grad(x1, x2):  # 目標(biāo)函數(shù)的梯度return 2 * x1, 4 * x2
def sgd(x1, x2, s1, s2, f_grad):g1, g2 = f_grad(x1, x2)# 模擬有噪聲的梯度g1 += torch.normal(0.0, 1, (1,)).item()g2 += torch.normal(0.0, 1, (1,)).item()eta_t = eta * lr()return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)
def constant_lr():return 1eta = 0.1
lr = constant_lr  # 常數(shù)學(xué)習(xí)速度
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))
epoch 50, x1: 0.020569, x2: 0.227895

在這里插入圖片描述

正如我們所看到的,隨機(jī)梯度下降中變量的軌跡比我們?cè)?:numref:sec_gd中觀察到的梯度下降中觀察到的軌跡嘈雜得多。這是由于梯度的隨機(jī)性質(zhì)。也就是說,即使我們接近最小值,我們?nèi)匀皇艿酵ㄟ^ η ? f i ( x ) \eta \nabla f_i(\mathbf{x}) η?fi?(x)的瞬間梯度所注入的不確定性的影響。即使經(jīng)過50次迭代,質(zhì)量仍然不那么好。更糟糕的是,經(jīng)過額外的步驟,它不會(huì)得到改善。這給我們留下了唯一的選擇:改變學(xué)習(xí)率 η \eta η。但是,如果我們選擇的學(xué)習(xí)率太小,我們一開始就不會(huì)取得任何有意義的進(jìn)展。另一方面,如果我們選擇的學(xué)習(xí)率太大,我們將無法獲得一個(gè)好的解決方案,如上所示。解決這些相互沖突的目標(biāo)的唯一方法是在優(yōu)化過程中動(dòng)態(tài)降低學(xué)習(xí)率。

這也是在sgd步長(zhǎng)函數(shù)中添加學(xué)習(xí)率函數(shù)lr的原因。在上面的示例中,學(xué)習(xí)率調(diào)度的任何功能都處于休眠狀態(tài),因?yàn)槲覀儗⑾嚓P(guān)的lr函數(shù)設(shè)置為常量。

動(dòng)態(tài)學(xué)習(xí)率

用與時(shí)間相關(guān)的學(xué)習(xí)率 η ( t ) \eta(t) η(t)取代 η \eta η增加了控制優(yōu)化算法收斂的復(fù)雜性。特別是,我們需要弄清 η \eta η的衰減速度。如果太快,我們將過早停止優(yōu)化。如果減少的太慢,我們會(huì)在優(yōu)化上浪費(fèi)太多時(shí)間。以下是隨著時(shí)間推移調(diào)整 η \eta η時(shí)使用的一些基本策略(稍后我們將討論更高級(jí)的策略):

η ( t ) = η i if? t i ≤ t ≤ t i + 1 分段常數(shù) η ( t ) = η 0 ? e ? λ t 指數(shù)衰減 η ( t ) = η 0 ? ( β t + 1 ) ? α 多項(xiàng)式衰減 \begin{aligned} \eta(t) & = \eta_i \text{ if } t_i \leq t \leq t_{i+1} && \text{分段常數(shù)} \\ \eta(t) & = \eta_0 \cdot e^{-\lambda t} && \text{指數(shù)衰減} \\ \eta(t) & = \eta_0 \cdot (\beta t + 1)^{-\alpha} && \text{多項(xiàng)式衰減} \end{aligned} η(t)η(t)η(t)?=ηi??if?ti?tti+1?=η0??e?λt=η0??(βt+1)?α??分段常數(shù)指數(shù)衰減多項(xiàng)式衰減?

在第一個(gè)分段常數(shù)(piecewise constant)場(chǎng)景中,我們會(huì)降低學(xué)習(xí)率,例如,每當(dāng)優(yōu)化進(jìn)度停頓時(shí)。這是訓(xùn)練深度網(wǎng)絡(luò)的常見策略?;蛘?#xff0c;我們可以通過指數(shù)衰減(exponential decay)來更積極地減低它。不幸的是,這往往會(huì)導(dǎo)致算法收斂之前過早停止。一個(gè)受歡迎的選擇是 α = 0.5 \alpha = 0.5 α=0.5多項(xiàng)式衰減(polynomial decay)。在凸優(yōu)化的情況下,有許多證據(jù)表明這種速率表現(xiàn)良好。

讓我們看看指數(shù)衰減在實(shí)踐中是什么樣子。

def exponential_lr():# 在函數(shù)外部定義,而在內(nèi)部更新的全局變量global tt += 1return math.exp(-0.1 * t)t = 1
lr = exponential_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=1000, f_grad=f_grad))
epoch 1000, x1: -0.998659, x2: 0.023408

在這里插入圖片描述

正如預(yù)期的那樣,參數(shù)的方差大大減少。但是,這是以未能收斂到最優(yōu)解 x = ( 0 , 0 ) \mathbf{x} = (0, 0) x=(0,0)為代價(jià)的。即使經(jīng)過1000個(gè)迭代步驟,我們?nèi)匀浑x最優(yōu)解很遠(yuǎn)。事實(shí)上,該算法根本無法收斂。另一方面,如果我們使用多項(xiàng)式衰減,其中學(xué)習(xí)率隨迭代次數(shù)的平方根倒數(shù)衰減,那么僅在50次迭代之后,收斂就會(huì)更好。

def polynomial_lr():# 在函數(shù)外部定義,而在內(nèi)部更新的全局變量global tt += 1return (1 + 0.1 * t) ** (-0.5)t = 1
lr = polynomial_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))
epoch 50, x1: -0.174174, x2: -0.000615

在這里插入圖片描述

關(guān)于如何設(shè)置學(xué)習(xí)率,還有更多的選擇。例如,我們可以從較小的學(xué)習(xí)率開始,然后使其迅速上漲,再讓它降低,盡管這會(huì)更慢。我們甚至可以在較小和較大的學(xué)習(xí)率之間切換?,F(xiàn)在,讓我們專注于可以進(jìn)行全面理論分析的學(xué)習(xí)率計(jì)劃,即凸環(huán)境下的學(xué)習(xí)率。對(duì)一般的非凸問題,很難獲得有意義的收斂保證,因?yàn)榭偟膩碚f,最大限度地減少非線性非凸問題是NP困難的。有關(guān)的研究調(diào)查,請(qǐng)參閱例如2015年Tibshirani的優(yōu)秀講義筆記。

凸目標(biāo)的收斂性分析

以下對(duì)凸目標(biāo)函數(shù)的隨機(jī)梯度下降的收斂性分析是可選讀的,主要用于傳達(dá)對(duì)問題的更多直覺。我們只限于最簡(jiǎn)單的證明之一 :cite:Nesterov.Vial.2000。存在著明顯更先進(jìn)的證明技術(shù),例如,當(dāng)目標(biāo)函數(shù)表現(xiàn)特別好時(shí)。

假設(shè)所有 ξ \boldsymbol{\xi} ξ的目標(biāo)函數(shù) f ( ξ , x ) f(\boldsymbol{\xi}, \mathbf{x}) f(ξ,x) x \mathbf{x} x中都是凸的。更具體地說,我們考慮隨機(jī)梯度下降更新:

x t + 1 = x t ? η t ? x f ( ξ t , x ) , \mathbf{x}_{t+1} = \mathbf{x}_{t} - \eta_t \partial_\mathbf{x} f(\boldsymbol{\xi}_t, \mathbf{x}), xt+1?=xt??ηt??x?f(ξt?,x),

其中 f ( ξ t , x ) f(\boldsymbol{\xi}_t, \mathbf{x}) f(ξt?,x)是訓(xùn)練樣本 f ( ξ t , x ) f(\boldsymbol{\xi}_t, \mathbf{x}) f(ξt?,x)的目標(biāo)函數(shù): ξ t \boldsymbol{\xi}_t ξt?從第 t t t步的某個(gè)分布中提取, x \mathbf{x} x是模型參數(shù)。用

R ( x ) = E ξ [ f ( ξ , x ) ] R(\mathbf{x}) = E_{\boldsymbol{\xi}}[f(\boldsymbol{\xi}, \mathbf{x})] R(x)=Eξ?[f(ξ,x)]

表示期望風(fēng)險(xiǎn), R ? R^* R?表示對(duì)于 x \mathbf{x} x的最低風(fēng)險(xiǎn)。最后讓 x ? \mathbf{x}^* x?表示最小值(我們假設(shè)它存在于定義 x \mathbf{x} x的域中)。在這種情況下,我們可以跟蹤時(shí)間 t t t處的當(dāng)前參數(shù) x t \mathbf{x}_t xt?和風(fēng)險(xiǎn)最小化器 x ? \mathbf{x}^* x?之間的距離,看看它是否隨著時(shí)間的推移而改善:

∥ x t + 1 ? x ? ∥ 2 = ∥ x t ? η t ? x f ( ξ t , x ) ? x ? ∥ 2 = ∥ x t ? x ? ∥ 2 + η t 2 ∥ ? x f ( ξ t , x ) ∥ 2 ? 2 η t ? x t ? x ? , ? x f ( ξ t , x ) ? . \begin{aligned} &\|\mathbf{x}_{t+1} - \mathbf{x}^*\|^2 \\ =& \|\mathbf{x}_{t} - \eta_t \partial_\mathbf{x} f(\boldsymbol{\xi}_t, \mathbf{x}) - \mathbf{x}^*\|^2 \\ =& \|\mathbf{x}_{t} - \mathbf{x}^*\|^2 + \eta_t^2 \|\partial_\mathbf{x} f(\boldsymbol{\xi}_t, \mathbf{x})\|^2 - 2 \eta_t \left\langle \mathbf{x}_t - \mathbf{x}^*, \partial_\mathbf{x} f(\boldsymbol{\xi}_t, \mathbf{x})\right\rangle. \end{aligned} ==?xt+1??x?2xt??ηt??x?f(ξt?,x)?x?2xt??x?2+ηt2??x?f(ξt?,x)2?2ηt??xt??x?,?x?f(ξt?,x)?.?
:eqlabel:eq_sgd-xt+1-xstar

我們假設(shè)隨機(jī)梯度 ? x f ( ξ t , x ) \partial_\mathbf{x} f(\boldsymbol{\xi}_t, \mathbf{x}) ?x?f(ξt?,x) L 2 L_2 L2?范數(shù)受到某個(gè)常數(shù) L L L的限制,因此我們有

η t 2 ∥ ? x f ( ξ t , x ) ∥ 2 ≤ η t 2 L 2 . \eta_t^2 \|\partial_\mathbf{x} f(\boldsymbol{\xi}_t, \mathbf{x})\|^2 \leq \eta_t^2 L^2. ηt2??x?f(ξt?,x)2ηt2?L2.
:eqlabel:eq_sgd-L

我們最感興趣的是 x t \mathbf{x}_t xt? x ? \mathbf{x}^* x?之間的距離如何變化的期望。事實(shí)上,對(duì)于任何具體的步驟序列,距離可能會(huì)增加,這取決于我們遇到的 ξ t \boldsymbol{\xi}_t ξt?。因此我們需要點(diǎn)積的邊界。因?yàn)閷?duì)于任何凸函數(shù) f f f,所有 x \mathbf{x} x y \mathbf{y} y都滿足 f ( y ) ≥ f ( x ) + ? f ′ ( x ) , y ? x ? f(\mathbf{y}) \geq f(\mathbf{x}) + \langle f'(\mathbf{x}), \mathbf{y} - \mathbf{x} \rangle f(y)f(x)+?f(x),y?x?,按凸性我們有

f ( ξ t , x ? ) ≥ f ( ξ t , x t ) + ? x ? ? x t , ? x f ( ξ t , x t ) ? . f(\boldsymbol{\xi}_t, \mathbf{x}^*) \geq f(\boldsymbol{\xi}_t, \mathbf{x}_t) + \left\langle \mathbf{x}^* - \mathbf{x}_t, \partial_{\mathbf{x}} f(\boldsymbol{\xi}_t, \mathbf{x}_t) \right\rangle. f(ξt?,x?)f(ξt?,xt?)+?x??xt?,?x?f(ξt?,xt?)?.
:eqlabel:eq_sgd-f-xi-xstar

將不等式 :eqref:eq_sgd-L和 :eqref:eq_sgd-f-xi-xstar代入 :eqref:eq_sgd-xt+1-xstar我們?cè)跁r(shí)間 t + 1 t+1 t+1時(shí)獲得參數(shù)之間距離的邊界,如下所示:

∥ x t ? x ? ∥ 2 ? ∥ x t + 1 ? x ? ∥ 2 ≥ 2 η t ( f ( ξ t , x t ) ? f ( ξ t , x ? ) ) ? η t 2 L 2 . \|\mathbf{x}_{t} - \mathbf{x}^*\|^2 - \|\mathbf{x}_{t+1} - \mathbf{x}^*\|^2 \geq 2 \eta_t (f(\boldsymbol{\xi}_t, \mathbf{x}_t) - f(\boldsymbol{\xi}_t, \mathbf{x}^*)) - \eta_t^2 L^2. xt??x?2?xt+1??x?22ηt?(f(ξt?,xt?)?f(ξt?,x?))?ηt2?L2.
:eqlabel:eqref_sgd-xt-diff

這意味著,只要當(dāng)前損失和最優(yōu)損失之間的差異超過 η t L 2 / 2 \eta_t L^2/2 ηt?L2/2,我們就會(huì)取得進(jìn)展。由于這種差異必然會(huì)收斂到零,因此學(xué)習(xí)率 η t \eta_t ηt?也需要消失。

接下來,我們根據(jù) :eqref:eqref_sgd-xt-diff取期望。得到

E [ ∥ x t ? x ? ∥ 2 ] ? E [ ∥ x t + 1 ? x ? ∥ 2 ] ≥ 2 η t [ E [ R ( x t ) ] ? R ? ] ? η t 2 L 2 . E\left[\|\mathbf{x}_{t} - \mathbf{x}^*\|^2\right] - E\left[\|\mathbf{x}_{t+1} - \mathbf{x}^*\|^2\right] \geq 2 \eta_t [E[R(\mathbf{x}_t)] - R^*] - \eta_t^2 L^2. E[xt??x?2]?E[xt+1??x?2]2ηt?[E[R(xt?)]?R?]?ηt2?L2.

最后一步是對(duì) t ∈ { 1 , … , T } t \in \{1, \ldots, T\} t{1,,T}的不等式求和。在求和過程中抵消中間項(xiàng),然后舍去低階項(xiàng),可以得到

∥ x 1 ? x ? ∥ 2 ≥ 2 ( ∑ t = 1 T η t ) [ E [ R ( x t ) ] ? R ? ] ? L 2 ∑ t = 1 T η t 2 . \|\mathbf{x}_1 - \mathbf{x}^*\|^2 \geq 2 \left (\sum_{t=1}^T \eta_t \right) [E[R(\mathbf{x}_t)] - R^*] - L^2 \sum_{t=1}^T \eta_t^2. x1??x?22(t=1T?ηt?)[E[R(xt?)]?R?]?L2t=1T?ηt2?.
:eqlabel:eq_sgd-x1-xstar

請(qǐng)注意,我們利用了給定的 x 1 \mathbf{x}_1 x1?,因而可以去掉期望。最后定義

x ˉ = d e f ∑ t = 1 T η t x t ∑ t = 1 T η t . \bar{\mathbf{x}} \stackrel{\mathrm{def}}{=} \frac{\sum_{t=1}^T \eta_t \mathbf{x}_t}{\sum_{t=1}^T \eta_t}. xˉ=deft=1T?ηt?t=1T?ηt?xt??.

因?yàn)橛?/p>

E ( ∑ t = 1 T η t R ( x t ) ∑ t = 1 T η t ) = ∑ t = 1 T η t E [ R ( x t ) ] ∑ t = 1 T η t = E [ R ( x t ) ] , E\left(\frac{\sum_{t=1}^T \eta_t R(\mathbf{x}_t)}{\sum_{t=1}^T \eta_t}\right) = \frac{\sum_{t=1}^T \eta_t E[R(\mathbf{x}_t)]}{\sum_{t=1}^T \eta_t} = E[R(\mathbf{x}_t)], E(t=1T?ηt?t=1T?ηt?R(xt?)?)=t=1T?ηt?t=1T?ηt?E[R(xt?)]?=E[R(xt?)],

根據(jù)詹森不等式(令 :eqref:eq_jensens-inequality i = t i=t i=t α i = η t / ∑ t = 1 T η t \alpha_i = \eta_t/\sum_{t=1}^T \eta_t αi?=ηt?/t=1T?ηt?)和 R R R的凸性使其滿足的 E [ R ( x t ) ] ≥ E [ R ( x ˉ ) ] E[R(\mathbf{x}_t)] \geq E[R(\bar{\mathbf{x}})] E[R(xt?)]E[R(xˉ)],因此,

∑ t = 1 T η t E [ R ( x t ) ] ≥ ∑ t = 1 T η t E [ R ( x ˉ ) ] . \sum_{t=1}^T \eta_t E[R(\mathbf{x}_t)] \geq \sum_{t=1}^T \eta_t E\left[R(\bar{\mathbf{x}})\right]. t=1T?ηt?E[R(xt?)]t=1T?ηt?E[R(xˉ)].

將其代入不等式 :eqref:eq_sgd-x1-xstar得到邊界

[ E [ x ˉ ] ] ? R ? ≤ r 2 + L 2 ∑ t = 1 T η t 2 2 ∑ t = 1 T η t , \left[E[\bar{\mathbf{x}}]\right] - R^* \leq \frac{r^2 + L^2 \sum_{t=1}^T \eta_t^2}{2 \sum_{t=1}^T \eta_t}, [E[xˉ]]?R?2t=1T?ηt?r2+L2t=1T?ηt2??,

其中 r 2 = d e f ∥ x 1 ? x ? ∥ 2 r^2 \stackrel{\mathrm{def}}{=} \|\mathbf{x}_1 - \mathbf{x}^*\|^2 r2=defx1??x?2是初始選擇參數(shù)與最終結(jié)果之間距離的邊界。簡(jiǎn)而言之,收斂速度取決于隨機(jī)梯度標(biāo)準(zhǔn)的限制方式( L L L)以及初始參數(shù)值與最優(yōu)結(jié)果的距離( r r r)。請(qǐng)注意,邊界由 x ˉ \bar{\mathbf{x}} xˉ而不是 x T \mathbf{x}_T xT?表示。因?yàn)?span id="vxwlu0yf4" class="katex--inline"> x ˉ \bar{\mathbf{x}} xˉ是優(yōu)化路徑的平滑版本。只要知道 r , L r, L r,L T T T,我們就可以選擇學(xué)習(xí)率 η = r / ( L T ) \eta = r/(L \sqrt{T}) η=r/(LT ?)。這個(gè)就是上界 r L / T rL/\sqrt{T} rL/T ?。也就是說,我們將按照速度 O ( 1 / T ) \mathcal{O}(1/\sqrt{T}) O(1/T ?)收斂到最優(yōu)解。

隨機(jī)梯度和有限樣本

到目前為止,在談?wù)撾S機(jī)梯度下降時(shí),我們進(jìn)行得有點(diǎn)快而松散。我們假設(shè)從分布 p ( x , y ) p(x, y) p(x,y)中采樣得到樣本 x i x_i xi?(通常帶有標(biāo)簽 y i y_i yi?),并且用它來以某種方式更新模型參數(shù)。特別是,對(duì)于有限的樣本數(shù)量,我們僅僅討論了由某些允許我們?cè)谄渖蠄?zhí)行隨機(jī)梯度下降的函數(shù) δ x i \delta_{x_i} δxi?? δ y i \delta_{y_i} δyi??組成的離散分布 p ( x , y ) = 1 n ∑ i = 1 n δ x i ( x ) δ y i ( y ) p(x, y) = \frac{1}{n} \sum_{i=1}^n \delta_{x_i}(x) \delta_{y_i}(y) p(x,y)=n1?i=1n?δxi??(x)δyi??(y)。

但是,這不是我們真正做的。在本節(jié)的簡(jiǎn)單示例中,我們只是將噪聲添加到其他非隨機(jī)梯度上,也就是說,我們假裝有成對(duì)的 ( x i , y i ) (x_i, y_i) (xi?,yi?)。事實(shí)證明,這種做法在這里是合理的(有關(guān)詳細(xì)討論,請(qǐng)參閱練習(xí))。更麻煩的是,在以前的所有討論中,我們顯然沒有這樣做。相反,我們遍歷了所有實(shí)例恰好一次。要了解為什么這更可取,可以反向考慮一下,即我們有替換地從離散分布中采樣 n n n個(gè)觀測(cè)值。隨機(jī)選擇一個(gè)元素 i i i的概率是 1 / n 1/n 1/n。因此選擇它至少一次就是

P ( c h o o s e i ) = 1 ? P ( o m i t i ) = 1 ? ( 1 ? 1 / n ) n ≈ 1 ? e ? 1 ≈ 0.63. P(\mathrm{choose~} i) = 1 - P(\mathrm{omit~} i) = 1 - (1-1/n)^n \approx 1-e^{-1} \approx 0.63. P(choose?i)=1?P(omit?i)=1?(1?1/n)n1?e?10.63.

類似的推理表明,挑選一些樣本(即訓(xùn)練示例)恰好一次的概率是

( n 1 ) 1 n ( 1 ? 1 n ) n ? 1 = n n ? 1 ( 1 ? 1 n ) n ≈ e ? 1 ≈ 0.37. {n \choose 1} \frac{1}{n} \left(1-\frac{1}{n}\right)^{n-1} = \frac{n}{n-1} \left(1-\frac{1}{n}\right)^{n} \approx e^{-1} \approx 0.37. (1n?)n1?(1?n1?)n?1=n?1n?(1?n1?)ne?10.37.

這導(dǎo)致與無替換采樣相比,方差增加并且數(shù)據(jù)效率降低。因此,在實(shí)踐中我們執(zhí)行后者(這是本書中的默認(rèn)選擇)。最后一點(diǎn)注意,重復(fù)采用訓(xùn)練數(shù)據(jù)集的時(shí)候,會(huì)以不同的隨機(jī)順序遍歷它。

小結(jié)

  • 對(duì)于凸問題,我們可以證明,對(duì)于廣泛的學(xué)習(xí)率選擇,隨機(jī)梯度下降將收斂到最優(yōu)解。
  • 對(duì)于深度學(xué)習(xí)而言,情況通常并非如此。但是,對(duì)凸問題的分析使我們能夠深入了解如何進(jìn)行優(yōu)化,即逐步降低學(xué)習(xí)率,盡管不是太快。
  • 如果學(xué)習(xí)率太小或太大,就會(huì)出現(xiàn)問題。實(shí)際上,通常只有經(jīng)過多次實(shí)驗(yàn)后才能找到合適的學(xué)習(xí)率。
  • 當(dāng)訓(xùn)練數(shù)據(jù)集中有更多樣本時(shí),計(jì)算梯度下降的每次迭代的代價(jià)更高,因此在這些情況下,首選隨機(jī)梯度下降。
  • 隨機(jī)梯度下降的最優(yōu)性保證在非凸情況下一般不可用,因?yàn)樾枰獧z查的局部最小值的數(shù)量可能是指數(shù)級(jí)的。
http://www.risenshineclean.com/news/50919.html

相關(guān)文章:

  • 網(wǎng)站 平臺(tái)建設(shè)情況介紹優(yōu)化公司網(wǎng)站排名
  • 電腦網(wǎng)站模板網(wǎng)頁模板免費(fèi)下載
  • 禪城區(qū)網(wǎng)站建設(shè)公司優(yōu)化網(wǎng)站平臺(tái)
  • 可以做軟文的網(wǎng)站營(yíng)銷策略范文
  • 網(wǎng)站建設(shè)熊貓建站百度如何發(fā)布作品
  • 做網(wǎng)站需要買空間么 服務(wù)器福州百度開戶多少錢
  • 網(wǎng)站代碼在哪看查詢網(wǎng)站收錄
  • 網(wǎng)絡(luò)培訓(xùn)ppt天天seo百度點(diǎn)擊器
  • 在網(wǎng)站上保存網(wǎng)址怎么做國內(nèi)打開google網(wǎng)頁的方法
  • 設(shè)計(jì)公司網(wǎng)站建設(shè)方案百度搜索引擎營(yíng)銷案例
  • wordpress 媒體庫 API抖音seo查詢工具
  • 網(wǎng)站用哪些系統(tǒng)做的好網(wǎng)絡(luò)營(yíng)銷業(yè)務(wù)流程
  • 做設(shè)計(jì)必須知道的幾個(gè)網(wǎng)站嗎百度快照怎么使用
  • 怎么通過做網(wǎng)站來賺錢百度一下官方網(wǎng)址
  • 蕪湖企業(yè)網(wǎng)站建設(shè)網(wǎng)站策劃是什么
  • 婚戀網(wǎng)站做期貨現(xiàn)貨貴金屬的人推推蛙seo顧問
  • 做外賣有哪些網(wǎng)站想要導(dǎo)航頁面推廣app
  • 大理石在哪些網(wǎng)站做宣傳微信小程序怎么開通
  • 鄭州網(wǎng)站建設(shè)找智巢2345導(dǎo)航網(wǎng)址
  • wordpress 微博模板成都網(wǎng)站搭建優(yōu)化推廣
  • 學(xué)校網(wǎng)站建設(shè)發(fā)展概況分析seo關(guān)鍵詞排名優(yōu)化怎么收費(fèi)
  • 上海做網(wǎng)站哪個(gè)好seo技術(shù)大師
  • 遼寧人社app一直更新汕頭網(wǎng)站優(yōu)化
  • 杭州做家教網(wǎng)站公司關(guān)鍵詞seo
  • 重慶建設(shè)工程管理網(wǎng)seo入門到精通
  • 哪些網(wǎng)站是用響應(yīng)式做的網(wǎng)絡(luò)服務(wù)器的作用
  • 網(wǎng)站在正在建設(shè)中品牌營(yíng)銷策劃怎么寫
  • 重慶智能網(wǎng)站建設(shè)哪里好谷歌手機(jī)版瀏覽器官網(wǎng)
  • 做證明圖片的網(wǎng)站拉新app渠道
  • ppt模板下載官網(wǎng)外鏈seo