當(dāng)前位置：首頁(yè) > news >正文

建設(shè)維護(hù)網(wǎng)站未簽訂合同網(wǎng)絡(luò)軟文寫作

news 2025/7/15 15:33:43

建設(shè)維護(hù)網(wǎng)站未簽訂合同,網(wǎng)絡(luò)軟文寫作,網(wǎng)站做支付端口的費(fèi)用,十大食品公司原文：Deep Learning with TensorFlow Second Edition 協(xié)議：CC BY-NC-SA 4.0 譯者：飛龍本文來(lái)自【ApacheCN 深度學(xué)習(xí) 譯文集】，采用譯后編輯（MTPE）流程來(lái)盡可能提升效率。不要擔(dān)心自己的形象，只…

原文：Deep Learning with TensorFlow Second Edition

協(xié)議：CC BY-NC-SA 4.0

譯者：飛龍

本文來(lái)自【ApacheCN 深度學(xué)習(xí) 譯文集】，采用譯后編輯（MTPE）流程來(lái)盡可能提升效率。

不要擔(dān)心自己的形象，只關(guān)心如何實(shí)現(xiàn)目標(biāo)?！对瓌t》，生活原則 2.3.c

六、RNN 和梯度消失或爆炸問(wèn)題

較深層的梯度計(jì)算為多層網(wǎng)絡(luò)中許多激活函數(shù)梯度的乘積。當(dāng)這些梯度很小或?yàn)榱銜r(shí)，它很容易消失。另一方面，當(dāng)它們大于 1 時(shí)，它可能會(huì)爆炸。因此，計(jì)算和更新變得非常困難。

讓我們更詳細(xì)地解釋一下：

如果權(quán)重較小，則可能導(dǎo)致稱為消失梯度的情況，其中梯度信號(hào)變得非常小，以至于學(xué)習(xí)變得非常慢或完全停止工作。這通常被稱為消失梯度。
如果該矩陣中的權(quán)重很大，則可能導(dǎo)致梯度信號(hào)太大而導(dǎo)致學(xué)習(xí)發(fā)散的情況。這通常被稱為爆炸梯度。

因此，RNN 的一個(gè)主要問(wèn)題是消失或爆炸梯度問(wèn)題，它直接影響表現(xiàn)。事實(shí)上，反向傳播時(shí)間推出了 RNN，創(chuàng)建了一個(gè)非常深的前饋神經(jīng)網(wǎng)絡(luò)。從 RNN 獲得長(zhǎng)期背景的不可能性正是由于這種現(xiàn)象：如果梯度在幾層內(nèi)消失或爆炸，網(wǎng)絡(luò)將無(wú)法學(xué)習(xí)數(shù)據(jù)之間的高時(shí)間距離關(guān)系。

下圖顯示了發(fā)生的情況：計(jì)算和反向傳播的梯度趨于在每個(gè)時(shí)刻減少（或增加），然后，在一定數(shù)量的時(shí)刻之后，成本函數(shù)趨于收斂到零（或爆炸到無(wú)窮大））。

我們可以通過(guò)兩種方式獲得爆炸梯度。由于激活函數(shù)的目的是通過(guò)壓縮它們來(lái)控制網(wǎng)絡(luò)中的重大變化，因此我們?cè)O(shè)置的權(quán)重必須是非負(fù)的和大的。當(dāng)這些權(quán)重沿著層次相乘時(shí)，它們會(huì)導(dǎo)致成本的大幅變化。當(dāng)我們的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)時(shí)，最終目標(biāo)是最小化成本函數(shù)并改變權(quán)重以達(dá)到最優(yōu)成本。

例如，成本函數(shù)是均方誤差。它是一個(gè)純凸函數(shù)，目的是找到凸起的根本原因。如果你的權(quán)重增加到一定量，那么下降的時(shí)刻就會(huì)增加，我們會(huì)反復(fù)超過(guò)最佳狀態(tài)，模型永遠(yuǎn)不會(huì)學(xué)習(xí)！