出口外貿(mào)是做什么的淘寶客seo推廣教程
一、說明
在上一篇博客中,我們討論了原版RNN架構(gòu),也討論了它的局限性。梯度消失是一個非常重要的缺點,它限制了RNN對較短序列的建模。香草 RNN 在相關(guān)輸入事件和目標(biāo)信號之間存在超過 5-10 個離散時間步長的時間滯時無法學(xué)習(xí)。這基本上限制了香草RNN在許多實際問題上的應(yīng)用,特別是NLP,因為句子中的單詞數(shù)量通常遠(yuǎn)遠(yuǎn)超過10個。
長短期記憶(LSTM)是一種流行的循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)的更好變體,專門設(shè)計用于解決梯度消失問題。LSTM調(diào)整了RNN循環(huán)單元的內(nèi)部結(jié)構(gòu),為消失梯度帶來了解決方案。 LSTM 在翻譯和序列生成方面的應(yīng)用取得了巨大成功。在這篇博客中,我們將討論 LSTM 的神經(jīng)架構(gòu)。如果您不熟悉RNN,請參考我之前的博客。

二、神經(jīng)架構(gòu)
LSTM與我們學(xué)到的RNN非常相似,它具有與遞歸神經(jīng)網(wǎng)絡(luò)類似的控制流。在RNN中,信息(隱藏狀態(tài)/梯度)在進(jìn)行反向傳播時跨時間步不間斷地傳遞。LSTM所做的只是利用簡單的門來控制循環(huán)網(wǎng)絡(luò)單元中的梯度傳播。LSTM 存儲單元使用不同的門處理向前傳播時傳遞信息的數(shù)據(jù)。讓我們看看這些信息是如何在 LSTM 存儲單元中處理的,首先讓我們定義單元狀態(tài),