中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

做網(wǎng)站大概價(jià)格/南昌seo排名優(yōu)化

做網(wǎng)站大概價(jià)格,南昌seo排名優(yōu)化,吉林seo基礎(chǔ)知識(shí),南川網(wǎng)站建設(shè)公司由于一些原因, 需要學(xué)習(xí)一下強(qiáng)化學(xué)習(xí)。用這篇博客來(lái)學(xué)習(xí)吧, 用的資料是李宏毅老師的強(qiáng)化學(xué)習(xí)課程。 深度強(qiáng)化學(xué)習(xí)(DRL)-李宏毅1-8課(全)_嗶哩嗶哩_bilibili 這篇文章的目的是看懂公式, 畢竟這是我的弱中弱。 強(qiáng)化…

由于一些原因, 需要學(xué)習(xí)一下強(qiáng)化學(xué)習(xí)。用這篇博客來(lái)學(xué)習(xí)吧,

用的資料是李宏毅老師的強(qiáng)化學(xué)習(xí)課程。?

深度強(qiáng)化學(xué)習(xí)(DRL)-李宏毅1-8課(全)_嗶哩嗶哩_bilibili

這篇文章的目的是看懂公式, 畢竟這是我的弱中弱。?

強(qiáng)化學(xué)習(xí)一般就是 環(huán)境, 動(dòng)作網(wǎng)絡(luò), 獎(jiǎng)勵(lì)三者的糾纏,

動(dòng)作網(wǎng)絡(luò)看到環(huán)境, 產(chǎn)生一個(gè)動(dòng)作, 然后得到一個(gè)獎(jiǎng)勵(lì)。 然后我們通過(guò)這個(gè)獎(jiǎng)勵(lì)來(lái)更新動(dòng)作。?

不同的方法有不同的思想, 我們來(lái)看看PG和PPO。?

PG是這樣的思想。?

有一個(gè)policy網(wǎng)絡(luò) \pi?,就是actor。 輸入是環(huán)境, 輸出是策略。?

他會(huì)輸出各個(gè)動(dòng)作的幾率, 然后可以根據(jù)這些幾率采樣一個(gè)動(dòng)作。,?

? 經(jīng)過(guò)連續(xù)的一輪 也就是一個(gè)episode 就完成了一場(chǎng)游戲的采集。?

將獎(jiǎng)勵(lì)加起來(lái), 就是大R

我們的目標(biāo)是讓大R變得越大越好。?

這是actor按照某個(gè)路線的概率。

?最后的組合概率。 也就是得到某一個(gè)結(jié)果的概率。?

當(dāng)然這條路線也會(huì)對(duì)應(yīng)一個(gè)大R。??

?當(dāng)然 對(duì)于同一個(gè)actor, 我們會(huì)進(jìn)行很多個(gè)episode。 這樣的話得到不同的路線\tau

?對(duì)應(yīng)不同的獎(jiǎng)勵(lì)R(\tau) 乘加起來(lái)就是當(dāng)前的actor 平均能得到的獎(jiǎng)勵(lì)了, 也就能評(píng)價(jià)當(dāng)前actor的好壞。?

?右邊這種寫法也是可以,?\tau? 服從pxita這樣的分布, 然后每個(gè)對(duì)應(yīng)一個(gè)R, 得到一個(gè)期望,我們更新模型的目的就是讓這個(gè)平均的R越大越好。

?所以求R對(duì)參數(shù)的梯度,這里的R(\tau)不需要可微

由于右邊只有p_ \theta與參數(shù)相關(guān), 因此轉(zhuǎn)化為對(duì)p_ \theta?的微分

?

?上下同乘p_ \theta\tau

?

?變?yōu)檫@個(gè)。 因?yàn)閷?duì)log求導(dǎo) 后面那一項(xiàng)。?

轉(zhuǎn)為分布形式。??

?然后通過(guò)采樣來(lái)模擬分布。?

?帶入上面的p_ \theta\tau)公式, 乘法就轉(zhuǎn)為加法了。?

?直觀理解, 前面的R為正, 則增加后面這個(gè)S到A映射的幾率, 通過(guò)更新模型參數(shù)。?

通過(guò)這兩個(gè)式子, 我們就可以更新模型了。 問(wèn)題是 第二個(gè)式子后面那一堆是從哪里來(lái)的呢??

事實(shí)上就是通過(guò)actor和環(huán)境互動(dòng)得來(lái)的。 我們一直玩actor,得到很多個(gè)結(jié)果。?

actor的操作一般是從softmax里采樣出來(lái)的。?

然后求softmax結(jié)果對(duì)參數(shù)的梯度, 然后乘上獎(jiǎng)勵(lì)就可以了。?

我們會(huì)發(fā)現(xiàn) 這個(gè)R(\tau)? 是對(duì)一個(gè)episode里所有sample的動(dòng)作都起作用,

也就是說(shuō), 只要這一輪游戲的獎(jiǎng)勵(lì)是好的, 在這場(chǎng)游戲里所有做過(guò)的動(dòng)作都會(huì)增加概率。?

?所以加上時(shí)間t, 只計(jì)算動(dòng)作后面的獎(jiǎng)勵(lì)分?jǐn)?shù)。?

?然后乘上一個(gè)discount。 discount 預(yù)示了一個(gè)動(dòng)作的有效時(shí)間, 比如, discount很大的時(shí)候, 一個(gè)動(dòng)作可以考慮未來(lái)很多步的收益。

把現(xiàn)在的這個(gè)R-b? 寫作一個(gè)優(yōu)勢(shì)函數(shù) A , 他是與模型\theta相關(guān)的。?

現(xiàn)在學(xué)了理論知識(shí), 我們要實(shí)戰(zhàn)通過(guò)代碼來(lái)學(xué)習(xí)一下了。、?

李宏毅HW12

首先是李宏毅老師的HW12。 助教放的代碼, 我猜測(cè)是PG方法, 我們看下。?

聲明了一個(gè)網(wǎng)絡(luò),來(lái)產(chǎn)生策略。 輸入是8維向量, 因?yàn)榄h(huán)境給出的接口是8維向量。

輸出是4維向量, 因?yàn)榭赡艿牟僮饔?種。 可以看到最后還經(jīng)過(guò)了softmax。?

?agent是模型的代理, 里面定義了模型的訓(xùn)練,保存等功能。?

理論運(yùn)行五輪游戲, 也就是五個(gè)episode。?

等下看看這倆。??

環(huán)境重置, 然后步數(shù)也都重置。?

?

?對(duì)于當(dāng)前的環(huán)境state, sample一個(gè)動(dòng)作。?

?

?action_prob是四個(gè)動(dòng)作的幾率。?

?categorical : 按類別賦值。? 這里按照概率賦值, 之后就可以按概率來(lái)采樣。?

采樣到了動(dòng)作1.?

?

?這里的log_Prob是對(duì)action的概率取對(duì)數(shù), 以e為底。

因?yàn)閍ction1的概率為0.2368 因此取對(duì)數(shù)prob為-1.4404

?把這一步輸入進(jìn)環(huán)境, 得到下一個(gè)環(huán)境的狀態(tài), 這一步的獎(jiǎng)勵(lì), 和是否為最后一個(gè)動(dòng)作。

?這個(gè)注釋已經(jīng)解釋了, 我們就是這樣得到了每一對(duì)動(dòng)作的概率值的對(duì)數(shù)。?

?

會(huì)記錄每一步的reward 和?每一個(gè)eposide的reward和, 還會(huì)記錄最后一步的reward。?

對(duì)最后一步的reward和總rewarrd求平均。??

?將每一步的reward 歸一化。?

?傳入那個(gè)操作的概率對(duì)數(shù)和每一步的獎(jiǎng)勵(lì), 更新模型。 我們看看。?

?因?yàn)閘oss要向小優(yōu)化, 所以這里前面加了負(fù)號(hào)。 最后求和。

?更新模型, 回傳梯度。?

這里可以看出 和公式是一模一樣的。?

我們參考的第二個(gè)代碼來(lái)自于蘑菇書。 這本書一樣?

?在sample 也是從分布中采樣, 上面用的是softmax, 這里是伯努利。

        state_pool, action_pool, reward_pool = self.memory.sample()state_pool, action_pool, reward_pool = list(state_pool), list(action_pool), list(reward_pool)# Discount rewardrunning_add = 0for i in reversed(range(len(reward_pool))):if reward_pool[i] == 0:running_add = 0else:running_add = running_add * self.gamma + reward_pool[i]reward_pool[i] = running_add# Normalize rewardreward_mean = np.mean(reward_pool)reward_std = np.std(reward_pool)for i in range(len(reward_pool)):reward_pool[i] = (reward_pool[i] - reward_mean) / reward_std# Gradient Desentself.optimizer.zero_grad()for i in range(len(reward_pool)):state = state_pool[i]action = Variable(torch.FloatTensor([action_pool[i]]))reward = reward_pool[i]state = Variable(torch.from_numpy(state).float())probs = self.policy_net(state)m = Bernoulli(probs)loss = -m.log_prob(action) * reward  # Negtive score function x reward# print(loss)loss.backward()self.optimizer.step()self.memory.clear()

這事更新模型的代碼。?

第一步, 先采樣一組action結(jié)果。應(yīng)該是一個(gè)\tau?的一組結(jié)果(一個(gè)episode)

這里是乘以那個(gè)時(shí)間參數(shù)γ。 從后往前乘, 越向后乘的越多。??

歸一化。

?

和上面一樣, 也是對(duì)action的概率取對(duì)數(shù), 乘以reward。? 但是伯努利的sample 的action是兩個(gè)值。 不知道為什么。?

不管怎么樣, 我們大概知道PG的做法了。 就是算出來(lái)各個(gè)操作的概率, 然后放在一個(gè)分布里sample。 然后要對(duì)sample出來(lái)的操作的概率取對(duì)數(shù) 然后乘上它的獎(jiǎng)勵(lì)。 乘以一個(gè)負(fù)號(hào), 最小化它。

代碼在這里 :?

https://github.com/datawhalechina/easy-rl/blob/master/notebooks/PolicyGradient.ipynb

https://colab.research.google.com/github/ga642381/ML2021-Spring/blob/main/HW12/HW12_ZH.ipynb#scrollTo=bIbp82sljvAt

http://www.risenshineclean.com/news/82.html

相關(guān)文章:

  • 做網(wǎng)站的公司有前途嗎/如何制作網(wǎng)站和網(wǎng)頁(yè)
  • 免費(fèi)建站的站點(diǎn)網(wǎng)站/游戲推廣是什么工作
  • 無(wú)錫企業(yè)網(wǎng)站seo/百度廣告投訴電話
  • 網(wǎng)站代碼怎么改/個(gè)人在線做網(wǎng)站免費(fèi)
  • 網(wǎng)站首頁(yè)html/怎樣打百度人工客服熱線
  • 深圳市企業(yè)網(wǎng)站建設(shè)價(jià)格/整合營(yíng)銷理論主要是指
  • 個(gè)人主頁(yè)頁(yè)面/seo優(yōu)化招商
  • 工信部網(wǎng)站備案查詢步驟詳解/公司網(wǎng)站
  • 做航模的網(wǎng)站/網(wǎng)銷怎么做
  • 網(wǎng)站pv統(tǒng)計(jì)方法/推廣策劃方案
  • tornado 做網(wǎng)站/seo刷詞工具在線
  • 網(wǎng)站建設(shè)和維護(hù)合同/湖南seo優(yōu)化首選
  • 淘寶網(wǎng)站建設(shè)哪個(gè)類目/seo公司
  • 做網(wǎng)站怎么偷源碼做網(wǎng)站/阿里seo排名優(yōu)化軟件
  • 電商網(wǎng)站建設(shè)與運(yùn)營(yíng)/網(wǎng)站管理
  • 文學(xué)投稿網(wǎng)站平臺(tái)建設(shè)/好f123網(wǎng)站
  • 做網(wǎng)站策劃需要用什么軟件/bt磁力搜索引擎在線
  • 沈陽(yáng)網(wǎng)站建設(shè)制作公司/友情鏈接怎么設(shè)置
  • 學(xué)校資源網(wǎng)站的建設(shè)方案/東莞seo推廣機(jī)構(gòu)帖子
  • 建設(shè)部資質(zhì)上報(bào)系統(tǒng)網(wǎng)站/重慶百度推廣優(yōu)化
  • 南昌網(wǎng)站建設(shè)哪家好/什么軟件可以推廣自己的產(chǎn)品
  • 個(gè)人網(wǎng)站 作品/站長(zhǎng)之家工具
  • 吳謹(jǐn)含廠家不愿做網(wǎng)站/平臺(tái)網(wǎng)站開發(fā)公司
  • 網(wǎng)站項(xiàng)目策劃書實(shí)例/網(wǎng)絡(luò)推廣深圳有效渠道
  • wordpress 支持html5/網(wǎng)站標(biāo)題算關(guān)鍵詞優(yōu)化嗎
  • 在京東上怎樣做網(wǎng)站/免費(fèi)平臺(tái)推廣
  • 阿里自助建站平臺(tái)/網(wǎng)站優(yōu)化公司收費(fèi)
  • 如何建立一個(gè)網(wǎng)站分享教程/推廣賺傭金的軟件排名
  • 網(wǎng)站設(shè)計(jì)寬屏/品牌策略有哪些
  • 網(wǎng)站建設(shè)系統(tǒng)哪個(gè)好/seo點(diǎn)擊排名軟件營(yíng)銷工具