中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

<dfn id="klu02"><nav id="klu02"><center id="klu02"></center></nav></dfn>

當(dāng)前位置：首頁(yè) > news >正文

linux如何架設(shè)網(wǎng)站貴陽(yáng)網(wǎng)絡(luò)推廣排名

news 2025/7/4 6:42:08

linux如何架設(shè)網(wǎng)站,貴陽(yáng)網(wǎng)絡(luò)推廣排名,字體怎么安裝wordpress,溫州網(wǎng)站建設(shè)免費(fèi)咨詢(xún)本章是整個(gè)課程中，算法與方法的第一章，應(yīng)該是最簡(jiǎn)單的入門(mén)方法。上一章講到了貝爾曼最優(yōu)方程，其目的是計(jì)算出最優(yōu)狀態(tài)值，從而確定對(duì)應(yīng)的最優(yōu)策略。而壓縮映射理論推出了迭代算法對(duì)初始值V0賦一個(gè)隨機(jī)的初始值，算法最…

本章是整個(gè)課程中，算法與方法的第一章，應(yīng)該是最簡(jiǎn)單的入門(mén)方法。

上一章講到了貝爾曼最優(yōu)方程，其目的是計(jì)算出最優(yōu)狀態(tài)值，從而確定對(duì)應(yīng)的最優(yōu)策略。

而壓縮映射理論推出了迭代算法

對(duì)初始值V0賦一個(gè)隨機(jī)的初始值，算法最終總會(huì)找到這個(gè)最優(yōu)狀態(tài)值與最優(yōu)策略，就是上一章講到的穩(wěn)定點(diǎn)，這個(gè)方法就叫做值迭代法（value? iteration）。

那么如何實(shí)現(xiàn)這個(gè)值迭代算法呢？首先選擇貝爾曼最優(yōu)方程的矩陣-向量形式。

接著算法進(jìn)行迭代，每個(gè)迭代周期內(nèi)進(jìn)行兩步操作。第一步叫做策略升級(jí)，利用現(xiàn)有策略對(duì)應(yīng)參數(shù)，計(jì)算出其中的最優(yōu)策略記作下個(gè)時(shí)間點(diǎn)的策略Pi_k+1。

第二步叫做值的升級(jí)，利用第一步新得到的最優(yōu)策略，對(duì)現(xiàn)有的值進(jìn)行升級(jí)。

這里的Vk不是狀態(tài)值，因?yàn)樗灰欢M(mǎn)足貝爾曼方程（原文這樣寫(xiě)，我也沒(méi)明白為啥不一定滿(mǎn)足）

這里是采用矩陣-向量的形式進(jìn)行值迭代的理論分析，具體的算法實(shí)現(xiàn)，還是用基于元素的方式來(lái)完成。在基于元素的方式下，第一步策略升級(jí)的公式，可以寫(xiě)成如下這樣，向下的大括號(hào)整體上是行為值（Action?Value，第二章的內(nèi)容）

策略更新的本質(zhì)就是將每個(gè)狀態(tài)下的行為，都修改成行為值最大的那個(gè)，可以看出這是個(gè)基于貪心思路的策略。

第二步的值升級(jí)公式，在基于元素的形式下，可以寫(xiě)成如下形式

因?yàn)椴捎秘澬牡乃悸?#xff0c;這個(gè)新的值V_k+1等價(jià)于最優(yōu)的行為值（行為值最大的行為，采用的概率為100%，其余的為0%，就能得到最大值）。

整個(gè)計(jì)算的流程如下所示，依次計(jì)算各對(duì)應(yīng)的變量

值迭代算法的偽代碼（沒(méi)仔細(xì)看）

第二種算法叫做策略迭代法（Policy iteration algorithm），該算法也是分為兩步。初始情況下，給一個(gè)隨機(jī)的策略Pi_0。第一步是對(duì)這個(gè)策略進(jìn)行性能的量化，計(jì)算出狀態(tài)值。

第二步叫做策略改進(jìn)，逐狀態(tài)更新對(duì)應(yīng)的行為。

整個(gè)策略迭代法的計(jì)算順序如下所示，其中PE為策略估計(jì)，PI是策略提升。策略迭代算法本質(zhì)上是在策略估計(jì)中，嵌入了另一個(gè)迭代算法。

策略迭代算法的實(shí)現(xiàn)與值迭代算法類(lèi)似，都是采用基于元素的方式。策略迭代算法的策略評(píng)估，其基于元素的方法如下所示：

迭代的終止條件為j的值足夠大（即迭代足夠多的次數(shù)），或者迭代的過(guò)程中，前后兩次計(jì)算得到的狀態(tài)值差異足夠小。

第二步策略改進(jìn)的基于元素的方法如下所示

當(dāng)然需要的操作跟矩陣-向量形式一樣，都是先找尋最大行為值，再更新策略里的相關(guān)行為。

策略迭代的偽代碼如下（也沒(méi)仔細(xì)看）

下面討論的是值迭代法和策略迭代法之間的關(guān)系。下面是兩個(gè)算法的整體情況，都是分兩步進(jìn)行。策略迭代的初始是一個(gè)隨機(jī)的策略，值迭代的初始是一個(gè)隨機(jī)的狀態(tài)值。

兩個(gè)算法本質(zhì)上很相似，用；流水線的形式表示可以看出，兩個(gè)算法的開(kāi)頭相差一步，后面都是一樣的。

用表格的形式展示，可以看到算法的細(xì)節(jié)，后面的每一步雖然名字不同，但是計(jì)算的內(nèi)容大部分是一樣的。

第四步的計(jì)算是有差異的，策略迭代這里是要用一個(gè)無(wú)窮步迭代算法計(jì)算這個(gè)策略值，而值迭代這里只是一個(gè)一步的迭代運(yùn)算。

所以在做策略迭代的時(shí)候，這里要設(shè)置一個(gè)閾值j，迭代次數(shù)大于J的迭代操作予以舍棄，這叫做截?cái)嗟牟呗缘惴?#xff08;truncated policy iteration algorithm）。

這個(gè)是截?cái)嗟牟呗缘惴ǖ膫未a

下面是幾個(gè)算法測(cè)試的性能

既然有三種算法，那么在使用中又是如何取舍的？我問(wèn)了豆包，結(jié)果貼在了下面?？偟膩?lái)說(shuō)就是，簡(jiǎn)單問(wèn)題選值迭代，復(fù)雜問(wèn)題下資源（時(shí)間資源、計(jì)算資源）充足選策略迭代，資源不充足選基于截?cái)嗟牟呗缘?

http://www.risenshineclean.com/news/36974.html

相關(guān)文章：

微信小程序視頻網(wǎng)站開(kāi)發(fā)教程靜態(tài)網(wǎng)頁(yè)制作

網(wǎng)站建設(shè)圖片怎么做免費(fèi)b站網(wǎng)頁(yè)推廣

網(wǎng)站做數(shù)據(jù)分析的意義北京百度推廣投訴電話

做網(wǎng)站營(yíng)業(yè)執(zhí)照經(jīng)營(yíng)范圍怎么填寫(xiě)免費(fèi)seo排名軟件

做公司網(wǎng)站用什么系統(tǒng)上海疫情最新數(shù)據(jù)

淮安市哪里可以做網(wǎng)站開(kāi)魯視頻

wordpress頁(yè)面教程視頻小紅書(shū)搜索優(yōu)化

商標(biāo) 做網(wǎng)站是幾類(lèi)站長(zhǎng)工具天美傳媒

雅安交通建設(shè)集團(tuán)網(wǎng)站太原網(wǎng)絡(luò)推廣公司哪家好

鄭州網(wǎng)站建設(shè)網(wǎng)站制作百度官網(wǎng)推廣平臺(tái)電話

輕云服務(wù)器多個(gè)網(wǎng)站今日頭條鄭州頭條新聞

泉州網(wǎng)站制作專(zhuān)業(yè)產(chǎn)品怎么做市場(chǎng)推廣

網(wǎng)站建設(shè)的常用詞搜收錄網(wǎng)

動(dòng)態(tài)購(gòu)物網(wǎng)站開(kāi)發(fā)源代碼西地那非能提高硬度嗎

做網(wǎng)站能拿多少錢(qián)淘寶指數(shù)查詢(xún)工具

電信服務(wù)器做網(wǎng)站網(wǎng)絡(luò)整合營(yíng)銷(xiāo)理論案例

織夢(mèng)響應(yīng)式茶葉網(wǎng)站流感用什么藥最好

網(wǎng)站access數(shù)據(jù)怎么做朝陽(yáng)seo推廣

專(zhuān)業(yè)鄭州做網(wǎng)站的公司百度關(guān)鍵詞seo優(yōu)化

網(wǎng)站域名授權(quán)怎么做什么叫seo

佛山網(wǎng)站建設(shè)收費(fèi)標(biāo)準(zhǔn)seo索引擎優(yōu)化

國(guó)內(nèi)哪里在搞建設(shè)長(zhǎng)沙快速排名優(yōu)化

中小企業(yè)服務(wù)肇慶seo

電腦瀏覽器網(wǎng)頁(yè)打不開(kāi)是什么原因關(guān)鍵詞seo排名優(yōu)化軟件

網(wǎng)站委托書(shū)找誰(shuí)做市場(chǎng)推廣怎么做

湖南網(wǎng)站建設(shè)競(jìng)價(jià)推廣教程

一個(gè)網(wǎng)站域名多少錢(qián)做網(wǎng)站的軟件叫什么

dw網(wǎng)站站點(diǎn)建立后怎么做推廣工作的流程及內(nèi)容

四川住房和城鄉(xiāng)建設(shè)九大員網(wǎng)站百度知道官網(wǎng)手機(jī)版

為什么多個(gè)網(wǎng)站域名有同個(gè)網(wǎng)站備案活動(dòng)策劃

<menu id="7oacv"></menu><menuitem id="7oacv"><cite id="7oacv"><source id="7oacv"></source></cite></menuitem>

<dfn id="7oacv"><mark id="7oacv"><legend id="7oacv"></legend></mark></dfn>