嗶哩嗶哩免費(fèi)安裝論壇seo網(wǎng)站
?:狀態(tài)
?: 動作
?: 獎勵
?: 獎勵函數(shù)
?: 非終結(jié)狀態(tài)
?: 全部狀態(tài),包括終結(jié)狀態(tài)
?: 動作集合
? : 獎勵集合
?: 轉(zhuǎn)移矩陣
?: 離散時間步
?: 回合內(nèi)最終時間步
?: 時間t的狀態(tài)
?: 時間t動作
?: 時間t的獎勵,通常為隨機(jī)量,且由
和
決定
?: 回報
?: n步回報
?:?
?折扣回報
?: 策略
?: 根據(jù)確定性策略
, 狀態(tài)s時所采取的動作
?: 根據(jù)隨機(jī)性策略
, 在狀態(tài)s時執(zhí)行動作a的概率
?: 根據(jù)狀態(tài)s和動作a,使得狀態(tài)轉(zhuǎn)移成
且獲得獎勵r的概率
?: 根據(jù)轉(zhuǎn)態(tài)s和動作a,使得狀態(tài)轉(zhuǎn)移成
的概率
?: 根據(jù)策略
,狀態(tài)s的價值(回報期望)
?: 根據(jù)最優(yōu)策略,狀態(tài)s的價值
?: 動作價值函數(shù),根據(jù)策略
,在狀態(tài)s時執(zhí)行動作a的價值
?: 根據(jù)最優(yōu)策略,在狀態(tài)s時執(zhí)行動作a的價值
?: 狀態(tài)價值函數(shù)的估計(jì)
?: 動作價值函數(shù)的估計(jì)
?:?
?狀態(tài),動作,獎勵的軌跡
?:?
?, 獎勵折扣因子
?: 根據(jù)
-貪婪策略,執(zhí)行隨機(jī)動作的概率
?: 步長
?: 資格跡的衰減速率
?是軌跡
的
-折扣化回報,
?是軌跡的概率:
? ? ? ? ,對于
是起始狀態(tài)分布
? ? ? ??,
是起始狀態(tài)分布
是策略
的期望回報,
: 對于這個公式的理解為策略
可以產(chǎn)生很多軌跡
,產(chǎn)生每個軌跡的概率為
,而每個軌跡
的獎勵為
,所以總的策略
可以獲得的獎勵的期望就是所有軌跡的概率乘與該軌跡的獎勵的積分。對于右邊期望描述的就是對于服從策略
的軌跡
,求軌跡的獎勵值
的期望。
是最優(yōu)策略,最優(yōu)策略就是能夠獲得最大的策略期望的策略,即為
是狀態(tài)s在策略
下的價值,也就是這個狀態(tài)能夠獲得的期望回報。
是狀態(tài)s在最優(yōu)策略
下的價值,也就是這個狀態(tài)能夠在最優(yōu)策略下獲得的期望回報,最終都轉(zhuǎn)化為了獎勵的計(jì)算。
是狀態(tài)s在策略
下執(zhí)行動作a的價值(期望回報)
是狀態(tài)s在最優(yōu)策略下執(zhí)行動作a的價值(期望回報)
是對MRP(Markov Reward Process)中從狀態(tài)s開始的狀態(tài)價值的估計(jì)
是對MDP(Markov Decision Process)中在線狀態(tài)價值函數(shù)的估計(jì),給定策略
,有期望回報:
其中MP,MRP,MDP參考:MP、MRP、MDP(第二節(jié)) - 知乎 (zhihu.com)
是對MDP下在線動作價值函數(shù)的估計(jì),給定策略?
,有期望回報:
?
是對MDP下最優(yōu)動作價值函數(shù)的估計(jì),根據(jù)最優(yōu)策略,有期望回報:
是對MDP下最優(yōu)動作價值函數(shù)的估計(jì),根據(jù)最優(yōu)策略,有期望回報:
是對狀態(tài)s和動作a的優(yōu)勢估計(jì)函數(shù):
?
?在線狀態(tài)價值函數(shù)和在線動作價值函數(shù)
的關(guān)系:
如上圖所示:狀態(tài)s對應(yīng)多個動作a1,a2,執(zhí)行一個動作之后,又可能轉(zhuǎn)移到多個狀態(tài)中去,?所以的值就是在狀態(tài)s之下能夠采取的所有動作的動作價值函數(shù)的期望,即為
另一種寫法:
?
這里寫的是和
之間的關(guān)系,同理另外一種轉(zhuǎn)換關(guān)系是,執(zhí)行一個動作之后得到的及時獎勵值+下一個狀態(tài)的狀態(tài)價值函數(shù)的折扣,即為
,?
是在狀態(tài)s執(zhí)行動作a轉(zhuǎn)移到s'的概率,這樣就把
和
關(guān)聯(lián)起來了。另一種寫法如下:
最優(yōu)狀態(tài)價值函數(shù)和最優(yōu)動作價值函數(shù)
的關(guān)系是:
上面的公式很好理解,在最優(yōu)策略下,給一個狀態(tài)s,這個策略肯定能夠選到最好的動作去執(zhí)行,那么當(dāng)前狀態(tài)的價值函數(shù)就不是去求所有動作價值函數(shù)的期望了,而是就等于動作價值函數(shù)最大的那個值。
是在最優(yōu)策略下,狀態(tài)s執(zhí)行的最優(yōu)動作
?在線動作價值函數(shù)的貝爾曼方程:
另外一種寫法是:
?
上面是?和
的關(guān)系,下面是
和
的關(guān)系:
另外一種寫法是:
?
?最優(yōu)狀態(tài)價值函數(shù)的貝爾曼方程:
?另外一種寫法是:
?最優(yōu)動作價值函數(shù)的貝爾曼方程:
另外一種寫法是:
?
?