最好網(wǎng)站建設(shè)公司哪家好重慶seo排名優(yōu)化費(fèi)用
on-policy的定義:behavior policy和target-policy相同的是on-policy,不同的是off-policy。
behavior policy:采樣數(shù)據(jù)的策略,影響的是采樣出來s,a的分布。
target policy:就是被不斷迭代修改的策略。
如果是基于深度的算法,那么非常好分辨:目標(biāo)函數(shù)里面一定有s和a的期望,而計(jì)算梯度的時(shí)候使用了SGD,把一個(gè)采樣作為了期望的值。但是這里面還有一個(gè)隱含的限制就是采樣遵循的分布必須是s,a的分布。
因此分辨是否是on-policy的,只需要看目標(biāo)函數(shù)。如果目標(biāo)函數(shù)中s,a的分布和策略相關(guān)的,那么一定是on-policy的,如果是策略無關(guān)的,那么一定是off-policy的。
比如DQN的目標(biāo)函數(shù):
這里一個(gè)(s,a)對(duì)看成一個(gè)隨機(jī)變量,服從均勻分布,因此分布和策略無關(guān)(至于為什么s,a是均勻分布,那個(gè)是算法自己假設(shè)的),因此采樣的時(shí)候需要用到experience replay,使得不管什么策略采樣得到的reward,都變成均勻分布的。
因此用了experice replay之后,隨便什么策略采樣,雖然采樣出來s,a服從那個(gè)策略的分布,但是經(jīng)過experice replay之后還是變成了均勻分布。
比如PG:
這里面的隨機(jī)變量是s, 而s是服從stationary distribution,就是agent出現(xiàn)在這個(gè)state的次數(shù)形成的分布。而這個(gè)分布和策略pi是相關(guān)的,因此是on-policy的(改變策略之后,agent出現(xiàn)的概率也改變了)
比如DPG:
這里面的分布d是一個(gè)常數(shù)(這是為了計(jì)算梯度方便),因此DPG中s,a的采樣和策略無關(guān),是off-policy的。
比如PPO:
就是一個(gè)期望+一個(gè)類似正則項(xiàng)的東西,而非常明顯看出來,這個(gè)期望是服從策略theta’的,也就是說s,a分布和策略相關(guān),因此是on-policy的。
簡(jiǎn)單說下PPO:PPO用兩個(gè)網(wǎng)絡(luò)表示策略,一個(gè)是theta’一個(gè)是theta,用theta’網(wǎng)絡(luò)的策略采樣reward,得到的reward給theta的網(wǎng)絡(luò)梯度下降??雌饋碓趺从昧藘蓚€(gè)策略? 其實(shí)兩個(gè)策略最后慢慢收斂到一起的,是一個(gè)策略。如果是off-policy是完全和策略無關(guān)的。