中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

嗶哩嗶哩免費(fèi)安裝論壇seo網(wǎng)站

嗶哩嗶哩免費(fèi)安裝,論壇seo網(wǎng)站,邯鄲 網(wǎng)站建設(shè),百度seo排名優(yōu)化軟件化:狀態(tài) : 動作 : 獎勵 : 獎勵函數(shù) : 非終結(jié)狀態(tài) : 全部狀態(tài),包括終結(jié)狀態(tài) : 動作集合 ? : 獎勵集合 : 轉(zhuǎn)移矩陣 : 離散時間步 : 回合內(nèi)最終時間步 : 時間t的狀態(tài) : 時間t動作 : 時間t的獎勵,通常為隨機(jī)量,且由和決定 : 回報 : n步…

s,{s}'?:狀態(tài)

a?: 動作

r?: 獎勵

R?: 獎勵函數(shù)

S?: 非終結(jié)狀態(tài)

S^{+}?: 全部狀態(tài),包括終結(jié)狀態(tài)

A?: 動作集合

? : 獎勵集合

\boldsymbol{P}?: 轉(zhuǎn)移矩陣

t?: 離散時間步

T?: 回合內(nèi)最終時間步

S_t?: 時間t的狀態(tài)

A_t?: 時間t動作

R_t?: 時間t的獎勵,通常為隨機(jī)量,且由A_tS_t決定

G_t?: 回報

G_t^{(n)}?: n步回報

G_t^{\lambda}?:?\lambda?折扣回報

\pi?: 策略

\pi(s)?: 根據(jù)確定性策略\pi, 狀態(tài)s時所采取的動作

\pi(a|s)?: 根據(jù)隨機(jī)性策略\pi, 在狀態(tài)s時執(zhí)行動作a的概率

p({s}',r|s,a)?: 根據(jù)狀態(tài)s和動作a,使得狀態(tài)轉(zhuǎn)移成{s}'且獲得獎勵r的概率

p({s}'|s,a)?: 根據(jù)轉(zhuǎn)態(tài)s和動作a,使得狀態(tài)轉(zhuǎn)移成{s}'的概率

v_{\pi}(s)?: 根據(jù)策略\pi,狀態(tài)s的價值(回報期望)

v_{\star}(s)?: 根據(jù)最優(yōu)策略,狀態(tài)s的價值

q_{\pi}(s,a)?: 動作價值函數(shù),根據(jù)策略\pi,在狀態(tài)s時執(zhí)行動作a的價值

q_{\star}(s,a)?: 根據(jù)最優(yōu)策略,在狀態(tài)s時執(zhí)行動作a的價值

V,V_t?: 狀態(tài)價值函數(shù)的估計(jì)

Q,Q_t?: 動作價值函數(shù)的估計(jì)

\tau?:?\tau = (S_0, A_0,R_0,S_1,A_1,R_1,...)?狀態(tài),動作,獎勵的軌跡

\gamma?:?\gamma \in [0,1]?, 獎勵折扣因子

\epsilon?: 根據(jù)\epsilon-貪婪策略,執(zhí)行隨機(jī)動作的概率

\alpha, \beta?: 步長

\lambda?: 資格跡的衰減速率

R(\tau)?是軌跡\tau\gamma-折扣化回報,R(\tau)=\sum_{t=0}^{\infty}\gamma^{t}R_t

p(\tau)?是軌跡的概率:

? ? ? ? p(\tau) = \rho_0(S_0)\prod_{t=0}^{T-1}p(S_{t+1}|S_t),對于\rho_0(S_0)是起始狀態(tài)分布

? ? ? ??p(\tau|\pi)=\rho_0(S_0)\prod_{t=0}^{T-1}p(S_{t+1}|S_t,A_t)\pi(A_t|S_t),\rho_0(S_0)是起始狀態(tài)分布

J(\pi)是策略\pi的期望回報,J(\pi)=\int_{\tau}p(\tau|\pi)R(\tau)=\mathbb{E}_{\tau\sim\pi}[R(\tau)]: 對于這個公式的理解為策略\pi可以產(chǎn)生很多軌跡\tau,產(chǎn)生每個軌跡的概率為p(\tau|\pi),而每個軌跡\tau的獎勵為R(\tau),所以總的策略\pi可以獲得的獎勵的期望就是所有軌跡的概率乘與該軌跡的獎勵的積分。對于右邊期望描述的就是對于服從策略\pi的軌跡\tau,求軌跡的獎勵值R(\tau)的期望。

\pi^{\star}是最優(yōu)策略,最優(yōu)策略就是能夠獲得最大的策略期望的策略,即為\pi^{\star}=arg max_{\pi}J(\pi)

v_{\pi}(s)是狀態(tài)s在策略\pi下的價值,也就是這個狀態(tài)能夠獲得的期望回報。

v_{\star}(s)是狀態(tài)s在最優(yōu)策略\pi下的價值,也就是這個狀態(tài)能夠在最優(yōu)策略下獲得的期望回報,最終都轉(zhuǎn)化為了獎勵的計(jì)算。

q_{\pi}(s,a)是狀態(tài)s在策略\pi下執(zhí)行動作a的價值(期望回報)

q_{\star}(s,a)是狀態(tài)s在最優(yōu)策略下執(zhí)行動作a的價值(期望回報)

V(s)是對MRP(Markov Reward Process)中從狀態(tài)s開始的狀態(tài)價值的估計(jì)

V^{\pi}(s)是對MDP(Markov Decision Process)中在線狀態(tài)價值函數(shù)的估計(jì),給定策略\pi,有期望回報:

V^{\pi}(s)\approx v_{\pi}(s)=\mathbb{E}_{\tau\sim\pi}[R(\tau)|S_0=s]

其中MP,MRP,MDP參考:MP、MRP、MDP(第二節(jié)) - 知乎 (zhihu.com)

Q^{\pi}(s,a)是對MDP下在線動作價值函數(shù)的估計(jì),給定策略?\pi,有期望回報:

?Q^{\pi}(s,a)\approx q_{\pi}(s,a)=\mathbb{E}_{\tau\sim\pi}[R(\tau)|S_0=s,A_0=a]

V^{\star}(s)是對MDP下最優(yōu)動作價值函數(shù)的估計(jì),根據(jù)最優(yōu)策略,有期望回報:

V^{\star}(s)\approx v_{\star}(s) = max_{\pi}\mathbb{E}_{\tau\sim\pi}[R(\tau)|S_0=s]

Q^{\star}(s,a)是對MDP下最優(yōu)動作價值函數(shù)的估計(jì),根據(jù)最優(yōu)策略,有期望回報:

Q^{\star}(s,a)\approx q_{\star}(s,a) = max_{\pi}\mathbb{E}_{\tau \sim\pi}[R(\tau)|S_0=s,A_0=a]

A^{\pi}(s,a)是對狀態(tài)s和動作a的優(yōu)勢估計(jì)函數(shù):

A^{\pi}(s,a)=Q^{\pi}(s,a) - V^{\pi}(s)?

?在線狀態(tài)價值函數(shù)v_{\pi}(s)和在線動作價值函數(shù)q_{\pi}(s,a)的關(guān)系:

v_{\pi}(s)=\mathbb{E}_{a\sim\pi}[q_{\pi}(s,a)]

如上圖所示:狀態(tài)s對應(yīng)多個動作a1,a2,執(zhí)行一個動作之后,又可能轉(zhuǎn)移到多個狀態(tài)中去,?所以v_{\pi}(s)的值就是在狀態(tài)s之下能夠采取的所有動作的動作價值函數(shù)的期望,即為

v_{\pi}(s)=\mathbb{E}_{a\sim\pi}[q_{\pi}(s,a)]

另一種寫法:

?v_{\pi}(s)=\sum_{a \in A}\pi(a|s)q_{\pi}(s,a)

這里寫的是v_{\pi}(s)q_{\pi}(s,a)之間的關(guān)系,同理另外一種轉(zhuǎn)換關(guān)系是,執(zhí)行一個動作之后得到的及時獎勵值+下一個狀態(tài)的狀態(tài)價值函數(shù)的折扣,即為

v_{\pi}(s)=\sum_{a\in A}\pi(a|s)(R_s^a+\gamma\sum_{s'\in S}P_{ss'}^av_{\pi}(s')),?

P_{ss'}^a是在狀態(tài)s執(zhí)行動作a轉(zhuǎn)移到s'的概率,這樣就把v_{\pi}(s)v_{\pi}(s')關(guān)聯(lián)起來了。另一種寫法如下:

v_{\pi}(s)=\mathbb{E}_{a\sim \pi(\cdot |s),s'\sim p(\cdot |s,a)}[R(s,a)+\gamma v_{\pi}(s')]

最優(yōu)狀態(tài)價值函數(shù)v_{\star}(s)和最優(yōu)動作價值函數(shù)q_{\star}(s,a)的關(guān)系是:

v_{\star}(s)=max_{a}q_{\star}(s,a)

上面的公式很好理解,在最優(yōu)策略下,給一個狀態(tài)s,這個策略肯定能夠選到最好的動作去執(zhí)行,那么當(dāng)前狀態(tài)的價值函數(shù)就不是去求所有動作價值函數(shù)的期望了,而是就等于動作價值函數(shù)最大的那個值。

a_{\star}(s)是在最優(yōu)策略下,狀態(tài)s執(zhí)行的最優(yōu)動作

a_{\star}(s)=argmax_{a}q_{\star}(s,a)

?在線動作價值函數(shù)的貝爾曼方程:

q_{\pi}(s,a)=\mathbb{E}_{s' \sim p(\cdot |s,a)}[R(s,a)+\gamma\mathbb{E}_{a' \sim \pi(\cdot|s')}[q_{\pi}(s',a')]]

另外一種寫法是:

q_{\pi}(s,a)=R_s^a+\gamma\sum_{s' \in S}p_{ss'}^{a}\sum_{a' \in A}\pi(a'|s')q_{\pi}(s',a')?

上面是?q_{\pi}(s,a)q_{\pi}(s',a')的關(guān)系,下面是q_{\pi}(s,a)v_{\pi}(s')的關(guān)系:

q_{\pi}(s,a)=R_s^a+\gamma\sum_{s' \in S}P_{ss'}^av_{\pi}(s')

另外一種寫法是:

q_{\pi}(s,a)=R_s^a+\gamma\mathbb{E}_{s' \sim p(\cdot|s,a)}[v_{\pi}(s')]?

?最優(yōu)狀態(tài)價值函數(shù)的貝爾曼方程:

v_{\star}(s)=max_a \mathbb{E}_{s' \sim p(\cdot | s,a)}[R(s,a)+\gamma v_{\star}(s')]

?另外一種寫法是:

v_{\star}(s)=max_aR_s^a+\gamma \sum_{s' \in S}P_{ss'}^av_{\star}(s')

?最優(yōu)動作價值函數(shù)的貝爾曼方程:

q_{\star}(s,a)=\mathbb{E}_{s' \sim p(\cdot |s,a)}[R(s,a)+\gamma max_{a'}q_{\star}(s',a')]

另外一種寫法是:

q_{\star}(s,a)=R_s^a+\gamma \sum_{s' \in S}P_{ss'}^amax_{a'}q_{\star}(s',a')?

?

http://www.risenshineclean.com/news/6233.html

相關(guān)文章:

  • 深圳網(wǎng)站建設(shè)創(chuàng)造者網(wǎng)站關(guān)鍵詞排名外包
  • 網(wǎng)站標(biāo)頭設(shè)計(jì)濟(jì)南百度公司
  • 設(shè)計(jì)友好的網(wǎng)站四川百度推廣排名查詢
  • 長春網(wǎng)站制作軟件seo快速優(yōu)化方法
  • b2b網(wǎng)站建設(shè)排名長春網(wǎng)站建設(shè)團(tuán)隊(duì)
  • 網(wǎng)站小程序制作公司seo是誰
  • 湘潭交通網(wǎng)站網(wǎng)頁查詢
  • 江蘇優(yōu)化網(wǎng)站公司代理推廣
  • 做資訊類網(wǎng)站需要特殊資質(zhì)嗎怎樣推廣app別人才愿意下載
  • 做視頻課程網(wǎng)站免費(fèi)收錄網(wǎng)站推廣
  • 學(xué)校網(wǎng)站策劃書網(wǎng)站之家
  • 蕪湖尚格網(wǎng)絡(luò)科技有限公司北京網(wǎng)站seo招聘
  • wordpress v4.1廣州市口碑seo推廣
  • 小學(xué)教學(xué)活動設(shè)計(jì)方案模板桔子seo網(wǎng)
  • 純靜態(tài)網(wǎng)站怎么做社區(qū)推廣方法有哪些
  • 深圳建網(wǎng)站seo中國十大it培訓(xùn)機(jī)構(gòu)排名
  • wordpress調(diào)用指定菜單關(guān)鍵詞排名手機(jī)優(yōu)化軟件
  • 網(wǎng)站制作 北京網(wǎng)站建設(shè)公司seo搜索鋪文章
  • 鄭州網(wǎng)站建設(shè)zhuotop網(wǎng)絡(luò)新聞發(fā)布平臺發(fā)稿
  • 請舉例說明什么是網(wǎng)絡(luò)營銷seo是做什么工作的
  • 上海seo網(wǎng)站優(yōu)化百度推廣代運(yùn)營
  • 建筑八大員證報考網(wǎng)站seo排名影響因素主要有
  • wordpress301不能用免費(fèi)網(wǎng)站推廣優(yōu)化
  • 管理咨詢公司有哪些如何網(wǎng)頁優(yōu)化
  • 珠海商城網(wǎng)站制作西安百度首頁優(yōu)化
  • 網(wǎng)站開發(fā)公司網(wǎng)絡(luò)推廣的作用
  • 廣西網(wǎng)站建設(shè)推廣報價網(wǎng)絡(luò)營銷軟文范例
  • 盤龍區(qū)網(wǎng)絡(luò)推廣群排名優(yōu)化軟件官網(wǎng)
  • 尋找徐州網(wǎng)站開發(fā)武漢標(biāo)兵seo
  • 做網(wǎng)站做本地服務(wù)器網(wǎng)上怎么注冊公司免費(fèi)的