中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

寧波做網(wǎng)站定制客戶管理軟件crm排名

寧波做網(wǎng)站定制,客戶管理軟件crm排名,廊坊建網(wǎng)站外包,游戲app軟件開發(fā)公司貝爾曼公式 前言1、Motivating examples2、state value3、Bellman equation:Derivation4、Bellman equation:Matrix-vector form4、Bellman equation:Solve the state value5、Action value 前言 本文來自西湖大學(xué)趙世鈺老師的B站視頻。本節(jié)課主要介紹貝爾曼公式。 本節(jié)課概要…

貝爾曼公式

    • 前言
    • 1、Motivating examples
    • 2、state value
    • 3、Bellman equation:Derivation
    • 4、Bellman equation:Matrix-vector form
    • 4、Bellman equation:Solve the state value
    • 5、Action value

前言

本文來自西湖大學(xué)趙世鈺老師的B站視頻。本節(jié)課主要介紹貝爾曼公式。
本節(jié)課概要:本節(jié)課需要抓住兩個內(nèi)容,state value 和 the Bellman equation。本次大綱如下:

在這里插入圖片描述

1、Motivating examples

在這里插入圖片描述
return就是有多條軌跡,沿著這些軌跡可以得到很多的rewards,把這些rewards求和,就得到return。為什么return這么重要呢?通過上圖三個例子來做介紹,上面三幅圖的環(huán)境是一樣的,s4是目標(biāo),s2是forbidden area,白色的是accessible area。這三幅圖不同的是在狀態(tài)s1上的策略是不同的,第一幅圖在s1會往下走,第二幅圖在s1會往右走,第三幅圖在s1有50%的概率往下走,50%的概率往右走,在其他位置上,它們的策略是一樣的。
因此,我們需要回答,從s1出發(fā),哪一個策略是最好的,哪一個策略是最差的,從直觀上來說,第一幅圖的策略是最好的,第二幅圖的策略是最差的,第三幅圖的策略不好也不差。因?yàn)榈谝环鶊D從s1出發(fā)不會進(jìn)入到forbidden area,第二幅圖會直接進(jìn)入forbidden area,第三幅圖有50%的概率進(jìn)入到forbidden area。那么我們可以用數(shù)學(xué)來描述這一種直觀,數(shù)學(xué)工具就是這個return。return之所以重要,是因?yàn)樗嬖V我們哪個策略好,哪個策略壞,即它能夠評估策略。
下面我們分別來計算這三個例子對應(yīng)的return:
在這里插入圖片描述
對于第一幅圖,從s1到s3,得到的reward為0,從s3到s4得到的reward為γ乘以1,然后就會一直呆在s4,得到的結(jié)果如上圖。同樣的方法我們可以得到第二幅圖和第三幅圖對應(yīng)的return。策略3對應(yīng)的return實(shí)際上就是我們接下來要學(xué)的state value。
在這里插入圖片描述
在這里插入圖片描述
下面做個總結(jié):
在這里插入圖片描述
下面進(jìn)一步來講一下return如何計算。
考慮從不同狀態(tài)出發(fā),計算的return。用vi表示從狀態(tài)si出發(fā)得到的return。有兩種方法,第一種方法為:
在這里插入圖片描述
第二種方法為:
在這里插入圖片描述
v1就是從s1出發(fā),到達(dá)s2之后,就相當(dāng)于從s2出發(fā)了,從s2出發(fā)一定得到的是v2,因此v1可以寫成上述形式,依次類推。
但同樣也面臨著一些問題,在計算時我們要求解v,但還得事先知道v,這個好像陷入了一個不可能解決的問題??此坪孟駸o法解決,但如果我們用數(shù)學(xué)的話,就可以解決了,首先我們將上圖中的式子寫成矩陣和向量的形式:
在這里插入圖片描述
在這里插入圖片描述
這是一個比較簡單的,特別是針對確定性問題的貝爾曼公式,后面會更加正式地介紹一般化地貝爾曼公式。但這個公式也告訴我們,一個狀態(tài)地value實(shí)際上依賴于其他狀態(tài)地value,這個就是bootstrapping想法;另外就是matrix-vector form也是非常重要地,就是我們只看一個公式是沒辦法解決的,但我們把所有的公式全都組合到一起,得到一個matrix-vector form就很容易求出來。
下面我們在做一個例子來加深理解:
在這里插入圖片描述

2、state value

這一部分介紹state value概念。為了介紹state value,我們首先引入一些符號:
在這里插入圖片描述
首先看單步的,St是當(dāng)前狀態(tài),在當(dāng)前狀態(tài)下采取的動作是At,得到的下一個reward是Rt+1,跳到下一個狀態(tài)是St+1。t指的是當(dāng)前時刻,t+1指的是下一時刻。
在這里插入圖片描述
St、At、Rt+1都是隨機(jī)變量,這也就意味著我們可以求解它們的期望。這樣單步的過程可以推廣到多步的trajectory。下圖中的Gt也是一個隨機(jī)變量。
在這里插入圖片描述
有了以上基礎(chǔ),我們可以來定義state value了:在這里插入圖片描述

第一點(diǎn):state value function 是關(guān)于狀態(tài)s的函數(shù),從不同的s出發(fā),得到的軌跡不同,顯然得到的discount return也不同,求平均也是不同的;第二點(diǎn):state value function是一個策略的函數(shù),顯然不同的策略會得到不同的軌跡,不同的軌跡又會得到不同的return,進(jìn)而會得到不同的state value。最后一點(diǎn)是,這個state value不僅僅是一個數(shù)值的value,它也代表一種價值,當(dāng)一個state value比較大的時候,就代表這個狀態(tài)是比較有價值的,因?yàn)閺倪@個狀態(tài)出發(fā),我們會得到更多的return。
最后來回答這樣一個問題:state value和return有什么區(qū)別?return是針對單個trajectory求的return,而state value是對多個trajectory得到的return再求平均值,如果我們從一個狀態(tài)出發(fā),有可能得到多個trajectory,此時return和state value是有區(qū)別的,但是如果我們從一個狀態(tài)出發(fā),一切都是確定性的,也就是說只能得到一條trajectory,此時從那個狀態(tài)出發(fā)得到的return和state value是一樣的。
下面我們來看一個例子:
在這里插入圖片描述
上述三幅圖分別對應(yīng)三個策略,假設(shè)從左到右分別是π1、π2、π3,接下來我們計算在這三個不同策略下,同一個狀態(tài)s1的state value。計算vπ1(s1)、vπ2(s1)、vπ3(s1)可知,第一幅圖對應(yīng)的策略是最好的。(上圖所舉例子是求確定性的trajectory下的state value)

3、Bellman equation:Derivation

我們首先來學(xué)習(xí)的是如何來推到貝爾曼公式。本小節(jié)重點(diǎn)如下:
在這里插入圖片描述
總結(jié):我們要學(xué)會用貝爾曼公式計算上節(jié)中提到的state value,貝爾曼公式用一句話可以概況來說就是它描述了不同狀態(tài)的state value之間的關(guān)系。

在這里插入圖片描述
首先考慮這樣一個trajectory,從狀態(tài)St出發(fā),采取動作At,得到Rt+1和St+1,以此類推,得到了上圖中的一個trajectory。這樣的一個trajectory可以計算它的discounted return Gt,從上圖推導(dǎo)后的公式來看,Gt就等于我立刻能得到的immediate reward Rt+1,再加上從下一時刻出發(fā)得到的Gt+1乘以discount rate γ。
在這里插入圖片描述
從上圖可以看出,state value可以用藍(lán)色的兩個期望來表示,分別計算這兩個期望就能得到貝爾曼公式。下圖就是第一個期望的計算方法:
在這里插入圖片描述
第一項(xiàng)期望實(shí)際上就是immediate rewards的mean,第二項(xiàng)的期望公式見下圖:
在這里插入圖片描述
第二項(xiàng)是從當(dāng)前狀態(tài)s出發(fā)所得到的下一時刻的return的mean。從當(dāng)前狀態(tài)出發(fā),可以有多個選擇,可以跳到s撇,跳到不同s撇的概率是p(s撇|s),跳到s撇得到的期望值是E(Gt+1|St=s,St+1=s撇),E(Gt+1|St=s,St+1=s撇)指的是當(dāng)前狀態(tài)是s,下一時刻狀態(tài)是s撇,計算從下一個狀態(tài)出發(fā),所得到的return的mean。E(Gt+1|St=s,St+1=s撇)中的St=s是可以去掉的,因?yàn)槲乙呀?jīng)知道了下一個狀態(tài)是s撇,就不用關(guān)心之前是什么狀態(tài)了。E(Gt+1|St+1=s撇)就是針對s撇的state value,用vπ(s撇)。從s到s撇的概率p(s撇|s)就是從狀態(tài)s出發(fā),選取不同的動作a的概率,乘以當(dāng)前狀態(tài)下采取動作a得到s撇的概率,不同動作a求和就是p(s撇|s)。
總之,第二個期望就是未來rewards的一個均值。
在這里插入圖片描述
至此,我們就可以給出貝爾曼公式的表達(dá)式了:
在這里插入圖片描述
上圖中的公式就是貝爾曼公式,它實(shí)際上描述了不同狀態(tài)的state value之間的關(guān)系。公式左邊是s的state value,右邊是s撇的state value。另外,這個式子包含兩項(xiàng),一項(xiàng)是immediate reward,另一項(xiàng)是future reward。上述式子應(yīng)該是對狀態(tài)空間中所有的狀態(tài)都成立的,所以,如果我們有n個狀態(tài),我們就會有n個這樣的式子,通過n個這樣的式子,我們就可以把state value給求解出來,但我們通常就寫上述一個式子,大家千萬不要以為貝爾曼公式就只有這一個式子。

在這里插入圖片描述
狀態(tài)值如何計算呢?vπ(s)依賴于vπ(s撇),而vπ(s撇)又依賴于其它狀態(tài)值,看起來似乎沒辦法計算,這其實(shí)就是bootstrapping,我們可以用矩陣來進(jìn)行計算。另外,這個式子依賴于很多概率,π(a|s)是policy,貝爾曼公式是依賴于概率的,我們要把state value給計算出來,實(shí)際上我們現(xiàn)在正在做的事情就叫policy evaluation,就是去evaluation這個policy是好是壞。
在這里插入圖片描述
上圖中的綠色箭頭就是策略π。
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
如果假設(shè)γ=0.9,得到的結(jié)果見上圖。state value實(shí)際上是代表了他的價值,如果一個狀態(tài)價值高,說明了這個狀態(tài)是值得我們往那個方向走的,在上圖中,為什么s2,s3,s4的價值高呢,是因?yàn)樗麄冸xtarget area是比較近的,而s1離得較遠(yuǎn)。計算得到這個狀態(tài)值之后,我們就可以去改進(jìn)這個策略,慢慢的我們就可以得到最優(yōu)的策略。
在這里插入圖片描述
在這里插入圖片描述

4、Bellman equation:Matrix-vector form

在上節(jié)中,我們介紹了貝爾曼公式的推導(dǎo),這節(jié)來介紹貝爾曼公式的矩陣和向量形式。
在這里插入圖片描述
在這里插入圖片描述

rπ(s)是從當(dāng)前狀態(tài)出發(fā),得到了所有immediate reward的平均值。上式紅色畫的意思是展開相乘。
在這里插入圖片描述
上圖中,[Pπ]ij代表第i行第j列的元素是從si跳到sj的概率,[Pπ]ij這個矩陣也被稱為狀態(tài)轉(zhuǎn)移矩陣

在這里插入圖片描述

上圖是當(dāng)n=4時,我所得到的matrix-vector 形式,上圖中的Pπ就是狀態(tài)轉(zhuǎn)移矩陣。在舉一個例子,見下圖:
在這里插入圖片描述

4、Bellman equation:Solve the state value

在這里插入圖片描述
首先我們來回答一下為什么要求解state value,實(shí)際上給定一個policy,然后我會列出來它的一個貝爾曼公式,再進(jìn)一步求解貝爾曼公式得到state value,這樣的一個過程實(shí)際上叫做policy evaluation。policy evaluation是強(qiáng)化學(xué)習(xí)中非常關(guān)鍵的一個問題,因?yàn)槲覀冎挥腥ピu價一個策略到底好還是不好,我們才能進(jìn)一步的去改進(jìn)它,最后在找到最優(yōu)的策略,所以求解貝爾曼公式進(jìn)而得到state value是非常重要的一個問題。
在這里插入圖片描述
求state value我們給出兩種解決方案,第一種就是用求逆矩陣的方法直接求解,但是這種方法通常不會使用,因?yàn)楫?dāng)狀態(tài)空間特別大的時候,矩陣的維度也會特別大,求逆的計算量也會特別大,所以實(shí)際當(dāng)中我們使用的是迭代的方法。iterative solution方法就是從一開始隨機(jī)猜一個vπ,記為v0,把這個v0帶入到上圖紅色箭頭所指的式子中,因?yàn)閞π和Pπ都是可以事先知道的,所以可以計算得到v1,然后再把v1帶到右邊,就又可以得到v2,依次類推,就會得到序列{v0,v1,v2,…vk},實(shí)際上我們可以證明當(dāng)k趨近于無窮的時候,vk就收斂到了vπ,這個vπ就是真實(shí)的state value。為什么vk會收斂到vπ呢?下面是證明。
在這里插入圖片描述
證明的思路是定義vk與vπ之間的誤差,證明這個誤差趨近于0即可。下面我們通過例子來進(jìn)一步說明。
在這里插入圖片描述
上圖是兩個比較好的policy,可以看到得到的狀態(tài)值均為正,并且我們還可以看出,不同的策略可以得到相同的value值。下面我們在看兩個不好的policy。
在這里插入圖片描述
通過以上例子可以得出,我們可以計算state value來評價一個策略究竟是好還是壞。

5、Action value

在前幾節(jié),我們介紹了state value,以及描述state value的貝爾曼公式,下面我們將從state value轉(zhuǎn)向action value。
在這里插入圖片描述
state value和action value有什么區(qū)別與聯(lián)系呢?state value指的是agent從一個狀態(tài)出發(fā),所得到的average return。action value指的是agent從一個狀態(tài)出發(fā)并且選擇一個action之后得到的average return。
為什么要關(guān)注action value:實(shí)際上我們一直討論的是強(qiáng)化學(xué)習(xí)中的策略,策略指的是在一個狀態(tài)我要選擇什么樣的action,action有很多,具體選擇哪一個action就是通過action value來判斷,action value大的意味著采取該action能夠得到更多的reward。
在這里插入圖片描述
由上圖可知,state value可以和action value建立聯(lián)系。有很多個action,在當(dāng)前狀態(tài)下,采取其中一個action的概率為π(a|s),乘以采取該動作后得到的average return。與π(a|s)相乘的那一項(xiàng)就是action value。
在這里插入圖片描述
在這里插入圖片描述
下面通過一個例子來理解action value:
上圖中策略已經(jīng)通過綠色箭頭畫出來了。
在這里插入圖片描述
下面做一個總結(jié):

在這里插入圖片描述
state value滿足貝爾曼公式,貝爾曼公式刻畫了state value之間的公式,是求解state value的一個工具,上圖是它的elementwise form,就是對每一個狀態(tài)都存在這樣一個式子。

http://www.risenshineclean.com/news/46799.html

相關(guān)文章:

  • 建設(shè)網(wǎng)站軟件下載html做一個簡單的網(wǎng)頁
  • 常州網(wǎng)站建設(shè)推廣網(wǎng)絡(luò)營銷公司全網(wǎng)推廣公司
  • 做網(wǎng)站和自媒體哪個好seo全稱是什么意思
  • 做設(shè)計網(wǎng)站模塊的網(wǎng)站杭州網(wǎng)絡(luò)優(yōu)化公司排名
  • 做網(wǎng)站月度總結(jié)如何做品牌推廣方案
  • 嵌入式工程師月薪多少域名查詢seo
  • 有沒有網(wǎng)站可以做地圖seo關(guān)鍵詞快速排名介紹
  • 網(wǎng)站建設(shè)軟件的英文被忽悠去做網(wǎng)銷了
  • 網(wǎng)站子網(wǎng)頁怎么做網(wǎng)站怎么優(yōu)化關(guān)鍵詞
  • 汽車之家網(wǎng)站是怎么做的網(wǎng)絡(luò)營銷論文題目
  • seo關(guān)于網(wǎng)站b站2023推廣網(wǎng)站
  • 做任務(wù)領(lǐng)禮品的網(wǎng)站關(guān)鍵詞點(diǎn)擊排名系統(tǒng)
  • 手機(jī)軟件卸載了怎么恢復(fù)合肥seo快排扣費(fèi)
  • 用dw做的十二星座網(wǎng)站免費(fèi)百度貼吧入口
  • 可以做設(shè)計兼職的網(wǎng)站有哪些工作百度一下就知道百度首頁
  • 程序員做博彩類的網(wǎng)站犯法嗎長尾關(guān)鍵詞有哪些
  • 怎么做網(wǎng)站調(diào)研軟文寫作的三個要素
  • 網(wǎng)站建設(shè)與搜索杭州百度代理公司
  • 建站哪家好要認(rèn)定興田德潤seo優(yōu)化排名推廣
  • 政府門戶網(wǎng)站建設(shè)工作總結(jié)杭州seo博客有哪些
  • 信譽(yù)好的邢臺做網(wǎng)站瀏陽廖主任打人案
  • 邢臺網(wǎng)站制作報價多少錢seo研究中心倒閉
  • p2p網(wǎng)站開發(fā)的多少錢太原seo招聘
  • 做動態(tài)網(wǎng)站不需要DW嗎推廣技巧
  • 織夢cms收費(fèi)seo優(yōu)化網(wǎng)站的注意事項(xiàng)
  • 泉州seo網(wǎng)站建設(shè)費(fèi)用品牌建設(shè)
  • 上海高端網(wǎng)站開發(fā)公司網(wǎng)絡(luò)推廣公司電話
  • 北京做兼職從哪個網(wǎng)站好企業(yè)網(wǎng)頁設(shè)計報價
  • 建設(shè)網(wǎng)站上傳軟件海淀區(qū)seo引擎優(yōu)化
  • 應(yīng)持續(xù)抓好二級網(wǎng)站的建設(shè)工作新站整站快速排名