中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

web優(yōu)秀網站h5案例分享今日最新國際新聞

web優(yōu)秀網站h5案例分享,今日最新國際新聞,wordpress修改界面,北京南站最新消息分類目錄:《深入理解強化學習》總目錄 學習 學習(Learning)和規(guī)劃(Planning)是序列決策的兩個基本問題。 如下圖所示,在強化學習中,環(huán)境初始時是未知的,智能體不知道環(huán)境如何工作&a…

分類目錄:《深入理解強化學習》總目錄


學習

學習(Learning)和規(guī)劃(Planning)是序列決策的兩個基本問題。 如下圖所示,在強化學習中,環(huán)境初始時是未知的,智能體不知道環(huán)境如何工作,它通過不斷地與環(huán)境交互,逐漸改進策略。
學習

規(guī)劃

如下圖圖所示,在規(guī)劃中,環(huán)境是已知的,智能體被告知了整個環(huán)境的運作規(guī)則的詳細信息。智能體能夠計算出一個完美的模型,并且在不需要與環(huán)境進行任何交互的時候進行計算。智能體不需要實時地與環(huán)境交互就能知道未來環(huán)境,只需要知道當前的狀態(tài),就能夠開始思考,來尋找最優(yōu)解。

在下圖所示的游戲中,規(guī)則是確定的,我們知道選擇左之后環(huán)境將會產生什么變化。我們完全可以通過已知的規(guī)則,來在內部模擬整個決策過程,無需與環(huán)境交互。 一個常用的強化學習問題解決思路是,先學習環(huán)境如何工作,也就是了解環(huán)境工作的方式,即學習得到一個模型,然后利用這個模型進行規(guī)劃。
規(guī)劃

探索和利用

在強化學習里面,探索和利用是兩個很核心的問題。 探索即我們去探索環(huán)境,通過嘗試不同的動作來得到最佳的策略(帶來最大獎勵的策略)。 利用即我們不去嘗試新的動作,而是采取已知的可以帶來很大獎勵的動作。 在剛開始的時候,強化學習智能體不知道它采取了某個動作后會發(fā)生什么,所以它只能通過試錯去探索,所以探索就是通過試錯來理解采取的動作到底可不可以帶來好的獎勵。利用是指我們直接采取已知的可以帶來很好獎勵的動作。所以這里就面臨一個權衡問題,即怎么通過犧牲一些短期的獎勵來理解動作,從而學習到更好的策略。

下面舉一些探索和利用的例子。 以選擇餐館為例,利用是指我們直接去我們最喜歡的餐館,因為我們去過這個餐館很多次了,所以我們知道這里面的菜都非??煽凇?探索是指我們用手機搜索一個新的餐館,然后去嘗試它的菜到底好不好吃。我們有可能對這個新的餐館感到非常不滿意,這樣錢就浪費了。 以做廣告為例,利用是指我們直接采取最優(yōu)的廣告策略。探索是指我們換一種廣告策略,看看這個新的廣告策略可不可以得到更好的效果。 以挖油為例,利用是指我們直接在已知的地方挖油,這樣可以確保挖到油。 探索是指我們在一個新的地方挖油,這樣就有很大的概率可能不能發(fā)現(xiàn)油田,但也可能有比較小的概率可以發(fā)現(xiàn)一個非常大的油田。 以玩游戲為例,利用是指我們總是采取某一種策略。比如,我們玩《街頭霸王》游戲的時候,采取的策略可能是蹲在角落,然后一直出腳。這個策略很可能可以奏效,但可能遇到特定的對手就會失效。 探索是指我們可能嘗試一些新的招式,有可能我們會放出“大招”來,這樣就可能“一招斃命”。

與監(jiān)督學習任務不同,強化學習任務的最終獎勵在多步動作之后才能觀察到,這里我們不妨先考慮比較簡單的情形:最大化單步獎勵,即僅考慮一步動作。需注意的是,即便在這樣的簡單情形下,強化學習仍與監(jiān)督學習有顯著不同,因為智能體需通過試錯來發(fā)現(xiàn)各個動作產生的結果,而沒有訓練數(shù)據(jù)告訴智能體應當采取哪個動作。

想要最大化單步獎勵需考慮兩個方面:一是需知道每個動作帶來的獎勵,二是要執(zhí)行獎勵最大的動作。若每個動作對應的獎勵是一個確定值,那么嘗試遍所有的動作便能找出獎勵最大的動作。然而,更一般的情形是,一個動作的獎勵值是來自一個概率分布,僅通過一次嘗試并不能確切地獲得平均獎勵值。

實際上,單步強化學習任務對應于一個理論模型,即K-臂賭博機(K-armed Bandit)。 K-臂賭博機也被稱為多臂賭博機(Multi-armed Bandit,MAB) 。如下圖所示,K-臂賭博機有K個搖臂,賭徒在投入一個硬幣后可選擇按下其中一個搖臂,每個搖臂以一定的概率吐出硬幣,但這個概率賭徒并不知道。賭徒的目標是通過一定的策略最大化自己的獎勵,即獲得最多的硬幣。 若僅為獲知每個搖臂的期望獎勵,則可采用僅探索(Exploration-only)法:將所有的嘗試機會平均分配給每個搖臂(即輪流按下每個搖臂),最后以每個搖臂各自的平均吐幣概率作為其獎勵期望的近似估計。若僅為執(zhí)行獎勵最大的動作,則可采用僅利用(Exploitation-only)法:按下目前最優(yōu)的(即到目前為止平均獎勵最大的)搖臂,若有多個搖臂同為最優(yōu),則從中隨機選取一個。

顯然,僅探索法能很好地估計每個搖臂的獎勵,卻會失去很多選擇最優(yōu)搖臂的機會;僅利用法則相反,它沒有很好地估計搖臂期望獎勵,很可能經常選不到最優(yōu)搖臂。因此,這兩種方法都難以使最終的累積獎勵最大化。

事實上,探索(估計搖臂的優(yōu)劣)和利用(選擇當前最優(yōu)搖臂)這兩者是矛盾的,因為嘗試次數(shù)(總投幣數(shù))有限,加強了一方則自然會削弱另一方,這就是強化學習所面臨的探索-利用窘境(Exploration-Exploitation Dilemma)。顯然,想要累積獎勵最大,則必須在探索與利用之間達成較好的折中。
K-臂賭博機圖示

參考文獻:
[1] 張偉楠, 沈鍵, 俞勇. 動手學強化學習[M]. 人民郵電出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 強化學習(第2版)[M]. 電子工業(yè)出版社, 2019
[3] Maxim Lapan. 深度強化學習實踐(原書第2版)[M]. 北京華章圖文信息有限公司, 2021
[4] 王琦, 楊毅遠, 江季. Easy RL:強化學習教程 [M]. 人民郵電出版社, 2022

http://www.risenshineclean.com/news/47764.html

相關文章:

  • 淮北哪有做淘寶網站網盤資源大全
  • 網站建設公司專業(yè)高質量外鏈
  • 企業(yè)服務平臺網站建設數(shù)據(jù)交換平臺
  • 織夢修改網站背景顏色湛江今日頭條
  • 商丘做網站哪家好如何刷關鍵詞指數(shù)
  • 邵陽競價網站建設設計怎么創(chuàng)建域名
  • 深圳哪家建設網站公司好國內最大的搜索引擎
  • 做玩具訂制網站好處站長之家seo綜合查詢
  • 有沒有專門做外貿的網站互聯(lián)網廣告管理暫行辦法
  • 泉州做網站的公司濰坊網站關鍵詞推廣
  • 網站開發(fā)網站設計人力資源培訓
  • 青海網站設計高端凌哥seo技術博客
  • 天津網站建設公騰訊廣告推廣平臺
  • 重慶網站建設招標全球十大搜索引擎排名
  • 日常網站維護得物app的網絡營銷分析論文
  • 揚州網站制作媒體營銷平臺
  • 做民宿注冊的網站seo好找工作嗎
  • 微信小程序開發(fā)者模式石家莊seo培訓
  • 做php網站阿里云服務器企業(yè)營銷策劃實訓報告
  • 怎么自己做砍價網站市場營銷互聯(lián)網營銷
  • 廣東圓心科技網站開發(fā)如何用網站模板建站
  • 網站公司怎么做業(yè)務濟寧百度推廣公司
  • 劉金鵬做網站外鏈工廠
  • 瑋科網站建設人力資源培訓與開發(fā)
  • 個人電腦做網站打不開數(shù)據(jù)庫百度賬號登錄官網
  • 做網站需不需要營業(yè)執(zhí)照seo引擎優(yōu)化是什么
  • 做相冊哪個網站好用嗎長沙seo網站管理
  • 手機端網站思路市場營銷一般在哪上班
  • 品牌策劃ppt電腦優(yōu)化大師哪個好
  • 武漢搭建網站seo短視頻入口