中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

qq手機版排名優(yōu)化是怎么做的

qq手機版,排名優(yōu)化是怎么做的,網(wǎng)站運營的成本,哪個全球購網(wǎng)站做的好處一、介紹 如果強化學(xué)習(xí)代理提供的輸入在訓(xùn)練中未明確定義,則通常表現(xiàn)不佳。一種新方法使 RL 代理能夠正常運行,即使受到損壞、不完整或混亂的輸入的影響也是如此。 “大腦能夠使用來自皮膚的信息,就好像它來自眼睛一樣。我們不是用眼睛看&…

一、介紹

????????如果強化學(xué)習(xí)代理提供的輸入在訓(xùn)練中未明確定義,則通常表現(xiàn)不佳。一種新方法使 RL 代理能夠正常運行,即使受到損壞、不完整或混亂的輸入的影響也是如此。

????????“大腦能夠使用來自皮膚的信息,就好像它來自眼睛一樣。我們不是用眼睛看,也不是用耳朵聽,這些只是受體,視覺和聽覺實際上是在大腦中進行的。

—?保羅·巴赫·麗塔?1

????????人們具有驚人的能力,可以使用一種感官模式(例如,觸覺)來提供通常由另一種感官(例如視覺)收集的環(huán)境信息。這種適應(yīng)能力稱為感覺替代,是神經(jīng)科學(xué)所熟知的現(xiàn)象。雖然困難的適應(yīng)——比如適應(yīng)顛倒看東西,學(xué)習(xí)騎“倒退”自行車,或者通過解釋從舌頭上的電極網(wǎng)格發(fā)出的視覺信息來學(xué)習(xí)“看”——需要數(shù)周、數(shù)月甚至數(shù)年才能掌握,但人們最終能夠適應(yīng)感官替代。

感官替代的例子。Left__:“舌頭展示單元”(Maris 和 Bach-y-Rita,2001?年;圖片:Kaczmarek,2011?年)。圖:“向后的大腦自行車”(TED演講)。

????????相比之下,大多數(shù)神經(jīng)網(wǎng)絡(luò)根本無法適應(yīng)感覺替代。例如,大多數(shù)強化學(xué)習(xí)?(RL) 智能體要求其輸入采用預(yù)先指定的格式,否則它們將失敗。他們期望固定大小的輸入,并假設(shè)輸入的每個元素都具有精確的含義,例如指定位置的像素強度,或狀態(tài)信息,例如位置或速度。在流行的 RL 基準(zhǔn)測試任務(wù)(例如,Ant?或?Cart-pole)中,如果使用當(dāng)前?RL 算法訓(xùn)練的智能體的感官輸入發(fā)生變化,或者如果智能體被饋送到與手頭任務(wù)無關(guān)的額外噪聲輸入,則該智能體將失敗。

????????在?NeurIPS 2021?的焦點論文《作為轉(zhuǎn)換器的感覺神經(jīng)元:用于強化學(xué)習(xí)的排列不變神經(jīng)網(wǎng)絡(luò)》中,我們探討了排列不變神經(jīng)網(wǎng)絡(luò)代理,它要求它們的每個感覺神經(jīng)元(從環(huán)境中接收感覺輸入的受體)弄清楚其輸入信號的含義和上下文,而不是明確假設(shè)固定的含義。我們的實驗表明,這些智能體對包含額外冗余或噪聲信息的觀測值以及損壞和不完整的觀測值具有魯棒性。

??適應(yīng)感覺替換的排列不變強化學(xué)習(xí)代理。左圖:螞蟻的 28 個觀測值的順序每 200 個時間步長隨機洗牌一次。與標(biāo)準(zhǔn)策略不同,我們的策略不受突然置換的輸入的影響。右圖:車桿代理給出了許多冗余的嘈雜輸入(嘗試交互式?Web 演示)。

? ?

????????除了適應(yīng)狀態(tài)觀察環(huán)境中的感官替換(如螞蟻和推車桿示例)之外,我們還表明,這些智能體還可以適應(yīng)復(fù)雜視覺觀察環(huán)境中的感官替換(例如僅使用像素觀察的賽車游戲),并且可以在輸入圖像流不斷重新洗牌時執(zhí)行:

我們將來自 CarRacing 的視覺輸入劃分為一個由小塊組成的 2D 網(wǎng)格,并重新排列它們的順序()。無需任何額外訓(xùn)練,即使原始訓(xùn)練背景被新圖像替換,我們的智能體仍然有效()。

二、方法

????????我們的方法在每個時間步長從環(huán)境中獲取觀察結(jié)果,并將觀察的每個元素輸入到不同但相同的神經(jīng)網(wǎng)絡(luò)(稱為“感覺神經(jīng)元”)中,每個神經(jīng)網(wǎng)絡(luò)彼此之間沒有固定的關(guān)系。隨著時間的流逝,每個感覺神經(jīng)元僅整合來自其特定感覺輸入通道的信息。由于每個感覺神經(jīng)元只接收到全貌的一小部分,因此它們需要通過通信進行自組織,以便出現(xiàn)全局連貫的行為。

?????????觀察點分割的圖示。我們將每個輸入分割成元素,然后將其饋送到獨立的感覺神經(jīng)元。對于輸入通常是一維向量的非視覺任務(wù),每個元素都是一個標(biāo)量。對于視覺任務(wù),我們將每個輸入圖像裁剪成不重疊的斑塊。

????????我們鼓勵神經(jīng)元通過訓(xùn)練它們廣播信息來相互交流。在本地接收信息的同時,每個單獨的感覺神經(jīng)元也在每個時間步連續(xù)廣播輸出信息。這些消息被合并并組合成一個輸出向量,稱為全局潛在代碼,使用類似于?Transformer?架構(gòu)中應(yīng)用的注意力機制。然后,策略網(wǎng)絡(luò)使用全局潛在代碼來生成代理將用于與環(huán)境交互的操作。這個動作也會在下一個時間步長反饋到每個感覺神經(jīng)元中,從而關(guān)閉通信循環(huán)。

?????????置換不變RL方法概述。我們首先為每個單獨的觀察結(jié)果(ot)進入特定的感覺神經(jīng)元(連同智能體先前的動作,一個T-1型).然后,每個神經(jīng)元獨立地產(chǎn)生和廣播一條消息,注意力機制將它們匯總成一個全局潛在代碼(mt),該網(wǎng)絡(luò)提供給代理的下游策略網(wǎng)絡(luò) (π) 以生成代理的操作 at.

????????為什么這個系統(tǒng)排列是不變的?每個感覺神經(jīng)元都是一個相同的神經(jīng)網(wǎng)絡(luò),不僅限于處理來自一個特定感覺輸入的信息。事實上,在我們的設(shè)置中,每個感覺神經(jīng)元的輸入都沒有定義。相反,每個神經(jīng)元必須通過關(guān)注其他感覺神經(jīng)元接收到的輸入來弄清楚其輸入信號的含義,而不是明確地假設(shè)一個固定的含義。這鼓勵智能體將整個輸入作為無序集合進行處理,使系統(tǒng)對其輸入的排列不變。

????????我們使用的特定注意力形式已被證明適用于無序集合。由于我們的系統(tǒng)將輸入視為無序集合,而不是有序列表,因此輸出不會受到感覺神經(jīng)元的排序(以及觀察的順序)的影響,從而獲得排列不變性(我們的論文包括關(guān)于注意力的排列不變性的直觀解釋,供希望更深入的感興趣的讀者使用)。通過將輸入處理為無序集合,而不是固定大小的列表,智能體可以根據(jù)需要使用任意數(shù)量的感覺神經(jīng)元,從而使其能夠處理任意長度的觀察結(jié)果。這兩個特性都將幫助智能體適應(yīng)感官替代。

三、結(jié)果

????????我們在更簡單的狀態(tài)觀察環(huán)境中證明了這種方法的魯棒性和靈活性,其中智能體作為輸入接收的觀察是低維向量,其中包含有關(guān)智能體狀態(tài)的信息,例如其組件的位置或速度。流行的?Ant?運動任務(wù)中的智能體共有 28 個輸入,其中包含包括位置和速度在內(nèi)的信息。在試驗過程中,我們多次對輸入向量的順序進行洗牌,并表明智能體能夠快速適應(yīng)并且仍然能夠向前走。

????????在推車桿中,代理的目標(biāo)是擺動安裝在推車中心的推桿并使其保持平衡。通常,智能體只能看到 5 個輸入,但我們修改了 cartpole 環(huán)境以提供 15 個隨機輸入信號,其中 10 個是純噪聲,其余是來自環(huán)境的實際觀察結(jié)果。代理仍然能夠執(zhí)行任務(wù),這表明系統(tǒng)能夠處理大量輸入并僅處理它認(rèn)為有用的通道。這種靈活性可能有助于處理來自定義不明確的系統(tǒng)的大量未指定數(shù)量的信號,其中大部分是噪聲。

????????我們還將這種方法應(yīng)用于基于視覺的高維環(huán)境,其中觀察是像素圖像流。在這里,我們研究了基于視覺的強化學(xué)習(xí)環(huán)境的屏幕洗牌版本,其中每個觀察幀都被劃分為一個補丁網(wǎng)格,就像一個拼圖一樣,代理必須按洗牌順序處理補丁,以確定要采取的行動方案。為了展示我們基于視覺的任務(wù)方法,我們創(chuàng)建了一個隨機版的Atari Pong。

洗牌的乒乓球結(jié)果。左圖:受過訓(xùn)練的乒乓球特工只使用30%的補丁,與雅達利對手的表現(xiàn)相匹配。右圖:在沒有額外訓(xùn)練的情況下,當(dāng)我們給智能體更多的拼圖時,它的性能就會提高。

????????在這里,代理的輸入是一個可變長度的補丁列表,因此與典型的 RL 代理不同,代理只能從屏幕上“看到”補丁的子集。在拼圖乒乓球?qū)嶒炛?#xff0c;我們在屏幕上隨機抽取補丁給代理,然后在游戲的其余部分修復(fù)這些補丁。我們發(fā)現(xiàn)我們可以丟棄70%的補丁(在這些固定的隨機位置),并且仍然訓(xùn)練代理在對抗內(nèi)置的Atari對手時表現(xiàn)良好。有趣的是,如果我們隨后向代理透露額外的信息(例如,允許它訪問更多的圖像補丁),即使沒有額外的訓(xùn)練,它的性能也會提高。當(dāng)代理收到所有補丁時,按隨機順序,它會在 100% 的時間內(nèi)獲勝,與在查看整個屏幕時接受訓(xùn)練的代理實現(xiàn)相同的結(jié)果。

????????我們發(fā)現(xiàn),通過使用無序觀察在訓(xùn)練過程中施加額外的難度具有額外的好處,例如提高對任務(wù)看不見的變化的泛化,例如當(dāng)賽車訓(xùn)練環(huán)境的背景被新穎的圖像替換時。為了理解為什么智能體能夠泛化到新的背景,我們可視化智能體正在關(guān)注的(隨機)屏幕的補丁。我們發(fā)現(xiàn),觀察中缺乏固定結(jié)構(gòu)似乎鼓勵智能體學(xué)習(xí)環(huán)境中的基本結(jié)構(gòu)(例如,道路邊緣)以最好地執(zhí)行其任務(wù)。我們看到,這些注意力屬性也會轉(zhuǎn)移到測試環(huán)境中,幫助代理將其策略推廣到新的背景。

洗牌的 CarRacing 結(jié)果。智能體已經(jīng)學(xué)會了將注意力(由突出顯示的補丁指示)集中在道路邊界上。左圖:訓(xùn)練環(huán)境。圖:具有新背景的測試環(huán)境。

、結(jié)論

????????這里介紹的排列不變神經(jīng)網(wǎng)絡(luò)代理可以處理定義不清、變化的觀察空間。我們的代理對包含冗余或嘈雜信息的觀察結(jié)果或損壞和不完整的觀察結(jié)果非常可靠。我們相信,置換不變系統(tǒng)為強化學(xué)習(xí)開辟了許多可能性。

????????如果您有興趣了解有關(guān)這項工作的更多信息,我們邀請讀者閱讀我們的互動文章(pdf?版本)或觀看我們的視頻。我們還發(fā)布了代碼來重現(xiàn)我們的實驗。

參考資料:

用于強化學(xué)習(xí)的排列不變神經(jīng)網(wǎng)絡(luò) |大トロ (otoro.net)

archive  | 大トロ (otoro.net)

http://www.risenshineclean.com/news/61986.html

相關(guān)文章:

  • 鄭州建網(wǎng)站多少新聞營銷發(fā)稿平臺
  • 福永附近做網(wǎng)站公司市場營銷手段13種手段
  • html5單頁網(wǎng)站天津關(guān)鍵詞優(yōu)化網(wǎng)站
  • 網(wǎng)站建設(shè)客戶需求分析調(diào)研表seo在線教學(xué)
  • 網(wǎng)絡(luò)規(guī)劃設(shè)計師論文背別人的行么山東seo首頁關(guān)鍵詞優(yōu)化
  • 自學(xué)做網(wǎng)站多久關(guān)鍵字查找
  • 蕪湖做網(wǎng)站哪個公司好快速收錄網(wǎng)
  • 寧波網(wǎng)站建設(shè)公司費用價格百度競價推廣有哪些優(yōu)勢
  • 軟件b2c網(wǎng)站建設(shè)網(wǎng)頁開發(fā)
  • 網(wǎng)站開發(fā)最好用什么軟件公司網(wǎng)頁設(shè)計
  • 現(xiàn)在淘客做網(wǎng)站還行嗎軟件推廣平臺有哪些
  • 做網(wǎng)站銷售的話術(shù)app推廣軟件
  • b2b外貿(mào)網(wǎng)站南昌seo技術(shù)外包
  • 手機做推廣比較好的網(wǎng)站2024年重大政治時事匯總
  • 企業(yè)查天眼查官網(wǎng)福州seo技術(shù)培訓(xùn)
  • 網(wǎng)站開發(fā)畢設(shè)答辯如何seo推廣
  • 淘寶做問卷的網(wǎng)站好seo如何優(yōu)化
  • 圖片搜集網(wǎng)站怎么做2345網(wǎng)址中國最好
  • 畢設(shè)做網(wǎng)站答辯稿百度免費資源網(wǎng)站
  • 工商注冊網(wǎng)寧波seo入門教程
  • 本網(wǎng)站建設(shè)在美國數(shù)據(jù)網(wǎng)站
  • 3g開發(fā)網(wǎng)站seo sem推廣
  • 可以做設(shè)計兼職的網(wǎng)站有哪些工作網(wǎng)絡(luò)營銷步驟
  • 如何看別人網(wǎng)站用什么做的網(wǎng)站首頁制作網(wǎng)站
  • 織夢網(wǎng)站一級目錄十大少兒編程教育品牌
  • 智能家居型網(wǎng)站開發(fā)廣安百度推廣代理商
  • seo網(wǎng)站買電腦速成班短期電腦培訓(xùn)班
  • 購物幫做特惠的網(wǎng)站最簡單的網(wǎng)頁制作
  • 如何優(yōu)化公司的網(wǎng)站熱搜榜百度
  • 視頻網(wǎng)站可以做B2C模式嗎網(wǎng)站自然優(yōu)化