中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

WordPress 團隊管理系統(tǒng)郴州seo外包

WordPress 團隊管理系統(tǒng),郴州seo外包,做網(wǎng)站年入千萬,山西建設(shè)公司網(wǎng)站前言 在此文《UMI——斯坦福刷盤機器人:從手持夾持器到動作預測Diffusion Policy(含代碼解讀)》的1.1節(jié)開頭有提到 機器人收集訓練數(shù)據(jù)一般有多種方式,比如來自人類視頻的視覺演示 有的工作致力于從視頻數(shù)據(jù)——例如YouTube視頻中進行策略學習 即最常見…

前言

在此文《UMI——斯坦福刷盤機器人:從手持夾持器到動作預測Diffusion Policy(含代碼解讀)》的1.1節(jié)開頭有提到

機器人收集訓練數(shù)據(jù)一般有多種方式,比如來自人類視頻的視覺演示

  1. 有的工作致力于從視頻數(shù)據(jù)——例如YouTube視頻中進行策略學習
    即最常見的方法是從各種被動的人類演示視頻中學習,利用被動的人類演示,先前的工作學習了任務(wù)成本函數(shù) [37, 8, 1, 21]、可供性函(affordance function) [2]、密集物體描述符[40, 24, 39]、動作對應(yīng) [33, 28] 和預訓練的視覺表示 [23-R3m: A universal visual representation for robot manipulation,48-Masked visual pre-training for motor control]
  2. 然而,這種方法遇到了一些挑戰(zhàn)
    首先,大多數(shù)視頻演示缺乏明確的動作信息(這對于學習可推廣的策略至關(guān)重要)
    為了從被動的人類視頻中推斷動作數(shù)據(jù),先前的工作采用了手部姿態(tài)檢測器 [44-Mimicplay: Long-horizon imitation learning by watching human play, 1-Human-to-robot imitation in the wild, 38-Videodex: Learning dexterity from internet videos, 28-?Dexmv: Imitation learning for dexterous manipulation from human videos],或?qū)⑷祟愐曨l與域內(nèi)遙操作機器人數(shù)據(jù)結(jié)合以預測動作 [33, 20, 34, 28]

    其次,人類和機器人之間明顯的embodiment(物理本體,有的翻譯為體現(xiàn))差距阻礙了動作轉(zhuǎn)移(the evident embodiment gap between humans and robots hinders action transfer)
    彌合這一差距的努力包括通過手勢重定向?qū)W習人類到機器人的動作映射 [38-Videodex: Learning dexterity from internet videos, 28-Dexmv: Imitation learning for dexterous manipulation from human videos] ,或提取與體現(xiàn)無關(guān)的關(guān)鍵點 [即embodiment-agnostic keypoint,49]
    盡管有這些嘗試,固有的embodiment差異仍然使得從人類視頻到物理機器人的策略轉(zhuǎn)移變得復雜

考慮到「從人類視頻中學習」早已成為機器人的主流訓練方法之一,故打算系統(tǒng)闡述以下這個課題,不然很多朋友可能只是理解其字面意思,但到底具體怎么個模仿學習,則不一定知其里,而通過本文系統(tǒng)的闡述,可以讓大家更深刻的理解模仿學習背后更深的細節(jié)

二方面,上面不是提到了從人類視頻學習中的諸多問題么,那我們也看看該領(lǐng)域的最新進展——比如紐約大學的SeeDo到底有沒解決這些問題呢?

故便有了本文,本文將注意解讀以下這幾篇paper

  • Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos,18 Jan 2021
  • DexMV,12 Aug 2021
  • DexVIP,1 Feb 2022
  • Robotic Telekinesis: Learning a Robotic Hand Imitator by Watching Humans on YouTube,21 Feb 2022
  • R3M: Representations for Robots from Real-World Videos,23 Mar 2022
  • VideoDex,8 Dec 2022
  • MimicPlay,24 Feb 2023?
  • VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model,11 Oct 2024

第一部分 從Learning by Watching、DexMV到DexVIP

1.1?Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos

來自多倫多大學、天津大學、NVIDIA的研究者(Haoyu Xiong, Quanzhou Li, Yun-Chun Chen, Homanga Bharadhwaj, Samarth Sinha, Animesh Garg)發(fā)布了此篇論文:《Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos》

為了從人類視頻中實現(xiàn)物理模仿,作者將問題分解為一系列任務(wù):

  1. 人類到機器人的翻譯
  2. 基于無監(jiān)督關(guān)鍵點的表示學習
  3. 以及3)使用強化學習進行物理模仿

在此,回顧前兩個任務(wù),因為他們的方法是在現(xiàn)有算法基礎(chǔ)上構(gòu)建的

1.1.1 無監(jiān)督的圖像到圖像翻譯到無監(jiān)督關(guān)鍵點檢測

對于無監(jiān)督的圖像到圖像翻譯問題

類似于現(xiàn)有的方法 [9], [10],將人類到機器人翻譯視為無監(jiān)督的圖像到圖像翻譯問題

  1. 具體而言,目標是學習一個模型,將圖像從源域X(例如,人類域)翻譯到目標域Y(例如,機器人域),而無需配對的訓練數(shù)據(jù) [12],[26], [29], [30]
  2. 在作者的方法中,他們采用MUNIT [30] 作為圖像到圖像翻譯網(wǎng)絡(luò)來實現(xiàn)人類到機器人的翻譯
    MUNIT通過假設(shè)圖像表示可以被解構(gòu)為一個域不變的內(nèi)容編碼(由內(nèi)容編碼器E^{c}編碼)和一個域特定的風格編碼(由風格編碼器E^{s}編碼)來學習在兩個域之間翻譯圖像

    內(nèi)容編碼器E_{X}^{c}E_{Y}^{c}在兩個域中是共享的,而兩個域的風格編碼器E_{X}^{S}E_{Y}^{s}則不共享權(quán)重
    為了將圖像從一個域翻譯到另一個域,作者將其內(nèi)容編碼與從另一個域采樣的風格編碼結(jié)合
    且這些翻譯/轉(zhuǎn)換是通過學習生成:與目標域中的圖像無法區(qū)分的圖像來實現(xiàn)的(The translations are learned to generate images that are indistinguishable fromimages in the translated domain)

故,給定來自源域X的圖像x和來自目標域Y的圖像y,在源域中定義對抗性損失\mathcal{L}_{\mathrm{GAN}}^{x}
\mathcal{L}_{\mathrm{GAN}}^{x}=\mathbb{E}\left[\log D_{X}(x)+\log \left(1-D_{X}\left(G_{X}\left(c_{y}, s_{x}\right)\right)\right)\right]

其中

  • c_{y}=E_{Y}^{c}(y)是圖像y的內(nèi)容編碼
  • s_x = E_{X}^{s}(x)是圖像x的風格編碼
  • G_X是一個生成器,其接收內(nèi)容編碼c和風格編碼s作為輸入,并生成與源域中分布相似的圖像
  • D_X是一個判別器,旨在區(qū)分由G_X生成的翻譯圖像和源域中的圖像

此外,目標域中對抗損失\mathcal{L}_{\mathrm{GAN}}^{y}也可以類似地定義

除了對抗損失外,MUNIT還對圖像、內(nèi)容和風格編碼應(yīng)用重構(gòu)損失,以規(guī)范模型學習

  • 對于源域,圖像重構(gòu)損失\mathcal{L}_{\text {rec }}^{x}定義為
    \mathcal{L}_{\text {rec }}^{x}=\mathbb{E}\left[\left\|G_{X}\left(c_{x}, s_{x}\right)-x\right\|\right]
  • 內(nèi)容重建損失\mathcal{L}_{\mathrm{rec}}^{C_{x}}定義為
    \mathcal{L}_{\mathrm{rec}}^{c_{x}}=\mathbb{E}\left[\left\|E_{Y}^{c}\left(G_{Y}\left(c_{x}, s_{y}\right)\right)-c_{x}\right\|\right]
  • 風格重建損失\mathcal{L}_{\mathrm{rec}}^{s_{x}}定義為
    \mathcal{L}_{\text {rec }}^{s_{x}}=\mathbb{E}\left[\left\|E_{X}^{s}\left(G_{X}\left(c_{y}, s_{x}\right)\right)-s_{x}\right\|\right]

目標域中的圖像重建損失\mathcal{L}_{\mathrm{rec}}^{y}、內(nèi)容重建損失\mathcal{L}_{\mathrm{rec}}^{c_{y}}和風格重建損失\mathcal{L}_{\mathrm{rec}}^{s_{y}}可以類似地推導出來

最終,訓練MUNIT的總損失LMUNIT為

\begin{aligned} \mathcal{L}_{\text {MUNIT }} & =\mathcal{L}_{\mathrm{GAN}}^{x}+\mathcal{L}_{\text {GAN }}^{y}+\lambda_{\text {image }}\left(\mathcal{L}_{\text {rec }}^{x}+\mathcal{L}_{\text {rec }}^{y}\right) \\ & +\lambda_{\text {content }}\left(\mathcal{L}_{\text {rec }}^{c_{x}}+\mathcal{L}_{\text {rec }}^{c_{y}}\right)+\lambda_{\text {style }}\left(\mathcal{L}_{\text {rec }}^{s_{x}}+\mathcal{L}_{\text {rec }}^{s_{y}}\right) \end{aligned}

其中\lambda_{\text {image }}、\lambda_{\text {content }}\lambda_{\text {style }}是用于控制各自損失函數(shù)相對重要性的超參數(shù)

對于無監(jiān)督關(guān)鍵點檢測

為了執(zhí)行控制任務(wù),現(xiàn)有方法通常依賴于基于圖像觀測的狀態(tài)表示學習[10], [45]–[48]

  • 然而,圖像到圖像翻譯模型生成的圖像觀測通常只捕捉宏觀特征,而忽略了對下游任務(wù)至關(guān)重要的顯著區(qū)域中的細節(jié)。通過使用特征編碼器對翻譯后的圖像觀測進行編碼來推導狀態(tài)表示會導致次優(yōu)性能
  • 另一方面,現(xiàn)有方法也可能受到圖像到圖像翻譯模型生成的視覺偽影的影響

與這些方法相比,作者利用Transporter[41]在無監(jiān)督的方式下檢測每個翻譯后視頻幀中的關(guān)鍵點。檢測到的關(guān)鍵點形成一種結(jié)構(gòu)化表示,捕捉機器人手臂的姿態(tài)和交互物體的位置,為下游控制任務(wù)提供語義上有意義的信息,同時避免由于圖像到圖像翻譯不完美而導致的視覺偽影的負面影響

為了實現(xiàn)無監(jiān)督關(guān)鍵點檢測的學習,Transporter利用物體在一對視頻幀之間的運動,通過在檢測到的關(guān)鍵點位置傳輸特征,將一個視頻幀轉(zhuǎn)換為另一個視頻幀

  1. 比如,給定兩個視頻幀 xy,Transporter首先使用特征編碼器 \Phi 提取兩個視頻幀的特征圖\Phi(x)\Phi(y),并使用關(guān)鍵點檢測器 \Psi 檢測兩個視頻幀的 K 個二維關(guān)鍵點位置\Psi(x)\Psi(y)
  2. 然后,Transporter 通過在\Psi(x)\Psi(y)中抑制 x 在每個關(guān)鍵點位置附近的特征圖,并將 y\Psi(y) 中每個關(guān)鍵點位置附近的特征圖進行融合,來合成特征圖\hat{\Phi}(x, y)Transporter then synthesizes the feature map Φ(x, y) by suppressing the feature map of x around eachkeypoint location in Ψ(x) and Ψ(y) and incorporating thefeature map of y around each keypoint location in Ψ(y)
    \hat{\Phi}(x, y)=\left(1-\mathcal{H}_{\Psi(x)}\right) \cdot\left(1-\mathcal{H}_{\Psi(y)}\right) \cdot \Phi(x)+\mathcal{H}_{\Psi(y)} \cdot \Phi(y)

    其中\mathcal{H}_{\Psi(\cdot)}是一個高斯熱圖,其峰值集中在\Psi(\cdot)中的每個關(guān)鍵點位置
  3. 接下來,傳輸?shù)奶卣?img referrerpolicy="no-referrer" alt="\hat{\Phi}(x, y)" class="mathcode" src="https://latex.csdn.net/eq?%5Chat%7B%5CPhi%7D%28x%2C%20y%29" />被傳遞到一個精細化網(wǎng)絡(luò)R中,以重建視頻幀y
    然后定義用于訓練Transporter的損失\mathcal{L}_{\text {transporter }}r為

\mathcal{L}_{\text {transporter }}=\mathbb{E}[\|R(\hat{\Phi}(x, y))-y\|]

在下一節(jié)中,作者利用Transporter模型來檢測每個翻譯后的視頻幀的關(guān)鍵點。檢測到的關(guān)鍵點隨后被用作定義獎勵函數(shù)的結(jié)構(gòu)化表示,并作為策略網(wǎng)絡(luò)的輸入,以預測用于與環(huán)境交互的動作

1.1.2 LbW:從人類視頻中學習的改進方法

考慮從人類視頻中學習機器人操作技能的物理模仿任務(wù)。在這種情況下,作者假設(shè)可以訪問一個單一的人類演示視頻V_{X}=\left\{x_{i}^{E}\right\}_{i=1}^{N},長度為N,展示了一個人類執(zhí)行特定任務(wù)(例如,推一個塊)的過程,作者希望機器人從中學習,其中x_{i}^{E} \in \mathbb{R}^{H \times W \times 3}H \times Wx_{i}^{E}的空間大小

作者注意到,人類的動作在他們的設(shè)定中并沒有提供。故作者的目標是開發(fā)一種學習算法,使機器人能夠模仿人類演示視頻V_X中展示的人類行為

為實現(xiàn)這一目標,作者提出了LbW,一個由三個組件組成的框架:

  1. 圖像到圖像的翻譯網(wǎng)絡(luò)T「來自MUNIT [30]」
  2. 關(guān)鍵點檢測器\psi「來自Transporter的關(guān)鍵點檢測器[41]」
  3. 策略網(wǎng)絡(luò)\pi

具體如下圖所示

給定一個人類演示視頻V_{X}和時間t的當前觀測O_{t} \in \mathbb{R}^{H \times W \times 3}

  1. 首先對人類演示視頻V_{X}中的每一幀x_{i}^{E}應(yīng)用圖像到圖像的翻譯網(wǎng)絡(luò)T,并將x_{i}^{E}翻譯為機器人演示視頻幀v_{i}^{E} \in \mathbb{R}^{H \times W \times 3}
  2. 接下來,關(guān)鍵點檢測器\Psi將每個翻譯后的機器人視頻幀v_{i}^{E}作為輸入,并提取基于關(guān)鍵點的表示
    z_{i}^{E}=\Psi\left(v_{i}^{E}\right) \in \mathbb{R}^{K \times 2}
    其中K表示關(guān)鍵點的數(shù)量

    同樣,也對當前觀測O_{t}應(yīng)用關(guān)鍵點檢測器\Psi,以提取基于關(guān)鍵點的表示z_{t}=\Psi\left(O_{t}\right) \in \mathbb{R}^{K \times 2}
  3. 為了計算物理模仿的獎勵,作者定義了一個距離度量d,用于計算當前觀測O_{t}的基于關(guān)鍵點的表示z_t與每個翻譯后的機器人視頻幀v_{i}^{E}的基于關(guān)鍵點的表示z_{i}^{E}之間的距離
    we define adistance metric d that computes the distances between the keypoint-based representation zt of the current observationOt and each of the keypoint-based representations zEi of the translated robot video frames vE
  4. 最后,策略網(wǎng)絡(luò)以當前觀測O的關(guān)鍵點表示z_t作為輸入,預測一個動作a_{t}=\pi\left(z_{t}\right),該動作用于指導機器人與環(huán)境交互

// 待更

1.2?DexMV

21年8月份,來自的研究者提出了DexMV,其對應(yīng)的論文為:《DexMV: Imitation Learning for Dexterous Manipulation from Human Videos》

1.3?DexVIP

http://www.risenshineclean.com/news/2176.html

相關(guān)文章:

  • 自適應(yīng)網(wǎng)站制作類似互推商盟的推廣平臺
  • 做私房蛋糕在哪些網(wǎng)站寫東西關(guān)鍵詞競價排名是什么意思
  • 成都人才網(wǎng)seo關(guān)鍵詞排名系統(tǒng)
  • 邢臺今天的招工信息上海搜索引擎關(guān)鍵詞優(yōu)化
  • 信息服務(wù)類網(wǎng)站怎么做黑馬培訓
  • 深圳網(wǎng)站維護公司企拓客軟件多少錢
  • 安卓手機應(yīng)用商店杭州seo網(wǎng)站
  • 短網(wǎng)址生成源碼下載seo優(yōu)化一般多少錢
  • 找源碼的網(wǎng)站數(shù)字營銷服務(wù)商seo
  • 國外做電商網(wǎng)站有哪些網(wǎng)絡(luò)營銷帶來的效果
  • 室內(nèi)設(shè)計風格東莞seo優(yōu)化公司
  • 江蘇環(huán)泰建設(shè)有限公司網(wǎng)站西安seo主管
  • 在火爐做網(wǎng)站公園坐什么車網(wǎng)絡(luò)營銷圖片
  • 怎么自己建一個網(wǎng)站嗎今日熱榜
  • 福建做網(wǎng)站公司seo優(yōu)化招商
  • 樹莓派可以用wordpressseo網(wǎng)絡(luò)推廣培訓
  • wordpress 批量圖片海會網(wǎng)絡(luò)做的網(wǎng)站怎么做優(yōu)化
  • 盤縣 網(wǎng)站建設(shè)免費培訓網(wǎng)站
  • 網(wǎng)站搜索算法免費的鄭州網(wǎng)絡(luò)推廣服務(wù)
  • 和網(wǎng)站開發(fā)公司如何簽合同網(wǎng)站快速排名的方法
  • 電子商務(wù)網(wǎng)站建設(shè)與維護實訓報告windows優(yōu)化大師最新版本
  • 怎樣在建設(shè)部網(wǎng)站查資質(zhì)證書環(huán)球網(wǎng)最新消息
  • p2p網(wǎng)站審批企業(yè)管理培訓課程報名
  • 可以做自媒體的網(wǎng)站推廣平臺有哪些渠道
  • 鞏義專業(yè)網(wǎng)站建設(shè)公司首選推廣賺錢平臺
  • 企業(yè)網(wǎng)站分析報告網(wǎng)站優(yōu)化推廣
  • 網(wǎng)站開發(fā)的工作總結(jié)seo方案
  • wordpress 群網(wǎng)絡(luò)公司優(yōu)化關(guān)鍵詞
  • 網(wǎng)站開發(fā)商標屬于哪一類福州短視頻seo公司
  • 網(wǎng)站開發(fā)需求大嗎公眾號開發(fā)網(wǎng)站公司