WordPress 團隊管理系統(tǒng)郴州seo外包
前言
在此文《UMI——斯坦福刷盤機器人:從手持夾持器到動作預測Diffusion Policy(含代碼解讀)》的1.1節(jié)開頭有提到
機器人收集訓練數(shù)據(jù)一般有多種方式,比如來自人類視頻的視覺演示
- 有的工作致力于從視頻數(shù)據(jù)——例如YouTube視頻中進行策略學習
即最常見的方法是從各種被動的人類演示視頻中學習,利用被動的人類演示,先前的工作學習了任務(wù)成本函數(shù) [37, 8, 1, 21]、可供性函(affordance function) [2]、密集物體描述符[40, 24, 39]、動作對應(yīng) [33, 28] 和預訓練的視覺表示 [23-R3m: A universal visual representation for robot manipulation,48-Masked visual pre-training for motor control]- 然而,這種方法遇到了一些挑戰(zhàn)
首先,大多數(shù)視頻演示缺乏明確的動作信息(這對于學習可推廣的策略至關(guān)重要)
為了從被動的人類視頻中推斷動作數(shù)據(jù),先前的工作采用了手部姿態(tài)檢測器 [44-Mimicplay: Long-horizon imitation learning by watching human play, 1-Human-to-robot imitation in the wild, 38-Videodex: Learning dexterity from internet videos, 28-?Dexmv: Imitation learning for dexterous manipulation from human videos],或?qū)⑷祟愐曨l與域內(nèi)遙操作機器人數(shù)據(jù)結(jié)合以預測動作 [33, 20, 34, 28]
其次,人類和機器人之間明顯的embodiment(物理本體,有的翻譯為體現(xiàn))差距阻礙了動作轉(zhuǎn)移(the evident embodiment gap between humans and robots hinders action transfer)
彌合這一差距的努力包括通過手勢重定向?qū)W習人類到機器人的動作映射 [38-Videodex: Learning dexterity from internet videos, 28-Dexmv: Imitation learning for dexterous manipulation from human videos] ,或提取與體現(xiàn)無關(guān)的關(guān)鍵點 [即embodiment-agnostic keypoint,49]
盡管有這些嘗試,固有的embodiment差異仍然使得從人類視頻到物理機器人的策略轉(zhuǎn)移變得復雜
考慮到「從人類視頻中學習」早已成為機器人的主流訓練方法之一,故打算系統(tǒng)闡述以下這個課題,不然很多朋友可能只是理解其字面意思,但到底具體怎么個模仿學習,則不一定知其里,而通過本文系統(tǒng)的闡述,可以讓大家更深刻的理解模仿學習背后更深的細節(jié)
二方面,上面不是提到了從人類視頻學習中的諸多問題么,那我們也看看該領(lǐng)域的最新進展——比如紐約大學的SeeDo到底有沒解決這些問題呢?
故便有了本文,本文將注意解讀以下這幾篇paper
- Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos,18 Jan 2021
- DexMV,12 Aug 2021
- DexVIP,1 Feb 2022
- Robotic Telekinesis: Learning a Robotic Hand Imitator by Watching Humans on YouTube,21 Feb 2022
- R3M: Representations for Robots from Real-World Videos,23 Mar 2022
- VideoDex,8 Dec 2022
- MimicPlay,24 Feb 2023?
- VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model,11 Oct 2024
第一部分 從Learning by Watching、DexMV到DexVIP
1.1?Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos
來自多倫多大學、天津大學、NVIDIA的研究者(Haoyu Xiong, Quanzhou Li, Yun-Chun Chen, Homanga Bharadhwaj, Samarth Sinha, Animesh Garg)發(fā)布了此篇論文:《Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos》
為了從人類視頻中實現(xiàn)物理模仿,作者將問題分解為一系列任務(wù):
- 人類到機器人的翻譯
- 基于無監(jiān)督關(guān)鍵點的表示學習
- 以及3)使用強化學習進行物理模仿
在此,回顧前兩個任務(wù),因為他們的方法是在現(xiàn)有算法基礎(chǔ)上構(gòu)建的
1.1.1 無監(jiān)督的圖像到圖像翻譯到無監(jiān)督關(guān)鍵點檢測
對于無監(jiān)督的圖像到圖像翻譯問題
類似于現(xiàn)有的方法 [9], [10],將人類到機器人翻譯視為無監(jiān)督的圖像到圖像翻譯問題
- 具體而言,目標是學習一個模型,將圖像從源域X(例如,人類域)翻譯到目標域Y(例如,機器人域),而無需配對的訓練數(shù)據(jù) [12],[26], [29], [30]
- 在作者的方法中,他們采用MUNIT [30] 作為圖像到圖像翻譯網(wǎng)絡(luò)來實現(xiàn)人類到機器人的翻譯
MUNIT通過假設(shè)圖像表示可以被解構(gòu)為一個域不變的內(nèi)容編碼(由內(nèi)容編碼器編碼)和一個域特定的風格編碼(由風格編碼器
編碼)來學習在兩個域之間翻譯圖像
內(nèi)容編碼器和
在兩個域中是共享的,而兩個域的風格編碼器
和
則不共享權(quán)重
為了將圖像從一個域翻譯到另一個域,作者將其內(nèi)容編碼與從另一個域采樣的風格編碼結(jié)合
且這些翻譯/轉(zhuǎn)換是通過學習生成:與目標域中的圖像無法區(qū)分的圖像來實現(xiàn)的(The translations are learned to generate images that are indistinguishable fromimages in the translated domain)
故,給定來自源域X的圖像x和來自目標域Y的圖像y,在源域中定義對抗性損失為
其中
是圖像
的內(nèi)容編碼
是圖像
的風格編碼
是一個生成器,其接收內(nèi)容編碼
和風格編碼
作為輸入,并生成與源域中分布相似的圖像
是一個判別器,旨在區(qū)分由
生成的翻譯圖像和源域中的圖像
此外,目標域中對抗損失也可以類似地定義
除了對抗損失外,MUNIT還對圖像、內(nèi)容和風格編碼應(yīng)用重構(gòu)損失,以規(guī)范模型學習
- 對于源域,圖像重構(gòu)損失
定義為
- 內(nèi)容重建損失
定義為
- 風格重建損失
定義為
目標域中的圖像重建損失、內(nèi)容重建損失
和風格重建損失
可以類似地推導出來
最終,訓練MUNIT的總損失LMUNIT為
其中、
和
是用于控制各自損失函數(shù)相對重要性的超參數(shù)
對于無監(jiān)督關(guān)鍵點檢測
為了執(zhí)行控制任務(wù),現(xiàn)有方法通常依賴于基于圖像觀測的狀態(tài)表示學習[10], [45]–[48]
- 然而,圖像到圖像翻譯模型生成的圖像觀測通常只捕捉宏觀特征,而忽略了對下游任務(wù)至關(guān)重要的顯著區(qū)域中的細節(jié)。通過使用特征編碼器對翻譯后的圖像觀測進行編碼來推導狀態(tài)表示會導致次優(yōu)性能
- 另一方面,現(xiàn)有方法也可能受到圖像到圖像翻譯模型生成的視覺偽影的影響
與這些方法相比,作者利用Transporter[41]在無監(jiān)督的方式下檢測每個翻譯后視頻幀中的關(guān)鍵點。檢測到的關(guān)鍵點形成一種結(jié)構(gòu)化表示,捕捉機器人手臂的姿態(tài)和交互物體的位置,為下游控制任務(wù)提供語義上有意義的信息,同時避免由于圖像到圖像翻譯不完美而導致的視覺偽影的負面影響
為了實現(xiàn)無監(jiān)督關(guān)鍵點檢測的學習,Transporter利用物體在一對視頻幀之間的運動,通過在檢測到的關(guān)鍵點位置傳輸特征,將一個視頻幀轉(zhuǎn)換為另一個視頻幀
- 比如,給定兩個視頻幀
和
,Transporter首先使用特征編碼器
提取兩個視頻幀的特征圖
和
,并使用關(guān)鍵點檢測器
檢測兩個視頻幀的 K 個二維關(guān)鍵點位置
和
- 然后,Transporter 通過在
和
中抑制
在每個關(guān)鍵點位置附近的特征圖,并將
在
中每個關(guān)鍵點位置附近的特征圖進行融合,來合成特征圖
「Transporter then synthesizes the feature map Φ(x, y) by suppressing the feature map of x around eachkeypoint location in Ψ(x) and Ψ(y) and incorporating thefeature map of y around each keypoint location in Ψ(y)」
其中是一個高斯熱圖,其峰值集中在
中的每個關(guān)鍵點位置
- 接下來,傳輸?shù)奶卣?img referrerpolicy="no-referrer" alt="\hat{\Phi}(x, y)" class="mathcode" src="https://latex.csdn.net/eq?%5Chat%7B%5CPhi%7D%28x%2C%20y%29" />被傳遞到一個精細化網(wǎng)絡(luò)R中,以重建視頻幀
然后定義用于訓練Transporter的損失r為
在下一節(jié)中,作者利用Transporter模型來檢測每個翻譯后的視頻幀的關(guān)鍵點。檢測到的關(guān)鍵點隨后被用作定義獎勵函數(shù)的結(jié)構(gòu)化表示,并作為策略網(wǎng)絡(luò)的輸入,以預測用于與環(huán)境交互的動作
1.1.2 LbW:從人類視頻中學習的改進方法
考慮從人類視頻中學習機器人操作技能的物理模仿任務(wù)。在這種情況下,作者假設(shè)可以訪問一個單一的人類演示視頻,長度為
,展示了一個人類執(zhí)行特定任務(wù)(例如,推一個塊)的過程,作者希望機器人從中學習,其中
,
是
的空間大小
作者注意到,人類的動作在他們的設(shè)定中并沒有提供。故作者的目標是開發(fā)一種學習算法,使機器人能夠模仿人類演示視頻中展示的人類行為
為實現(xiàn)這一目標,作者提出了LbW,一個由三個組件組成的框架:
- 圖像到圖像的翻譯網(wǎng)絡(luò)
「來自MUNIT [30]」
- 關(guān)鍵點檢測器
「來自Transporter的關(guān)鍵點檢測器[41]」
- 策略網(wǎng)絡(luò)
具體如下圖所示
給定一個人類演示視頻和時間
的當前觀測
- 首先對人類演示視頻
中的每一幀
應(yīng)用圖像到圖像的翻譯網(wǎng)絡(luò)
,并將
翻譯為機器人演示視頻幀
- 接下來,關(guān)鍵點檢測器
將每個翻譯后的機器人視頻幀
作為輸入,并提取基于關(guān)鍵點的表示
其中表示關(guān)鍵點的數(shù)量
同樣,也對當前觀測應(yīng)用關(guān)鍵點檢測器
,以提取基于關(guān)鍵點的表示
- 為了計算物理模仿的獎勵,作者定義了一個距離度量d,用于計算當前觀測
的基于關(guān)鍵點的表示
,與每個翻譯后的機器人視頻幀
的基于關(guān)鍵點的表示
之間的距離
we define adistance metric d that computes the distances between the keypoint-based representation zt of the current observationOt and each of the keypoint-based representations zEi of the translated robot video frames vE - 最后,策略網(wǎng)絡(luò)以當前觀測
的關(guān)鍵點表示
作為輸入,預測一個動作
,該動作用于指導機器人與環(huán)境交互
// 待更
1.2?DexMV
21年8月份,來自的研究者提出了DexMV,其對應(yīng)的論文為:《DexMV: Imitation Learning for Dexterous Manipulation from Human Videos》