什么網(wǎng)站可以免費(fèi)做找客戶谷歌seo快速排名優(yōu)化方法
前言
2023年7月,我司組建大模型項目開發(fā)團(tuán)隊,從最開始的論文審稿,演變成目前的兩大賦能方向
- 大模型應(yīng)用方面,以微調(diào)和RAG為代表
除了論文審稿微調(diào)之外,目前我司內(nèi)部正在逐一開發(fā)論文翻譯、論文對話、論文idea提煉、論文修訂/潤色/語法糾錯、論文檢索 - 機(jī)器人(具身智能)方面,我們1月份開始攻機(jī)器人、Q1組建隊伍、5月份成功復(fù)現(xiàn)UMI和DexCap后「是國內(nèi)最早復(fù)現(xiàn)這兩模型的團(tuán)隊或之一,為不斷擴(kuò)大整個大模型機(jī)器人的開發(fā)隊伍,需要從課程中選拔更多人才,故推出:機(jī)器人二次開發(fā)線下營(線下提供價值20萬的實體機(jī)器人 供線下實操)」
本月(即6月)總算要開始為工廠賦能了(目前已經(jīng)談好三個工廠的合作意向)
總之,經(jīng)過過去近一年的努力,在今年創(chuàng)業(yè)的第十年,我司從教育為主,變成了「科技為主 教育為輔」,主做大模型應(yīng)用、機(jī)器人(具身智能)、解決方案???
而對于其中的機(jī)器人,無論是我、我合伙人孫老師、Y博士(我司機(jī)器人方向的合伙人),還是整個機(jī)器人開發(fā)團(tuán)隊,對具身智能的發(fā)展都充滿無比的信心,誓要全力加速賦能各個典型的工業(yè)場景,畢竟科技就是最直接的生產(chǎn)力
本文中的DexCap一開始是在此文《模仿學(xué)習(xí)的集中爆發(fā):從Dobb·E、Gello到斯坦福Mobile ALOHA、UMI、DexCap、伯克利FMB》中的,考慮到
- 一方面,經(jīng)過我司七月的一系列實踐得知,相較Moblie Aloha、UMI「其中,UMI詳見:UMI——斯坦福刷盤機(jī)器人:從手持夾持器到動作預(yù)測Diffusion Policy(含代碼解讀)」,DexCap在工廠的落地性更高,可以更好的結(jié)合企業(yè)特定的需求場景做定制開發(fā)
- 二方面,我們準(zhǔn)備把DexCap的源碼也做下分析,以方便更廣大的朋友
故把DexCap獨(dú)立出來成本文
第一部分?斯坦福李飛飛團(tuán)隊DexCap:可擴(kuò)展和便攜的動作捕捉數(shù)據(jù)收集系統(tǒng)
1.1 項目背景:遇到的問題與解決方案
1.1.1 以前收集數(shù)據(jù):從遠(yuǎn)程操作、基于視覺到運(yùn)動捕捉
首先,對于數(shù)據(jù)的收集上,通過上面介紹的斯坦福mobile aloha/UMI可知,模仿學(xué)習(xí)最近在機(jī)器人領(lǐng)域取得了相當(dāng)大的進(jìn)展,特別是通過使用人類示范數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練
- 常用的一種收集數(shù)據(jù)的方法是通過遠(yuǎn)程操作機(jī)器人手執(zhí)行任務(wù) 比如mobile aloha。 然而,由于需要真實的機(jī)器人系統(tǒng)和緩慢的機(jī)器人運(yùn)動,這種方法在擴(kuò)展上是昂貴的
- 另一種方法是在操作過程中直接跟蹤人手的運(yùn)動而不控制機(jī)器人。 當(dāng)前系統(tǒng)主要是基于視覺的,使用單視角攝像頭。 然而,除了跟蹤算法能否提供關(guān)鍵的準(zhǔn)確的三維信息以供機(jī)器人策略學(xué)習(xí)之外,這些系統(tǒng)還容易受到在手-物體交互過程中經(jīng)常發(fā)生的視覺遮擋的影響
- 對于收集靈巧操縱數(shù)據(jù),運(yùn)動捕捉(mo-cap)是一種比基于視覺的方法更好的選擇。 運(yùn)動捕捉系統(tǒng)提供準(zhǔn)確的三維信息,并且對視覺遮擋具有魯棒性。 因此,人類操作員可以直接用雙手與環(huán)境進(jìn)行交互,這樣做快速且更容易擴(kuò)展,因為不需要機(jī)器人硬件
進(jìn)一步,為了將手部運(yùn)動捕捉系統(tǒng)擴(kuò)展到機(jī)器人學(xué)習(xí)的日常任務(wù)和環(huán)境中進(jìn)行數(shù)據(jù)收集,一個合適的系統(tǒng)應(yīng)該具備便攜性和長時間捕捉的魯棒性,能夠提供準(zhǔn)確的手指和腕關(guān)節(jié)姿態(tài),以及三維環(huán)境信息,可問題是
- 大多數(shù)手部運(yùn)動捕捉系統(tǒng)不具備便攜性,依賴于校準(zhǔn)良好的第三視角攝像頭,雖然電磁場(EMF)手套解決了這個問題,但無法跟蹤世界坐標(biāo)系中的6自由度(6-DoF)腕關(guān)節(jié)姿態(tài),這對于末端執(zhí)行器(比如手指)的策略學(xué)習(xí)很重要
- 像基于IMU(Inertial Measurement Unit,慣性測量單元,主要用來檢測和測量加速度與旋轉(zhuǎn)運(yùn)動的傳感器)的全身套裝這樣的設(shè)備可以監(jiān)測腕關(guān)節(jié)位置,但容易隨時間漂移
除了硬件挑戰(zhàn)外,還存在算法挑戰(zhàn),用于機(jī)器人模仿學(xué)習(xí)的動作捕捉數(shù)據(jù)。 盡管靈巧的機(jī)器人手使得直接從人類手部數(shù)據(jù)中學(xué)習(xí)成為可能,但機(jī)器人手和人類手之間的尺寸、比例和運(yùn)動結(jié)構(gòu)的固有差異需要創(chuàng)新算法
1.1.2?DEXCAP如何解決:便捷式動作捕捉、學(xué)習(xí)算法DEXIL、人機(jī)交互校正
為了分別解決硬件層面、算法層面的挑戰(zhàn),24年3月,李飛飛團(tuán)隊分別開發(fā)了一種新的便攜式手部動作捕捉系統(tǒng)DEXCAP,和一種模仿算法DEXIL(DEXIL允許機(jī)器人直接從人類手部動作捕捉數(shù)據(jù)中學(xué)習(xí)靈巧操縱策略)
- 項目地址:DexCap | Scalable and Portable Mocap Data Collection System for Dexterous Manipulation
- 論文地址:DexCap: Scalable and Portable Mocap Data Collection System for Dexterous Manipulation
對于系統(tǒng),DEXCAP作為便攜式手部動作捕捉系統(tǒng),可以實時跟蹤手腕和手指運(yùn)動的6自由度姿態(tài)(60Hz),該系統(tǒng)包括
- 一個動作捕捉手套用于跟蹤手指關(guān)節(jié),每個手套上方安裝一個相機(jī)用于通過SLAM跟蹤手腕的6自由度姿態(tài)
- 并在胸部安裝一個RGB-D LiDAR相機(jī)觀察3D環(huán)境(注意,手部動作的精確3D信息,例如,6自由度手部姿態(tài)、3D手指定位等很重要)
對于算法,為了利用DEXCAP收集的數(shù)據(jù)來學(xué)習(xí)靈巧機(jī)器人策略,作者團(tuán)隊提出了基于動作捕捉數(shù)據(jù)的模仿學(xué)習(xí)方法DEXIL,它包括兩個主要步驟——數(shù)據(jù)重定位和基于點云輸入的生成式行為克隆策略訓(xùn)練(data retargeting and training generative-based behavior cloning policy with point cloud inputs),還可以選擇性地進(jìn)行人機(jī)交互式運(yùn)動校正
- 在重定位過程中,我們使用逆運(yùn)動學(xué)(inverse kinematics,簡稱IK)將機(jī)器人手指尖重定位到與人類手指尖相同的3D位置
手腕的6自由度姿態(tài)用于初始化IK,以確保人類和機(jī)器人之間的手腕運(yùn)動相同 - 然后,我們將RGB-D觀測轉(zhuǎn)換為基于點云的表示,繼而使用基于點云的行為克隆算法,基于擴(kuò)散策略[13]
- 在更具挑戰(zhàn)性的任務(wù)中,當(dāng)IK無法填補(bǔ)人類手和機(jī)器人手之間的體現(xiàn)差距時,我們提出了一種人機(jī)交互式運(yùn)動校正機(jī)制,即在策略執(zhí)行過程中,當(dāng)出現(xiàn)意外行為時,人類可以佩戴DEXCAP并中斷機(jī)器人的運(yùn)動,這樣的中斷數(shù)據(jù)可以進(jìn)一步用于策略微調(diào)
總之,不同于以下這些
- DIME [3] 使用虛擬現(xiàn)實技術(shù)來遠(yuǎn)程操作靈巧手進(jìn)行數(shù)據(jù)收集
- Qin等人 [60] 使用單個RGB攝像頭來跟蹤手部姿態(tài)進(jìn)行遠(yuǎn)程操作
- DexMV [61]、DexVIP [45] 和 VideoDex [69]利用人類視頻數(shù)據(jù)來學(xué)習(xí)運(yùn)動先驗知識,但通常需要在仿真或真實機(jī)器人遠(yuǎn)程操作數(shù)據(jù)上進(jìn)行額外訓(xùn)練
DEXCAP專注于靈巧模仿學(xué)習(xí),依賴于 DEXCAP 來收集基于三維點云觀測的高質(zhì)量手部動作捕捉數(shù)據(jù),這些數(shù)據(jù)可以直接用于訓(xùn)練單手或雙手機(jī)器人的低級位置控制
1.2 硬件設(shè)備:數(shù)據(jù)捕捉設(shè)備和機(jī)器人的設(shè)計
DexCap為了捕捉適合訓(xùn)練靈巧機(jī)器人策略的細(xì)粒度手部動作數(shù)據(jù),DexCap的設(shè)計考慮了四個關(guān)鍵目標(biāo):
- 詳細(xì)的手指運(yùn)動跟蹤
- 準(zhǔn)確的6自由度手腕姿態(tài)估計
- 以統(tǒng)一坐標(biāo)框架記錄對齊的3D觀察數(shù)據(jù)
- 在各種真實環(huán)境中具有出色的便攜性以進(jìn)行數(shù)據(jù)收集
1.2.1 追蹤手指運(yùn)動:使用Rokoko動作捕捉手套
經(jīng)過實驗得知,使用電磁場手套,相比于基于視覺的手指追蹤系統(tǒng),在手物交互中對視覺遮擋的魯棒性方面具有顯著優(yōu)勢(論文中對電磁場手套系統(tǒng)和最先進(jìn)的基于視覺的手部追蹤方法在不同操縱場景下進(jìn)行了定性比較)
在我們的系統(tǒng)中,手指運(yùn)動使用Rokoko動作捕捉手套進(jìn)行跟蹤,如下圖所示
- 每個手套的指尖都嵌入了一個微小的磁傳感器(Each glove’s fingertip is embedded with a tiny magnetic sensor)
- 而信號接收器則放置在手套的背面(while a signal receiver hub is placed on the glove’s dorsal side)
- 每個指尖的三維位置是從接收器到傳感器的相對三維位移來測量的(The 3D location of each fingertip is measured as the relative 3D translation from the hub to the sensors)
1.2.2 追蹤6自由度手腕姿態(tài):2個T265追蹤相機(jī)和一個IMU傳感器
除了手指運(yùn)動外,了解機(jī)器人末端執(zhí)行器在三維空間中的精確位置對于機(jī)器人操控至關(guān)重要。這需要DEXCAP用于估計和記錄人手在數(shù)據(jù)收集過程中的6自由度姿態(tài)軌跡。 雖然基于相機(jī)和基于IMU的方法通常被使用,但每種方法都有其局限性
- 基于相機(jī)的系統(tǒng),通常不便攜且在估計手腕方向能力上有限,不太適合用于操縱任務(wù)的數(shù)據(jù)收集
- 基于IMU的系統(tǒng),雖然可穿戴,但在長時間記錄會話中容易出現(xiàn)位置漂移
為了解決這些挑戰(zhàn),故開發(fā)了一種基于SLAM算法的6自由度手腕跟蹤系統(tǒng),如上圖(c)所示
該系統(tǒng)逐一通過
- 安裝在每個手套背面的Intel Realsense T265相機(jī)「即兩個魚眼相機(jī)的圖像(一籃、一綠)」
從而讓其是便攜的,可以在第三人稱攝像機(jī)框架中無需手部可見的情況下跟蹤手腕姿態(tài) - IMU傳感器信號(IMU傳感器提供了訓(xùn)練機(jī)器人策略所需的關(guān)鍵手腕方向信息)
- SLAM算法構(gòu)建環(huán)境地圖
SLAM可以自動根據(jù)建立的地圖糾正位置漂移,以實現(xiàn)長時間使用(SLAM can autonomously correct position drift with the built map for long-time use)
以實現(xiàn)對手腕6自由度姿態(tài)的一致跟蹤
1.2.3 記錄3D觀察和校準(zhǔn):一個RGB-D LiDAR攝像機(jī)和一個T265跟蹤相機(jī)
捕捉訓(xùn)練機(jī)器人策略所需的數(shù)據(jù)不僅需要跟蹤手部運(yùn)動,還需要記錄3D環(huán)境的觀察作為策略輸入
為此,DexCap團(tuán)隊設(shè)計了一個裝載攝像機(jī)的背包「如上圖(a)、(b)所示,為方便大家對照,特把上圖再貼一下,如下」
- 在正前面,它通過胸部攝像機(jī)支架的4個插槽集成了4個相機(jī),頂部是一臺Intel Realsense L515 RGB-D LiDAR攝像機(jī),頂部下面是3個Realsense T265魚眼SLAM跟蹤相機(jī)(分別為紅、綠、藍(lán)),用于在人類數(shù)據(jù)收集過程中捕捉觀察結(jié)果
其中??LiDAR相機(jī)和最上面的T265相機(jī)(紅色)固定在相機(jī)支架上
? 而兩個較低的(即綠色、藍(lán)色)T265相機(jī)設(shè)計為可拆卸的,并可以固定在手套的背部進(jìn)行手部6自由度姿態(tài)跟蹤
- 在正背面,一個Intel NUC(Intel NUC 13 Pro,相當(dāng)于就是一臺帶有64GB RAM和2TB SSD的迷你電腦),和一個40000mAh的移動電源放在背包中,支持長達(dá)40分鐘的連續(xù)數(shù)據(jù)收集
接下來的關(guān)鍵問題是如何有效地將跟蹤的手部運(yùn)動數(shù)據(jù)與3D觀察結(jié)果進(jìn)行整合
- 在數(shù)據(jù)收集開始時,所有跟蹤攝像機(jī)都放置在支架槽中(即一開始時,所有攝像頭都安裝在胸前。 在啟動程序后,參與者在環(huán)境中移動幾秒鐘,使SLAM算法構(gòu)建周圍環(huán)境的地圖),以確保相機(jī)框架之間的恒定變換(如上圖左側(cè)所示)
- 然后,我們將跟蹤攝像機(jī)從支架上取下(一綠、一藍(lán)),并插入到每個手套上的相機(jī)插槽中(如上圖右側(cè)所示)
此外,為了在人體運(yùn)動中確保穩(wěn)定的觀察結(jié)果,LiDAR攝像機(jī)下方安裝了另一個魚眼跟蹤攝像機(jī)「在上圖中標(biāo)為紅色」
當(dāng)然,DexCap的硬件設(shè)計模塊化且成本低廉,不限制相機(jī)、動作捕捉手套和迷你PC的品牌或型號,總成本控制在4000美元的預(yù)算范圍內(nèi)(不包括機(jī)械臂)
1.2.4 雙手靈巧機(jī)器人的設(shè)計:雙機(jī)械臂、雙LEAP機(jī)器手
為了驗證通過數(shù)據(jù)訓(xùn)練的機(jī)器人策略是否OK,接下來建立一個雙手靈巧的機(jī)器人系統(tǒng)
該系統(tǒng)由兩個Franka Emika機(jī)器人臂組成,每個臂上配備有一個LEAP靈巧機(jī)器人手(一個有16個關(guān)節(jié)的四指手),如圖(b)所示
為了進(jìn)行策略評估,如上圖圖(b)所示,人類數(shù)據(jù)收集中使用的胸部LiDAR相機(jī)被從背心上取下,并安裝在機(jī)器人臂之間的支架上(對于機(jī)器人系統(tǒng),只使用LiDAR相機(jī),不需要手腕相機(jī)。 機(jī)器人臂和LEAP手都以20Hz的控制頻率運(yùn)行,同時使用末端執(zhí)行器位置控制和關(guān)節(jié)位置控制來控制兩只機(jī)械臂和兩只LEAP手,即use end-effector position control for both robot arms and joint position control for both LEAP hand)
1.3?學(xué)習(xí)算法DEXIL:數(shù)據(jù)的重定向與基于點云數(shù)據(jù)的策略預(yù)測
接下來,使用DexCap記錄的人手動作捕捉數(shù)據(jù)來訓(xùn)練靈巧機(jī)器人策略,然后,我們會遇到這幾個問題
- 我們?nèi)绾螌⑷耸謩幼髦匦露ㄎ坏綑C(jī)器人手上?
- 在雙手設(shè)置中,當(dāng)動作空間是高維的時候,什么算法可以學(xué)習(xí)靈巧策略?
- 此外,我們還希望研究直接從人手動作捕捉數(shù)據(jù)中學(xué)習(xí)的失敗案例及其潛在解決方案
為了解決這些挑戰(zhàn),我們引入了DEXIL,這是一個使用人手動作捕捉數(shù)據(jù)訓(xùn)練靈巧機(jī)器人的三步框架
- 第一步是將DexCap數(shù)據(jù)重新定位到機(jī)器人的動作和觀察空間中
- 第二步使用重新定位的數(shù)據(jù)訓(xùn)練(基于點云的擴(kuò)散策略)
- 最后一步是一個可選的human-in-the-loop correction機(jī)制,旨在解決策略執(zhí)行過程中出現(xiàn)的意外行為
1.3.1 數(shù)據(jù)和動作重定向:人手的動作重定向到機(jī)器手上
動作重定向
如上圖(a)所示,由于人手和LEAP手的尺寸差異很大,而這種尺寸差異使得不好直接將手指運(yùn)動轉(zhuǎn)移到機(jī)器人硬件上,故需要先將人手動作捕捉數(shù)據(jù)重新定向到機(jī)器人實體上,這需要使用逆運(yùn)動學(xué)(IK)將手指位置和6自由度手掌姿態(tài)進(jìn)行映射
先前研究中的一個關(guān)鍵發(fā)現(xiàn)是,在與物體互動時,手指尖是手上最常接觸的區(qū)域(如HO-3D [25]、GRAB [76]、ARCTIC [16]等研究所證明的)。 受此啟發(fā),我們通過使用逆運(yùn)動學(xué)(IK)來匹配手指尖位置,重新定向手指運(yùn)動
具體而言,我們使用一種能夠?qū)崟r生成平滑準(zhǔn)確的手指尖運(yùn)動的IK算法[63, 64, 79],以確定機(jī)器人手的16維關(guān)節(jié)位置。 這確保了機(jī)器人手指尖與人手指尖的對齊
- 考慮到LEAP手和人手不一樣,其只有4個手指,故在人手到機(jī)器手的IK計算過程中排除了人手中小指的信息
此外,在動作捕捉數(shù)據(jù)中捕捉到的6自由度手腕姿態(tài)作為IK算法中手腕姿態(tài)的初始參考? 首先,把手腕的6自由度姿態(tài)
和LEAP手的手指關(guān)節(jié)位置
,共同被用作機(jī)器人的本體感知狀態(tài)
? 然后,使用位置控制,比如把機(jī)器人的動作標(biāo)簽被定義為下一個未來狀態(tài)
「We use position control in our setup and the robot’s action labels are defined as next future states at = st+1」
- 觀察和狀態(tài)表示的選擇對于訓(xùn)練機(jī)器人策略至關(guān)重要
最終,他們將LiDAR相機(jī)捕捉到的RGB-D圖像轉(zhuǎn)換為3D點云(We convert the RGB-D images captured by the LiDAR camera in the DEXCAP data into point clouds using the camera parameter)
且所有點云觀測都被均勻地降采樣為5000個點,并與機(jī)器人的感知狀態(tài)和動作一起存儲在一個hdf5文件中。 然后從整個錄制會話(每個任務(wù)演示10分鐘)中手動注釋每個任務(wù)演示的起始和結(jié)束幀。 訓(xùn)練數(shù)據(jù)集中不包括重置任務(wù)環(huán)境的運(yùn)動
如下圖所示, 初始列顯示原始點云場景。 第2-7列提供右、中、左三組視圖(兩個視圖一組),且三組視圖中每一組視圖中的藍(lán)色背景列顯示人體數(shù)據(jù),黃色背景列顯示機(jī)器人手部重定位
與RGB-D輸入相比,這種額外的轉(zhuǎn)換有兩個重要的好處? 首先,由于DEXCAP允許人體軀干在數(shù)據(jù)采集過程中自然移動,而直接使用RGB-D輸入需要考慮用于移動相機(jī)框架
但通過將點云觀測轉(zhuǎn)換為一致的世界坐標(biāo)系(在mocap開始時,紅色主SLAM相機(jī)的坐標(biāo)系定義為世界坐標(biāo)系),便可隔離并消除了軀干運(yùn)動,從而得到穩(wěn)定的機(jī)器人觀測??其次,點云在編輯和與機(jī)器人操作空間對齊方面具有更高的靈活性(過程中,通過比較PointNet[58]和Perceiver [35, 42]編碼器來確定最適合點云輸入的編碼器)
考慮到在野外捕捉到的一些動作可能超出機(jī)器人的可達(dá)范圍,調(diào)整點云觀測和運(yùn)動軌跡的位置可以確保它們在機(jī)器人的操作范圍內(nèi)可行
故,最終基于以上這些發(fā)現(xiàn),將mocap數(shù)據(jù)中的所有RGB-D幀處理為與機(jī)器人空間對齊的點云,并排除與任務(wù)無關(guān)的元素(例如桌面上的點)
因此,這些經(jīng)過精細(xì)處理的點云數(shù)據(jù)成為輸入到機(jī)器人策略π的觀測輸入
1.3.2?基于點云的擴(kuò)散策略
通過轉(zhuǎn)換后的機(jī)器人狀態(tài) 、動作
和相應(yīng)的三維點云觀測
,我們將機(jī)器人策略學(xué)習(xí)過程形式化為軌跡生成任務(wù)
- 對于策略模型π,通過處理點云觀測
和機(jī)器人當(dāng)前的本體感知狀態(tài)
,以生成一個動作軌跡
「an policy model π, processes the point cloud observations ot and the robot’s current proprioception state st into an action trajectory (at, at+1, . . . , at+d) 」
- 在
中給定具有N 個點的點云觀測
,,然后將其均勻下采樣為K 個點,并將每個點對應(yīng)的RGB像素顏色連接到最終的策略輸入中
(Given point cloud observation with N points ot in RN ×3, we uniformly down-sample it into K points and concatenate the RGB pixel color corresponding to each point into the final policy input in RK×6)
- 為了彌合人手和機(jī)器人手之間的視覺差距,使用正向運(yùn)動學(xué)將機(jī)器人模型的鏈接與本體感知狀態(tài)
進(jìn)行轉(zhuǎn)換,并將轉(zhuǎn)換后的鏈接的點云合并到觀測
中
且在訓(xùn)練過程中,我們還通過在機(jī)器人的操作空間內(nèi)對點云和運(yùn)動軌跡應(yīng)用隨機(jī)的二維平移來進(jìn)行數(shù)據(jù)增強(qiáng)(During training, we also use data augmentation over the inputs by applying random 2D translations to the point clouds and motion trajectories with in the robot’s operational space)
學(xué)習(xí)靈巧機(jī)器人策略的一個挑戰(zhàn),特別是對于雙手靈巧機(jī)器人,是處理大維度的動作輸出
- 在對應(yīng)的設(shè)置中,動作輸出包括兩個7自由度機(jī)器人臂和兩個16自由度靈巧手在d個步驟中的動作,形成了一個高維回歸問題(which forms a high-dimensional regression problem)
類似的挑戰(zhàn)也在圖像生成任務(wù)中進(jìn)行了研究,該任務(wù)旨在回歸高分辨率幀中的所有像素值(which aim to regress all pixel values in a high-resolution frame) - 最近,擴(kuò)散模型通過其逐步擴(kuò)散過程,在建模具有高維數(shù)據(jù)的復(fù)雜數(shù)據(jù)分布方面取得了成功,比如AI繪畫
對于機(jī)器人技術(shù),擴(kuò)散策略「詳見此文《UMI——斯坦福刷盤機(jī)器人:從手持夾持器到動作預(yù)測Diffusion Policy(含代碼解讀)》的第三部分」遵循相同的思路
從而將控制問題形式化為動作生成任務(wù)(For robotics, Diffusion Policy [?Diffusion policy: Visuomotor policy learning via action diffusion] follows the same idea and formalizes the control problem into an action generation task)
總之,一方面,使用擴(kuò)散策略作為動作解碼器,經(jīng)驗證它在學(xué)習(xí)靈巧機(jī)器人策略方面優(yōu)于傳統(tǒng)的基于MLP的架構(gòu)(比如基于MLP的BC-RNN策略),如下表中,后5行的效果均高于前4行的結(jié)果
二方面,將DP-perc作為DEXIL的默認(rèn)模型架構(gòu)「其中,1 基于點云的學(xué)習(xí)算法(下表中最后三行的DP-point-raw,DP-point,DP-prec)不需要遮擋mask觀測,且都實現(xiàn)了超過60%的任務(wù)成功率,2,即使不添加機(jī)器人手部點,下表中倒數(shù)第三行的DP-point-raw的性能也接近DP-point。這可能是因為點云輸入的下采樣過程降低了人類手套和機(jī)器人手之間的外觀差距」
至于圖像輸入方法,使用ResNet-18 [29]作為圖像編碼器。 對于基于擴(kuò)散策略的模型,則使用去噪擴(kuò)散隱式模型DDIM進(jìn)行去噪迭代
至于其他模型的選擇及其他參數(shù)詳見下圖
在每次機(jī)器人動作之后,我們計算機(jī)器人當(dāng)前自我感知與目標(biāo)姿態(tài)之間的距離。 如果它們之間的距離小于一個閾值,認(rèn)為機(jī)器人已經(jīng)達(dá)到了目標(biāo)位置,并將查詢策略獲取下一個動作
為了防止機(jī)器人變得空閑,如果它在規(guī)定的步數(shù)內(nèi)未能達(dá)到目標(biāo)姿態(tài),將重新查詢策略獲取后續(xù)動作,一般在實驗中將步數(shù)設(shè)定為10
1.3.3?人機(jī)協(xié)同校正
通過上述設(shè)計,DEXIL可以直接從DEXCAP數(shù)據(jù)中學(xué)習(xí)具有挑戰(zhàn)性的靈巧操控技能(例如,拾取和放置以及雙手協(xié)調(diào)),而無需使用機(jī)器人數(shù)據(jù)
然而,簡單重定位的方法并未解決人機(jī)融合差距的所有方面。例如,使用剪刀時,穩(wěn)定地握住剪刀需要將手指深入握柄。 由于機(jī)器手指與人手之間長度比例的差異,直接匹配指尖和關(guān)節(jié)運(yùn)動并不能保證對剪刀施加相同的力
為了解決這個問題,我們提供了一種人在環(huán)路中的運(yùn)動校正機(jī)制,包括兩種模式-殘差校正和遠(yuǎn)程操作。在策略執(zhí)行過程中,我們允許人們通過佩戴DEXCAP實時向機(jī)器人提供校正動作(其中人類對策略生成的動作應(yīng)用殘差動作來糾正機(jī)器人行為。 糾正動作被存儲在一個新的數(shù)據(jù)集中,并與原始數(shù)據(jù)集均勻采樣,用于對機(jī)器人策略進(jìn)行微調(diào))
- 在殘差模式下,DEX-CAP測量人手相對于初始狀態(tài)
在策略展開開始時的位置變化
位置變化被應(yīng)用為殘差動作到機(jī)器人策略動作
,通過
和
進(jìn)行縮放
然后可以將校正后的機(jī)器人動作形式化為
且經(jīng)驗性地發(fā)現(xiàn),設(shè)置小尺度的 β(< 0.1)可以提供最佳用戶體驗,避免手指移動過快 - 在需要大幅度位置變化時,踩下腳踏板將切換系統(tǒng)到遙操作模式。則此時DEXCAP將不再使用之前的策略推理,而是直接將人類手腕變化應(yīng)用于機(jī)器人手腕姿態(tài)(DEXCAP now ignores the policy rollout and applies human wrist delta directly to the robot wrist pose),機(jī)器人指尖現(xiàn)在直接跟隨人類指尖,相當(dāng)于直接遙控
換句話說,機(jī)器人指尖將在各自的手腕坐標(biāo)系中通過逆運(yùn)動學(xué)追蹤人類指尖。用戶還可以通過再次踩下腳踏板來在糾正機(jī)器人錯誤后切換回剩余模式
由于機(jī)器人已經(jīng)學(xué)習(xí)了初始策略,還可以在一小部分回滾中進(jìn)行校正,從而大大減少人力投入。 校正后的動作和觀察結(jié)果存儲在一個新的數(shù)據(jù)集中。 訓(xùn)練數(shù)據(jù)是從
和原始數(shù)據(jù)集
中以等概率抽樣的方式進(jìn)行的,以微調(diào)策略模型,類似于IWR [Human-in the-loop imitation learning using remote teleoperation]
1.4 數(shù)據(jù)
最終,我們使用三種數(shù)據(jù)類型(分別得到了201、129和82個演示):
- DEXCAP數(shù)據(jù)捕捉機(jī)器人操作空間內(nèi)的人手動作
比如剪刀剪裁和泡茶任務(wù)分別獲得了一個小時的DEXCAP數(shù)據(jù),分別產(chǎn)生了104和55個演示 - 室外DEXCAP數(shù)據(jù)來自實驗室外環(huán)境
比如一個小時的室外DEXCAP數(shù)據(jù)提供了96個演示 - 使用腳踏板收集human-in-the-loop correction data,用于調(diào)整機(jī)器人動作或啟用遠(yuǎn)程操作以糾正錯誤???
human-in-the-loop?correction?data?for?adjusting?robot?actions?or?enabling?teleoperation?to?correct?errors,?col-lected using?a foot pedal
數(shù)據(jù)最初以60Hz記錄,然后降采樣到20Hz以匹配機(jī)器人的控制速度,糾錯數(shù)據(jù)直接以20Hz收集
最后,對于機(jī)器人的控制而言,采用Position control,以分層結(jié)構(gòu)的方式進(jìn)行:
- 在高層次上,學(xué)習(xí)策略生成下一步的目標(biāo)位置,該位置包括機(jī)器人雙臂末端執(zhí)行器的6自由度姿態(tài)和雙手16維手指關(guān)節(jié)位置
- 在低層次上,操作空間控制器(OSC)[A unified approach for motion and force control of robot manipulators: The operational space formulation]連續(xù)地插值將機(jī)械臂軌跡移動到高層次指定的目標(biāo)位置,并將插值的OSC動作傳遞給機(jī)器人執(zhí)行
第二部分 DexCap的源碼剖析
// 待更