中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

什么網(wǎng)站可以免費(fèi)做找客戶谷歌seo快速排名優(yōu)化方法

什么網(wǎng)站可以免費(fèi)做找客戶,谷歌seo快速排名優(yōu)化方法,高中課程免費(fèi)教學(xué)網(wǎng)站,杭州設(shè)計網(wǎng)站的公司前言 2023年7月,我司組建大模型項目開發(fā)團(tuán)隊,從最開始的論文審稿,演變成目前的兩大賦能方向 大模型應(yīng)用方面,以微調(diào)和RAG為代表 除了論文審稿微調(diào)之外,目前我司內(nèi)部正在逐一開發(fā)論文翻譯、論文對話、論文idea提煉、論…

前言

2023年7月,我司組建大模型項目開發(fā)團(tuán)隊,從最開始的論文審稿,演變成目前的兩大賦能方向

  1. 大模型應(yīng)用方面,以微調(diào)和RAG為代表
    除了論文審稿微調(diào)之外,目前我司內(nèi)部正在逐一開發(fā)論文翻譯、論文對話、論文idea提煉、論文修訂/潤色/語法糾錯、論文檢索
  2. 機(jī)器人(具身智能)方面,我們1月份開始攻機(jī)器人、Q1組建隊伍、5月份成功復(fù)現(xiàn)UMI和DexCap后「是國內(nèi)最早復(fù)現(xiàn)這兩模型的團(tuán)隊或之一,為不斷擴(kuò)大整個大模型機(jī)器人的開發(fā)隊伍,需要從課程中選拔更多人才,故推出:機(jī)器人二次開發(fā)線下營(線下提供價值20萬的實體機(jī)器人 供線下實操)
    本月(即6月)總算要開始為工廠賦能了(目前已經(jīng)談好三個工廠的合作意向)

總之,經(jīng)過過去近一年的努力,在今年創(chuàng)業(yè)的第十年,我司從教育為主,變成了「科技為主 教育為輔」,主做大模型應(yīng)用、機(jī)器人(具身智能)、解決方案???

而對于其中的機(jī)器人,無論是我、我合伙人孫老師、Y博士(我司機(jī)器人方向的合伙人),還是整個機(jī)器人開發(fā)團(tuán)隊,對具身智能的發(fā)展都充滿無比的信心,誓要全力加速賦能各個典型的工業(yè)場景,畢竟科技就是最直接的生產(chǎn)力

本文中的DexCap一開始是在此文《模仿學(xué)習(xí)的集中爆發(fā):從Dobb·E、Gello到斯坦福Mobile ALOHA、UMI、DexCap、伯克利FMB》中的,考慮到

  • 一方面,經(jīng)過我司七月的一系列實踐得知,相較Moblie Aloha、UMI「其中,UMI詳見:UMI——斯坦福刷盤機(jī)器人:從手持夾持器到動作預(yù)測Diffusion Policy(含代碼解讀)」,DexCap在工廠的落地性更高,可以更好的結(jié)合企業(yè)特定的需求場景做定制開發(fā)
  • 二方面,我們準(zhǔn)備把DexCap的源碼也做下分析,以方便更廣大的朋友

故把DexCap獨(dú)立出來成本文

第一部分?斯坦福李飛飛團(tuán)隊DexCap:可擴(kuò)展和便攜的動作捕捉數(shù)據(jù)收集系統(tǒng)

1.1 項目背景:遇到的問題與解決方案

1.1.1 以前收集數(shù)據(jù):從遠(yuǎn)程操作、基于視覺到運(yùn)動捕捉

首先,對于數(shù)據(jù)的收集上,通過上面介紹的斯坦福mobile aloha/UMI可知,模仿學(xué)習(xí)最近在機(jī)器人領(lǐng)域取得了相當(dāng)大的進(jìn)展,特別是通過使用人類示范數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練

  • 常用的一種收集數(shù)據(jù)的方法是通過遠(yuǎn)程操作機(jī)器人手執(zhí)行任務(wù) 比如mobile aloha。 然而,由于需要真實的機(jī)器人系統(tǒng)和緩慢的機(jī)器人運(yùn)動,這種方法在擴(kuò)展上是昂貴的
  • 另一種方法是在操作過程中直接跟蹤人手的運(yùn)動而不控制機(jī)器人。 當(dāng)前系統(tǒng)主要是基于視覺的,使用單視角攝像頭。 然而,除了跟蹤算法能否提供關(guān)鍵的準(zhǔn)確的三維信息以供機(jī)器人策略學(xué)習(xí)之外,這些系統(tǒng)還容易受到在手-物體交互過程中經(jīng)常發(fā)生的視覺遮擋的影響
  • 對于收集靈巧操縱數(shù)據(jù),運(yùn)動捕捉(mo-cap)是一種比基于視覺的方法更好的選擇。 運(yùn)動捕捉系統(tǒng)提供準(zhǔn)確的三維信息,并且對視覺遮擋具有魯棒性。 因此,人類操作員可以直接用雙手與環(huán)境進(jìn)行交互,這樣做快速且更容易擴(kuò)展,因為不需要機(jī)器人硬件

進(jìn)一步,為了將手部運(yùn)動捕捉系統(tǒng)擴(kuò)展到機(jī)器人學(xué)習(xí)的日常任務(wù)和環(huán)境中進(jìn)行數(shù)據(jù)收集,一個合適的系統(tǒng)應(yīng)該具備便攜性和長時間捕捉的魯棒性,能夠提供準(zhǔn)確的手指和腕關(guān)節(jié)姿態(tài),以及三維環(huán)境信息,可問題是

  1. 大多數(shù)手部運(yùn)動捕捉系統(tǒng)不具備便攜性,依賴于校準(zhǔn)良好的第三視角攝像頭,雖然電磁場(EMF)手套解決了這個問題,但無法跟蹤世界坐標(biāo)系中的6自由度(6-DoF)腕關(guān)節(jié)姿態(tài),這對于末端執(zhí)行器(比如手指)的策略學(xué)習(xí)很重要
  2. 像基于IMU(Inertial Measurement Unit,慣性測量單元,主要用來檢測和測量加速度與旋轉(zhuǎn)運(yùn)動的傳感器)的全身套裝這樣的設(shè)備可以監(jiān)測腕關(guān)節(jié)位置,但容易隨時間漂移

除了硬件挑戰(zhàn)外,還存在算法挑戰(zhàn),用于機(jī)器人模仿學(xué)習(xí)的動作捕捉數(shù)據(jù)。 盡管靈巧的機(jī)器人手使得直接從人類手部數(shù)據(jù)中學(xué)習(xí)成為可能,但機(jī)器人手和人類手之間的尺寸、比例和運(yùn)動結(jié)構(gòu)的固有差異需要創(chuàng)新算法

1.1.2?DEXCAP如何解決:便捷式動作捕捉、學(xué)習(xí)算法DEXIL、人機(jī)交互校正

為了分別解決硬件層面、算法層面的挑戰(zhàn),24年3月,李飛飛團(tuán)隊分別開發(fā)了一種新的便攜式手部動作捕捉系統(tǒng)DEXCAP,和一種模仿算法DEXIL(DEXIL允許機(jī)器人直接從人類手部動作捕捉數(shù)據(jù)中學(xué)習(xí)靈巧操縱策略)

  • 項目地址:DexCap | Scalable and Portable Mocap Data Collection System for Dexterous Manipulation
  • 論文地址:DexCap: Scalable and Portable Mocap Data Collection System for Dexterous Manipulation

對于系統(tǒng),DEXCAP作為便攜式手部動作捕捉系統(tǒng),可以實時跟蹤手腕和手指運(yùn)動的6自由度姿態(tài)(60Hz),該系統(tǒng)包括

  1. 一個動作捕捉手套用于跟蹤手指關(guān)節(jié),每個手套上方安裝一個相機(jī)用于通過SLAM跟蹤手腕的6自由度姿態(tài)
  2. 并在胸部安裝一個RGB-D LiDAR相機(jī)觀察3D環(huán)境(注意,手部動作的精確3D信息,例如,6自由度手部姿態(tài)、3D手指定位等很重要)

對于算法,為了利用DEXCAP收集的數(shù)據(jù)來學(xué)習(xí)靈巧機(jī)器人策略,作者團(tuán)隊提出了基于動作捕捉數(shù)據(jù)的模仿學(xué)習(xí)方法DEXIL,它包括兩個主要步驟——數(shù)據(jù)重定位和基于點云輸入的生成式行為克隆策略訓(xùn)練(data retargeting and training generative-based behavior cloning policy with point cloud inputs),還可以選擇性地進(jìn)行人機(jī)交互式運(yùn)動校正

  1. 在重定位過程中,我們使用逆運(yùn)動學(xué)(inverse kinematics,簡稱IK)將機(jī)器人手指尖重定位到與人類手指尖相同的3D位置
    手腕的6自由度姿態(tài)用于初始化IK,以確保人類和機(jī)器人之間的手腕運(yùn)動相同
  2. 然后,我們將RGB-D觀測轉(zhuǎn)換為基于點云的表示,繼而使用基于點云的行為克隆算法,基于擴(kuò)散策略[13]
  3. 在更具挑戰(zhàn)性的任務(wù)中,當(dāng)IK無法填補(bǔ)人類手和機(jī)器人手之間的體現(xiàn)差距時,我們提出了一種人機(jī)交互式運(yùn)動校正機(jī)制,即在策略執(zhí)行過程中,當(dāng)出現(xiàn)意外行為時,人類可以佩戴DEXCAP并中斷機(jī)器人的運(yùn)動,這樣的中斷數(shù)據(jù)可以進(jìn)一步用于策略微調(diào)

總之,不同于以下這些

  • DIME [3] 使用虛擬現(xiàn)實技術(shù)來遠(yuǎn)程操作靈巧手進(jìn)行數(shù)據(jù)收集
  • Qin等人 [60] 使用單個RGB攝像頭來跟蹤手部姿態(tài)進(jìn)行遠(yuǎn)程操作
  • DexMV [61]、DexVIP [45] 和 VideoDex [69]利用人類視頻數(shù)據(jù)來學(xué)習(xí)運(yùn)動先驗知識,但通常需要在仿真或真實機(jī)器人遠(yuǎn)程操作數(shù)據(jù)上進(jìn)行額外訓(xùn)練

DEXCAP專注于靈巧模仿學(xué)習(xí),依賴于 DEXCAP 來收集基于三維點云觀測的高質(zhì)量手部動作捕捉數(shù)據(jù),這些數(shù)據(jù)可以直接用于訓(xùn)練單手或雙手機(jī)器人的低級位置控制

1.2 硬件設(shè)備:數(shù)據(jù)捕捉設(shè)備和機(jī)器人的設(shè)計

DexCap為了捕捉適合訓(xùn)練靈巧機(jī)器人策略的細(xì)粒度手部動作數(shù)據(jù),DexCap的設(shè)計考慮了四個關(guān)鍵目標(biāo):

  1. 詳細(xì)的手指運(yùn)動跟蹤
  2. 準(zhǔn)確的6自由度手腕姿態(tài)估計
  3. 以統(tǒng)一坐標(biāo)框架記錄對齊的3D觀察數(shù)據(jù)
  4. 在各種真實環(huán)境中具有出色的便攜性以進(jìn)行數(shù)據(jù)收集

1.2.1 追蹤手指運(yùn)動:使用Rokoko動作捕捉手套

經(jīng)過實驗得知,使用電磁場手套,相比于基于視覺的手指追蹤系統(tǒng),在手物交互中對視覺遮擋的魯棒性方面具有顯著優(yōu)勢(論文中對電磁場手套系統(tǒng)和最先進(jìn)的基于視覺的手部追蹤方法在不同操縱場景下進(jìn)行了定性比較)

在我們的系統(tǒng)中,手指運(yùn)動使用Rokoko動作捕捉手套進(jìn)行跟蹤,如下圖所示

  1. 每個手套的指尖都嵌入了一個微小的磁傳感器(Each glove’s fingertip is embedded with a tiny magnetic sensor)
  2. 而信號接收器則放置在手套的背面(while a signal receiver hub is placed on the glove’s dorsal side)
  3. 每個指尖的三維位置是從接收器到傳感器的相對三維位移來測量的(The 3D location of each fingertip is measured as the relative 3D translation from the hub to the sensors)

1.2.2 追蹤6自由度手腕姿態(tài):2個T265追蹤相機(jī)和一個IMU傳感器

除了手指運(yùn)動外,了解機(jī)器人末端執(zhí)行器在三維空間中的精確位置對于機(jī)器人操控至關(guān)重要。這需要DEXCAP用于估計和記錄人手在數(shù)據(jù)收集過程中的6自由度姿態(tài)軌跡。 雖然基于相機(jī)和基于IMU的方法通常被使用,但每種方法都有其局限性

  • 基于相機(jī)的系統(tǒng),通常不便攜且在估計手腕方向能力上有限,不太適合用于操縱任務(wù)的數(shù)據(jù)收集
  • 基于IMU的系統(tǒng),雖然可穿戴,但在長時間記錄會話中容易出現(xiàn)位置漂移

為了解決這些挑戰(zhàn),故開發(fā)了一種基于SLAM算法的6自由度手腕跟蹤系統(tǒng),如上圖(c)所示

該系統(tǒng)逐一通過

  1. 安裝在每個手套背面的Intel Realsense T265相機(jī)「即兩個魚眼相機(jī)的圖像(一籃、一綠)
    從而讓其是便攜的,可以在第三人稱攝像機(jī)框架中無需手部可見的情況下跟蹤手腕姿態(tài)
  2. IMU傳感器信號(IMU傳感器提供了訓(xùn)練機(jī)器人策略所需的關(guān)鍵手腕方向信息)
  3. SLAM算法構(gòu)建環(huán)境地圖
    SLAM可以自動根據(jù)建立的地圖糾正位置漂移,以實現(xiàn)長時間使用(SLAM can autonomously correct position drift with the built map for long-time use)

以實現(xiàn)對手腕6自由度姿態(tài)的一致跟蹤

1.2.3 記錄3D觀察和校準(zhǔn):一個RGB-D LiDAR攝像機(jī)和一個T265跟蹤相機(jī)

捕捉訓(xùn)練機(jī)器人策略所需的數(shù)據(jù)不僅需要跟蹤手部運(yùn)動,還需要記錄3D環(huán)境的觀察作為策略輸入

為此,DexCap團(tuán)隊設(shè)計了一個裝載攝像機(jī)的背包「如上圖(a)、(b)所示,為方便大家對照,特把上圖再貼一下,如下

  • 在正前面,它通過胸部攝像機(jī)支架的4個插槽集成了4個相機(jī),頂部是一臺Intel Realsense L515 RGB-D LiDAR攝像機(jī),頂部下面是3個Realsense T265魚眼SLAM跟蹤相機(jī)(分別為、、藍(lán)),用于在人類數(shù)據(jù)收集過程中捕捉觀察結(jié)果

    其中
    \rightarrow??LiDAR相機(jī)和最上面的T265相機(jī)(紅色)固定在相機(jī)支架上
    \rightarrow? 而兩個較低的(綠色、藍(lán)色)T265相機(jī)設(shè)計為可拆卸的,并可以固定在手套的背部進(jìn)行手部6自由度姿態(tài)跟蹤

  • 在正背面,一個Intel NUC(Intel NUC 13 Pro,相當(dāng)于就是一臺帶有64GB RAM和2TB SSD的迷你電腦),和一個40000mAh的移動電源放在背包中,支持長達(dá)40分鐘的連續(xù)數(shù)據(jù)收集

接下來的關(guān)鍵問題是如何有效地將跟蹤的手部運(yùn)動數(shù)據(jù)與3D觀察結(jié)果進(jìn)行整合

  1. 在數(shù)據(jù)收集開始時,所有跟蹤攝像機(jī)都放置在支架槽中(即一開始時,所有攝像頭都安裝在胸前。 在啟動程序后,參與者在環(huán)境中移動幾秒鐘,使SLAM算法構(gòu)建周圍環(huán)境的地圖),以確保相機(jī)框架之間的恒定變換(如上圖左側(cè)所示)
  2. 然后,我們將跟蹤攝像機(jī)從支架上取下(一綠、一藍(lán)),并插入到每個手套上的相機(jī)插槽中(如上圖右側(cè)所示)
    此外,為了在人體運(yùn)動中確保穩(wěn)定的觀察結(jié)果,LiDAR攝像機(jī)下方安裝了另一個魚眼跟蹤攝像機(jī)「在上圖中標(biāo)為紅色

當(dāng)然,DexCap的硬件設(shè)計模塊化且成本低廉,不限制相機(jī)、動作捕捉手套和迷你PC的品牌或型號,總成本控制在4000美元的預(yù)算范圍內(nèi)(不包括機(jī)械臂)

1.2.4 雙手靈巧機(jī)器人的設(shè)計:雙機(jī)械臂、雙LEAP機(jī)器手

為了驗證通過數(shù)據(jù)訓(xùn)練的機(jī)器人策略是否OK,接下來建立一個雙手靈巧的機(jī)器人系統(tǒng)

該系統(tǒng)由兩個Franka Emika機(jī)器人臂組成,每個臂上配備有一個LEAP靈巧機(jī)器人手(一個有16個關(guān)節(jié)的四指手),如圖(b)所示

為了進(jìn)行策略評估,如上圖圖(b)所示,人類數(shù)據(jù)收集中使用的胸部LiDAR相機(jī)被從背心上取下,并安裝在機(jī)器人臂之間的支架上(對于機(jī)器人系統(tǒng),只使用LiDAR相機(jī),不需要手腕相機(jī)。 機(jī)器人臂和LEAP手都以20Hz的控制頻率運(yùn)行,同時使用末端執(zhí)行器位置控制和關(guān)節(jié)位置控制來控制兩只機(jī)械臂和兩只LEAP手,即use end-effector position control for both robot arms and joint position control for both LEAP hand)

1.3?學(xué)習(xí)算法DEXIL:數(shù)據(jù)的重定向與基于點云數(shù)據(jù)的策略預(yù)測

接下來,使用DexCap記錄的人手動作捕捉數(shù)據(jù)來訓(xùn)練靈巧機(jī)器人策略,然后,我們會遇到這幾個問題

  1. 我們?nèi)绾螌⑷耸謩幼髦匦露ㄎ坏綑C(jī)器人手上?
  2. 在雙手設(shè)置中,當(dāng)動作空間是高維的時候,什么算法可以學(xué)習(xí)靈巧策略?
  3. 此外,我們還希望研究直接從人手動作捕捉數(shù)據(jù)中學(xué)習(xí)的失敗案例及其潛在解決方案

為了解決這些挑戰(zhàn),我們引入了DEXIL,這是一個使用人手動作捕捉數(shù)據(jù)訓(xùn)練靈巧機(jī)器人的三步框架

  1. 第一步是將DexCap數(shù)據(jù)重新定位到機(jī)器人的動作和觀察空間中
  2. 第二步使用重新定位的數(shù)據(jù)訓(xùn)練(基于點云的擴(kuò)散策略)
  3. 最后一步是一個可選的human-in-the-loop correction機(jī)制,旨在解決策略執(zhí)行過程中出現(xiàn)的意外行為

1.3.1 數(shù)據(jù)和動作重定向:人手的動作重定向到機(jī)器手上

動作重定向

如上圖(a)所示,由于人手和LEAP手的尺寸差異很大,而這種尺寸差異使得不好直接將手指運(yùn)動轉(zhuǎn)移到機(jī)器人硬件上,故需要先將人手動作捕捉數(shù)據(jù)重新定向到機(jī)器人實體上,這需要使用逆運(yùn)動學(xué)(IK)將手指位置和6自由度手掌姿態(tài)進(jìn)行映射

先前研究中的一個關(guān)鍵發(fā)現(xiàn)是,在與物體互動時,手指尖是手上最常接觸的區(qū)域(如HO-3D [25]、GRAB [76]、ARCTIC [16]等研究所證明的)。 受此啟發(fā),我們通過使用逆運(yùn)動學(xué)(IK)來匹配手指尖位置,重新定向手指運(yùn)動

具體而言,我們使用一種能夠?qū)崟r生成平滑準(zhǔn)確的手指尖運(yùn)動的IK算法[63, 64, 79],以確定機(jī)器人手的16維關(guān)節(jié)位置。 這確保了機(jī)器人手指尖與人手指尖的對齊

  1. 考慮到LEAP手和人手不一樣,其只有4個手指,故在人手到機(jī)器手的IK計算過程中排除了人手中小指的信息
    此外,在動作捕捉數(shù)據(jù)中捕捉到的6自由度手腕姿態(tài)作為IK算法中手腕姿態(tài)的初始參考

    \rightarrow? 首先,把手腕的6自由度姿態(tài)\boldsymbol{p}_{t}=\left[\boldsymbol{R}_{t} \mid \boldsymbol{T}_{t}\right]和LEAP手的手指關(guān)節(jié)位置\boldsymbol{J}_{t},共同被用作機(jī)器人的本體感知狀態(tài)\boldsymbol{s}_{t}=\left(\boldsymbol{p}_{t}, \boldsymbol{J}_{t}\right)
    \rightarrow? 然后,使用位置控制,比如把機(jī)器人的動作標(biāo)簽被定義為下一個未來狀態(tài)\boldsymbol{a}_{t}=\boldsymbol{s}_{t+1}We use position control in our setup and the robot’s action labels are defined as next future states at = st+1
  2. 觀察和狀態(tài)表示的選擇對于訓(xùn)練機(jī)器人策略至關(guān)重要
    最終,他們將LiDAR相機(jī)捕捉到的RGB-D圖像轉(zhuǎn)換為3D點云(We convert the RGB-D images captured by the LiDAR camera in the DEXCAP data into point clouds using the camera parameter)

    且所有點云觀測都被均勻地降采樣為5000個點,并與機(jī)器人的感知狀態(tài)和動作一起存儲在一個hdf5文件中。 然后從整個錄制會話(每個任務(wù)演示10分鐘)中手動注釋每個任務(wù)演示的起始和結(jié)束幀。 訓(xùn)練數(shù)據(jù)集中不包括重置任務(wù)環(huán)境的運(yùn)動
    如下圖所示, 初始列顯示原始點云場景。 第2-7列提供右、中、左三組視圖(兩個視圖一組),且三組視圖中每一組視圖中的藍(lán)色背景列顯示人體數(shù)據(jù),黃色背景列顯示機(jī)器人手部重定位

    與RGB-D輸入相比,這種額外的轉(zhuǎn)換有兩個重要的好處
    \rightarrow? 首先,由于DEXCAP允許人體軀干在數(shù)據(jù)采集過程中自然移動,而直接使用RGB-D輸入需要考慮用于移動相機(jī)框架
    但通過將點云觀測轉(zhuǎn)換為一致的世界坐標(biāo)系(在mocap開始時,紅色主SLAM相機(jī)的坐標(biāo)系定義為世界坐標(biāo)系),便可隔離并消除了軀干運(yùn)動,從而得到穩(wěn)定的機(jī)器人觀測
    \rightarrow??其次,點云在編輯和與機(jī)器人操作空間對齊方面具有更高的靈活性(過程中,通過比較PointNet[58]和Perceiver [35, 42]編碼器來確定最適合點云輸入的編碼器)
    考慮到在野外捕捉到的一些動作可能超出機(jī)器人的可達(dá)范圍,調(diào)整點云觀測和運(yùn)動軌跡的位置可以確保它們在機(jī)器人的操作范圍內(nèi)可行

    故,最終基于以上這些發(fā)現(xiàn),將mocap數(shù)據(jù)中的所有RGB-D幀處理為與機(jī)器人空間對齊的點云,并排除與任務(wù)無關(guān)的元素(例如桌面上的點)
    因此,這些經(jīng)過精細(xì)處理的點云數(shù)據(jù)成為輸入到機(jī)器人策略π的觀測輸入

1.3.2?基于點云的擴(kuò)散策略

通過轉(zhuǎn)換后的機(jī)器人狀態(tài) s_t、動作 a_t和相應(yīng)的三維點云觀測 o_t,我們將機(jī)器人策略學(xué)習(xí)過程形式化為軌跡生成任務(wù)

  1. 對于策略模型π,通過處理點云觀測o_t和機(jī)器人當(dāng)前的本體感知狀態(tài)s_t,以生成一個動作軌跡\left(\boldsymbol{a}_{t}, \boldsymbol{a}_{t+1}, \ldots, \boldsymbol{a}_{t+d}\right)an policy model π, processes the point cloud observations ot and the robot’s current proprioception state st into an action trajectory (at, at+1, . . . , at+d)

  2. \mathbb{R}^{N \times 3}中給定具有N 個點的點云觀測o_t,,然后將其均勻下采樣為K 個點,并將每個點對應(yīng)的RGB像素顏色連接到最終的策略輸入中\mathbb{R}^{K \times 6}(Given point cloud observation with N points ot in RN ×3, we uniformly down-sample it into K points and concatenate the RGB pixel color corresponding to each point into the final policy input in RK×6)
  3. 為了彌合人手和機(jī)器人手之間的視覺差距,使用正向運(yùn)動學(xué)將機(jī)器人模型的鏈接與本體感知狀態(tài)s_t進(jìn)行轉(zhuǎn)換,并將轉(zhuǎn)換后的鏈接的點云合并到觀測o_t

    且在訓(xùn)練過程中,我們還通過在機(jī)器人的操作空間內(nèi)對點云和運(yùn)動軌跡應(yīng)用隨機(jī)的二維平移來進(jìn)行數(shù)據(jù)增強(qiáng)(During training, we also use data augmentation over the inputs by applying random 2D translations to the point clouds and motion trajectories with in the robot’s operational space)

學(xué)習(xí)靈巧機(jī)器人策略的一個挑戰(zhàn),特別是對于雙手靈巧機(jī)器人,是處理大維度的動作輸出

  • 在對應(yīng)的設(shè)置中,動作輸出包括兩個7自由度機(jī)器人臂和兩個16自由度靈巧手在d個步驟中的動作,形成了一個高維回歸問題(which forms a high-dimensional regression problem)
    類似的挑戰(zhàn)也在圖像生成任務(wù)中進(jìn)行了研究,該任務(wù)旨在回歸高分辨率幀中的所有像素值(which aim to regress all pixel values in a high-resolution frame)
  • 最近,擴(kuò)散模型通過其逐步擴(kuò)散過程,在建模具有高維數(shù)據(jù)的復(fù)雜數(shù)據(jù)分布方面取得了成功,比如AI繪畫
    對于機(jī)器人技術(shù),擴(kuò)散策略「詳見此文《UMI——斯坦福刷盤機(jī)器人:從手持夾持器到動作預(yù)測Diffusion Policy(含代碼解讀)》的第三部分」遵循相同的思路

    從而將控制問題形式化為動作生成任務(wù)(For robotics, Diffusion Policy [?Diffusion policy: Visuomotor policy learning via action diffusion] follows the same idea and formalizes the control problem into an action generation task)

    總之,一方面,使用擴(kuò)散策略作為動作解碼器,經(jīng)驗證它在學(xué)習(xí)靈巧機(jī)器人策略方面優(yōu)于傳統(tǒng)的基于MLP的架構(gòu)(比如基于MLP的BC-RNN策略),如下表中,后5行的效果均高于前4行的結(jié)果
    二方面,將DP-perc作為DEXIL的默認(rèn)模型架構(gòu)「其中,1 基于點云的學(xué)習(xí)算法(下表中最后三行的DP-point-raw,DP-point,DP-prec)不需要遮擋mask觀測,且都實現(xiàn)了超過60%的任務(wù)成功率,2,即使不添加機(jī)器人手部點,下表中倒數(shù)第三行的DP-point-raw的性能也接近DP-point。這可能是因為點云輸入的下采樣過程降低了人類手套和機(jī)器人手之間的外觀差距


    至于圖像輸入方法,使用ResNet-18 [29]作為圖像編碼器。 對于基于擴(kuò)散策略的模型,則使用去噪擴(kuò)散隱式模型DDIM進(jìn)行去噪迭代

    至于其他模型的選擇及其他參數(shù)詳見下圖

在每次機(jī)器人動作之后,我們計算機(jī)器人當(dāng)前自我感知與目標(biāo)姿態(tài)之間的距離。 如果它們之間的距離小于一個閾值,認(rèn)為機(jī)器人已經(jīng)達(dá)到了目標(biāo)位置,并將查詢策略獲取下一個動作


為了防止機(jī)器人變得空閑,如果它在規(guī)定的步數(shù)內(nèi)未能達(dá)到目標(biāo)姿態(tài),將重新查詢策略獲取后續(xù)動作,一般在實驗中將步數(shù)設(shè)定為10

1.3.3?人機(jī)協(xié)同校正

通過上述設(shè)計,DEXIL可以直接從DEXCAP數(shù)據(jù)中學(xué)習(xí)具有挑戰(zhàn)性的靈巧操控技能(例如,拾取和放置以及雙手協(xié)調(diào)),而無需使用機(jī)器人數(shù)據(jù)

然而,簡單重定位的方法并未解決人機(jī)融合差距的所有方面。例如,使用剪刀時,穩(wěn)定地握住剪刀需要將手指深入握柄。 由于機(jī)器手指與人手之間長度比例的差異,直接匹配指尖和關(guān)節(jié)運(yùn)動并不能保證對剪刀施加相同的力

為了解決這個問題,我們提供了一種人在環(huán)路中的運(yùn)動校正機(jī)制,包括兩種模式-殘差校正和遠(yuǎn)程操作。在策略執(zhí)行過程中,我們允許人們通過佩戴DEXCAP實時向機(jī)器人提供校正動作(其中人類對策略生成的動作應(yīng)用殘差動作來糾正機(jī)器人行為。 糾正動作被存儲在一個新的數(shù)據(jù)集中,并與原始數(shù)據(jù)集均勻采樣,用于對機(jī)器人策略進(jìn)行微調(diào))

  • 在殘差模式下,DEX-CAP測量人手相對于初始狀態(tài)\left(\boldsymbol{p}_{0}^{H}, \boldsymbol{J}_{0}^{H}\right)在策略展開開始時的位置變化\left(\Delta \boldsymbol{p}_{t}^{H}, \Delta \boldsymbol{J}_{t}^{H}\right)
    位置變化被應(yīng)用為殘差動作\boldsymbol{a}_{t}^{r}=\left(\Delta \boldsymbol{p}_{t}^{H}, \Delta \boldsymbol{J}_{t}^{H}\right)到機(jī)器人策略動作\boldsymbol{a}_{t}=\left(\boldsymbol{p}_{t+1}, \boldsymbol{J}_{t+1}\right),通過\alpha\beta進(jìn)行縮放

    然后可以將校正后的機(jī)器人動作形式化為\boldsymbol{a}_{t}^{\prime}=\left(\boldsymbol{p}_{t+1} \bigoplus \alpha \cdot \Delta \boldsymbol{p}_{t}^{H}, \boldsymbol{J}_{t+1}+\beta \cdot \Delta \boldsymbol{J}_{t}^{H}\right)
    且經(jīng)驗性地發(fā)現(xiàn),設(shè)置小尺度的 β(< 0.1)可以提供最佳用戶體驗,避免手指移動過快
  • 在需要大幅度位置變化時,踩下腳踏板將切換系統(tǒng)到遙操作模式。則此時DEXCAP將不再使用之前的策略推理,而是直接將人類手腕變化應(yīng)用于機(jī)器人手腕姿態(tài)(DEXCAP now ignores the policy rollout and applies human wrist delta directly to the robot wrist pose),機(jī)器人指尖現(xiàn)在直接跟隨人類指尖,相當(dāng)于直接遙控
    換句話說,機(jī)器人指尖將在各自的手腕坐標(biāo)系中通過逆運(yùn)動學(xué)追蹤人類指尖。用戶還可以通過再次踩下腳踏板來在糾正機(jī)器人錯誤后切換回剩余模式

    由于機(jī)器人已經(jīng)學(xué)習(xí)了初始策略,還可以在一小部分回滾中進(jìn)行校正,從而大大減少人力投入。 校正后的動作和觀察結(jié)果存儲在一個新的數(shù)據(jù)集D'中。 訓(xùn)練數(shù)據(jù)是從D'和原始數(shù)據(jù)集D中以等概率抽樣的方式進(jìn)行的,以微調(diào)策略模型,類似于IWR [Human-in the-loop imitation learning using remote teleoperation]

1.4 數(shù)據(jù)

最終,我們使用三種數(shù)據(jù)類型(分別得到了201、129和82個演示):

  1. DEXCAP數(shù)據(jù)捕捉機(jī)器人操作空間內(nèi)的人手動作
    比如剪刀剪裁和泡茶任務(wù)分別獲得了一個小時的DEXCAP數(shù)據(jù),分別產(chǎn)生了104和55個演示
  2. 室外DEXCAP數(shù)據(jù)來自實驗室外環(huán)境
    比如一個小時的室外DEXCAP數(shù)據(jù)提供了96個演示
  3. 使用腳踏板收集human-in-the-loop correction data,用于調(diào)整機(jī)器人動作或啟用遠(yuǎn)程操作以糾正錯誤???
    human-in-the-loop?correction?data?for?adjusting?robot?actions?or?enabling?teleoperation?to?correct?errors,?col-lected using?a foot pedal

數(shù)據(jù)最初以60Hz記錄,然后降采樣到20Hz以匹配機(jī)器人的控制速度,糾錯數(shù)據(jù)直接以20Hz收集

最后,對于機(jī)器人的控制而言,采用Position control,以分層結(jié)構(gòu)的方式進(jìn)行:

  1. 在高層次上,學(xué)習(xí)策略生成下一步的目標(biāo)位置,該位置包括機(jī)器人雙臂末端執(zhí)行器的6自由度姿態(tài)和雙手16維手指關(guān)節(jié)位置
  2. 在低層次上,操作空間控制器(OSC)[A unified approach for motion and force control of robot manipulators: The operational space formulation]連續(xù)地插值將機(jī)械臂軌跡移動到高層次指定的目標(biāo)位置,并將插值的OSC動作傳遞給機(jī)器人執(zhí)行

第二部分 DexCap的源碼剖析

// 待更

http://www.risenshineclean.com/news/11676.html

相關(guān)文章:

  • vs做網(wǎng)站教程長春網(wǎng)站關(guān)鍵詞排名
  • 東莞模板建站軟件seo專員
  • 視頻網(wǎng)站如何建設(shè)專業(yè)代寫軟文
  • 武漢招聘一般用什么網(wǎng)站沙洋縣seo優(yōu)化排名價格
  • 對酒店網(wǎng)站建設(shè)的意見互聯(lián)網(wǎng)廣告行業(yè)
  • 喀什做網(wǎng)站seo快速排名源碼
  • wordpress 菜單 標(biāo)簽科學(xué)新概念seo外鏈平臺
  • 照片做視頻ppt模板下載網(wǎng)站知識營銷成功案例介紹
  • 淡水做網(wǎng)站網(wǎng)頁設(shè)計主題參考
  • word做招聘網(wǎng)站長尾詞挖掘
  • 電影日記網(wǎng)站怎么做界首網(wǎng)站優(yōu)化公司
  • 有免費(fèi)的網(wǎng)址嗎南寧seo專員
  • 做網(wǎng)站造假域名推薦
  • 做論壇網(wǎng)站前段用什么框架好點網(wǎng)絡(luò)廣告的概念
  • 公司網(wǎng)站建設(shè)會計上怎么處理百度產(chǎn)品大全入口
  • 華為公司網(wǎng)站建設(shè)方案網(wǎng)站模板圖片
  • 成立做網(wǎng)站的公司網(wǎng)絡(luò)推廣一個月工資多少
  • 網(wǎng)站開發(fā)推廣招聘官網(wǎng)seo優(yōu)化找哪家做
  • 公司網(wǎng)站上首頁代碼模板互聯(lián)網(wǎng)營銷師是干什么的
  • 企業(yè)網(wǎng)站 asp源碼福州seo服務(wù)
  • 網(wǎng)站建設(shè)的具體過程品牌關(guān)鍵詞排名優(yōu)化怎么做
  • 梧州網(wǎng)站建設(shè)公司企業(yè)營銷推廣方案
  • wordpress管理插件旺道seo推廣系統(tǒng)怎么收費(fèi)
  • wordpress dux 5.3關(guān)鍵詞推廣優(yōu)化app
  • seo短視頻網(wǎng)頁入口引流在線百度seo一本通
  • 記錄開發(fā)wordpress杭州百度seo
  • 十個最好的網(wǎng)站北京建站公司
  • 蘭州網(wǎng)絡(luò)廣告設(shè)計價格聊石家莊seo
  • h5做商城網(wǎng)站國內(nèi)最近的新聞大事
  • 網(wǎng)站備案主體更換百度提交入口地址在哪