php網(wǎng)站的客服窗口怎么做關(guān)鍵詞推廣怎么做
首先解釋這篇工作名稱(chēng)Palm-E,發(fā)表時(shí)間為2023.03,其中的Palm是谷歌內(nèi)部在2022.04開(kāi)發(fā)的大語(yǔ)言模型,功能類(lèi)似ChatGPT,只是由于各種原因沒(méi)有那樣火起來(lái),E是Embodied的首字母,翻譯過(guò)來(lái)就是具身多模態(tài)大語(yǔ)言模型大模型,我們一般習(xí)慣將其稱(chēng)為具身多模態(tài)大模型。
何為具身?這個(gè)詞聽(tīng)起來(lái)非常陌生,簡(jiǎn)單說(shuō)就是AI+agent(機(jī)器人是其中一種agent)的結(jié)合,強(qiáng)調(diào)的的agent通過(guò)與環(huán)境互動(dòng)來(lái)獲取智能,類(lèi)似人類(lèi)獲得智能的范式,博主將在之后的博客里做專(zhuān)門(mén)篇幅講解,歡迎大家繼續(xù)關(guān)注,下面開(kāi)始來(lái)詳細(xì)拆解這篇論文。
Palm-E兩大任務(wù):視覺(jué)問(wèn)答(VQA)和具身任務(wù)規(guī)劃
Palm-E用統(tǒng)一的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練方式進(jìn)行多任務(wù),主要包括視覺(jué)問(wèn)答(VQA)和具身任務(wù)規(guī)劃。
具身任務(wù)規(guī)劃
該任務(wù)要求大模型能理解人類(lèi)的語(yǔ)言和意圖,還需要機(jī)器人觀察和操作環(huán)境中的物體,以及規(guī)劃一系列的子目標(biāo)和動(dòng)作。其輸入是多模態(tài)的輸入(如文本、圖像、觸覺(jué)信息以及機(jī)器人的3D空間狀態(tài)等),輸出可被機(jī)器人逐步執(zhí)行的任務(wù)步驟,比如當(dāng)我們讓其去抽屜里拿薯片,Palm-e會(huì)輸出如下子任務(wù)步驟,而后機(jī)器人利用其它模塊(我們稱(chēng)之為Policy,本工作用了RT1和LAVA這兩個(gè)Policy來(lái)執(zhí)行這些步驟skill)來(lái)逐步執(zhí)行之:
step1:導(dǎo)航到抽屜;
step2:打開(kāi)抽屜;
step3:取出薯片;
step4:關(guān)閉抽屜;
step5:導(dǎo)航至主人處;
step6:將薯片交給主人;
VQA
該任務(wù)與agent無(wú)關(guān),用戶(hù)輸入圖片和想問(wèn)的問(wèn)題,大模型輸出對(duì)問(wèn)題的文字回復(fù)。
貢獻(xiàn)
- 提出和演示一個(gè)通用的,可遷移學(xué)習(xí)的,智能決策的多模態(tài)大模型;
- 訓(xùn)練方面,引入先進(jìn)的結(jié)構(gòu)思想,使得可以對(duì)多模態(tài)輸入數(shù)據(jù)進(jìn)行符號(hào)表征,用于訓(xùn)練推理,如neural scene representations ,entity-labeling multimodal tokens.
- 除了具身推理(embodied reasoner), PaLM-E也是一個(gè)視覺(jué)語(yǔ)言方面的通才;
- 演示了增大模型的規(guī)??梢詷O大地提升多模態(tài)大模型性能,特別是減少災(zāi)難性遺忘(catastrophic forgetting)
Palm-E網(wǎng)絡(luò)結(jié)構(gòu)
整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)如上所示,多模態(tài)數(shù)據(jù)(圖像,文本,物體狀態(tài)等)經(jīng)過(guò)特定的編碼后直接輸送到大語(yǔ)言模型,借助大語(yǔ)言模型的能力輸出文字,這些文字可以是對(duì)問(wèn)題的回復(fù),也可以是對(duì)任務(wù)的規(guī)劃。(看上去大家都應(yīng)該學(xué)fei了)
訓(xùn)練與實(shí)驗(yàn)
文章大篇幅介紹了相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)集如下,主要包括網(wǎng)絡(luò)VQA數(shù)據(jù)和機(jī)器人軌跡數(shù)據(jù)。
實(shí)驗(yàn)通過(guò)消融對(duì)比了不同大語(yǔ)言模型規(guī)模和訓(xùn)練方式對(duì)任務(wù)的影響。
VQA任務(wù)
VQA不是本工作的核心,但附帶也能進(jìn)行此類(lèi)認(rèn)為,因此也做了相關(guān)測(cè)評(píng),該實(shí)驗(yàn)對(duì)比了不同規(guī)模模型和訓(xùn)練方式對(duì)該任務(wù)的影響,結(jié)果如下:
純語(yǔ)言任務(wù)
該實(shí)驗(yàn)對(duì)比了不同規(guī)模模型對(duì)純語(yǔ)言問(wèn)答任務(wù)的影響。
機(jī)器人具身規(guī)劃任務(wù)
這一部分是本工作的核心,驗(yàn)證了大語(yǔ)言模型規(guī)模和訓(xùn)練方式對(duì)該任務(wù)的影響,分別在TAMP(純規(guī)劃),Language table(機(jī)械臂桌面push任務(wù))和機(jī)器人移動(dòng)操作任務(wù)(室內(nèi)移動(dòng)操作任務(wù))上進(jìn)行對(duì)比。
TAMP(Task and Motion Planning)任務(wù)
Language-Table
在該任務(wù)中,Palm-E規(guī)劃任務(wù),將高層次的人類(lèi)語(yǔ)言轉(zhuǎn)化成多個(gè)機(jī)器人可執(zhí)行步驟,然后調(diào)用LAVA這個(gè)工作執(zhí)行,整個(gè)工作流程如下所示:
一些實(shí)驗(yàn)結(jié)果如下所示:
移動(dòng)操作任務(wù)
可供性評(píng)估(Affordance prediction)和失敗檢測(cè)
Affordance是指根據(jù)圖片判斷某個(gè)子任務(wù)skill可否被成功執(zhí)行,失敗檢測(cè)是指根據(jù)觀測(cè),判斷任務(wù)是否被成功完成,兩者都是機(jī)器人閉環(huán)任務(wù)規(guī)劃的一大重要環(huán)節(jié),對(duì)比結(jié)果如下:
長(zhǎng)水平規(guī)劃(Long-horizon)
實(shí)驗(yàn)摘要和討論
通用性與特定任務(wù)模型–遷移性(Generalist vs specialist models – transfer)
利用多任務(wù)數(shù)據(jù)訓(xùn)練,最終可對(duì)單個(gè)任務(wù)起促進(jìn)作用。(但這個(gè)實(shí)驗(yàn)博主覺(jué)得不太嚴(yán)密,缺乏一個(gè)full only robot data實(shí)驗(yàn))
數(shù)據(jù)有效性(Data efficiency)
機(jī)器人的數(shù)據(jù)很難獲得,但通過(guò)大量網(wǎng)絡(luò)數(shù)據(jù)的訓(xùn)練,Palm-E也可在少量機(jī)器人數(shù)據(jù)上訓(xùn)練出一個(gè)不錯(cuò)的用于任務(wù)規(guī)劃的模型,體現(xiàn)了一定的遷移性,OSRT的結(jié)果展示了另一種數(shù)據(jù)有效性的示例–使用集合輸入表征。
保存純語(yǔ)言能力
論文介紹了兩種方法:
- 訓(xùn)練過(guò)程中freeze住LLM模型,但這可能會(huì)使得在機(jī)器人任務(wù)中很失敗;
- 使用足夠大的LLM模型。
總結(jié)
我們提出通過(guò)將圖像等多模態(tài)信息注入到具身語(yǔ)言模型中來(lái)構(gòu)建具身多模態(tài)大語(yǔ)言模型。實(shí)驗(yàn)表明現(xiàn)成的最先進(jìn)的視覺(jué)語(yǔ)言模型僅接受一般 VQA 和字幕任務(wù)的訓(xùn)練還不足以用于具身推理任務(wù),也有近期的工作表明了其在可供性評(píng)估上的局限性,為了克服這些局限性,我們提出PaLM-E,一個(gè)單一模型,能夠在模擬和現(xiàn)實(shí)世界中控制不同的機(jī)器人,同時(shí)
具備一般視覺(jué)語(yǔ)言任務(wù)能力。尤其是將新穎的神經(jīng)場(chǎng)景表示 (即 OSRT)應(yīng)用到Pla-E,使得即使沒(méi)有大規(guī)模數(shù)據(jù),該模型在機(jī)器人多任務(wù)中也特別有效。重要的是,我們也證明這種多模態(tài)訓(xùn)練帶來(lái)多種遷移能力——將語(yǔ)言融入具身決策規(guī)劃中,從而使機(jī)器人更高效地完成規(guī)劃任務(wù)。盡管我們的結(jié)果表明凍結(jié)語(yǔ)言模型是可行的,使得通向通用具身多模式模型的道路同時(shí)完全保留語(yǔ)言能力,我們還提出了使用解凍模型的替代途徑:增加語(yǔ)言模型的大小會(huì)顯著減少災(zāi)難性遺忘。最大的模型,PaLM-E-562B,展示了強(qiáng)大的思維鏈能力和視覺(jué)圖像任務(wù)能力。
個(gè)人思考
谷歌Palm-E的工作向我們展示了將大語(yǔ)言模型和多模態(tài)應(yīng)用于機(jī)器人具身規(guī)劃中,可以動(dòng)態(tài)規(guī)劃任務(wù),同時(shí)展現(xiàn)了一定的遷移泛化性。但這個(gè)工作比較難以復(fù)現(xiàn),模型易懂,但其中最大問(wèn)題就在于它需要大量的數(shù)據(jù),如同大多數(shù)其他AI工作一樣,機(jī)器人具身大規(guī)模數(shù)據(jù)才是最大的瓶頸。