南京網(wǎng)站開發(fā)注冊(cè)app國(guó)外直播平臺(tái)tiktok
原創(chuàng) | |
1 | 從感知決策到具身智能的技術(shù)躍遷與挑戰(zhàn)(基座模型與VLA模型) |
2 | ALOHA機(jī)器人平臺(tái):低成本、高精度雙臂操作及其進(jìn)展深度解析 |
3 | (上)通用智能體與機(jī)器人Transformer:Gato和RT-1技術(shù)解析及與LLM Transformer的異同 |
4 | (下)通用智能體與機(jī)器人Transformer:Gato和RT-1技術(shù)解析及與LLM Transformer的異同 |
接上篇《(上)通用智能體與機(jī)器人Transformer:Gato和RT-1技術(shù)解析及與LLM Transformer的異同? 》
3. Google/DeepMind的“RT-1 (Robotics Transformer 1)”
RT-1
3.1. 動(dòng)機(jī)與愿景:擴(kuò)展機(jī)器人泛化能力
- 機(jī)器人領(lǐng)域的挑戰(zhàn): 與計(jì)算機(jī)視覺(jué)或自然語(yǔ)言處理不同,機(jī)器人領(lǐng)域在收集真實(shí)世界數(shù)據(jù)方面面臨獨(dú)特挑戰(zhàn),這使得模型的泛化能力尤為關(guān)鍵。傳統(tǒng)的端到端機(jī)器人學(xué)習(xí)通常涉及收集狹隘、任務(wù)特定的數(shù)據(jù)。
- 借鑒基礎(chǔ)模型的成功經(jīng)驗(yàn): RT-1的動(dòng)機(jī)是借鑒現(xiàn)代機(jī)器學(xué)習(xí)模型(它們利用大規(guī)模、多樣化、任務(wù)無(wú)關(guān)的數(shù)據(jù)集實(shí)現(xiàn)零樣本或少樣本性能)的成功經(jīng)驗(yàn),將其轉(zhuǎn)移到機(jī)器人領(lǐng)域。
- 成功的關(guān)鍵: 作者認(rèn)為,成功的關(guān)鍵在于開放式、任務(wù)無(wú)關(guān)的訓(xùn)練,結(jié)合能夠吸收多樣化機(jī)器人數(shù)據(jù)的高容量架構(gòu)。這使得模型能夠“吸收”經(jīng)驗(yàn)并學(xué)習(xí)適用于單個(gè)任務(wù)的通用模式,從而提高效率。
3.2. 技術(shù)架構(gòu)與輸入/輸出處理
??
- 基于Transformer的機(jī)器人控制模型:?RT-1(機(jī)器人Transformer 1)是一種基于Transformer的新型架構(gòu),專門為大規(guī)模真實(shí)世界機(jī)器人控制而設(shè)計(jì)。它接收一系列圖像和自然語(yǔ)言任務(wù)描述作為輸入,并輸出機(jī)器人每一步需要執(zhí)行的動(dòng)作。該模型通過(guò)將高維輸入(攝像機(jī)圖像、指令)和輸出(電機(jī)指令)編碼為緊湊的Token表示供Transformer使用,從而實(shí)現(xiàn)高效的運(yùn)行時(shí)推理,以進(jìn)行實(shí)時(shí)控制。
動(dòng)作Token化:離散化處理
機(jī)器人的動(dòng)作被分解為多個(gè)維度,以實(shí)現(xiàn)精細(xì)控制。這包括:
手臂運(yùn)動(dòng): 7個(gè)變量,涵蓋了三維位置 (x, y, z)、三維姿態(tài) (roll, pitch, yaw) 以及夾持器的開合狀態(tài) 。 ?
底座運(yùn)動(dòng): 3個(gè)變量,包括二維位置 (x, y) 和一個(gè)偏航角 (yaw) 。 ?
模式切換: 一個(gè)額外的離散變量,用于在三種模式之間切換:控制手臂、控制底座或終止任務(wù) 。 ?
每個(gè)動(dòng)作維度都被離散化為256個(gè)bin 。目標(biāo)值被映射到這些均勻分布的bin中的一個(gè) 。這種每維度離散化的動(dòng)作表示允許模型捕獲復(fù)雜的多模態(tài)分布,這比標(biāo)準(zhǔn)連續(xù)高斯分布只能捕獲單一模式有顯著改進(jìn),從而提升了動(dòng)作的精確性和多樣性 。 ?
1. 連續(xù)動(dòng)作 vs. 離散化動(dòng)作連續(xù)動(dòng)作(Continuous Actions):在傳統(tǒng)的機(jī)器人控制中,機(jī)器人的關(guān)節(jié)角度、末端執(zhí)行器位置(x, y, z)、姿態(tài)(roll, pitch, yaw)等都是連續(xù)的數(shù)值。
例如,一個(gè)關(guān)節(jié)可能在 0 到 360 度之間連續(xù)變化,夾持器開合度可以在 0 到 0.1 米之間連續(xù)變化。大多數(shù)強(qiáng)化學(xué)習(xí)算法在處理這些連續(xù)動(dòng)作時(shí),通常會(huì)假設(shè)動(dòng)作服從高斯分布,并直接輸出均值和方差,讓機(jī)器人從這個(gè)分布中采樣一個(gè)動(dòng)作。離散化動(dòng)作(Discretized Actions):RT-1 沒(méi)有直接輸出連續(xù)值,而是將每個(gè)連續(xù)的動(dòng)作維度(如手臂的 x 坐標(biāo)、y 坐標(biāo)、roll 等)都切分成固定數(shù)量的“小區(qū)間”或“桶”(bins)。就像把一條很長(zhǎng)的線段均勻地切成 256 小段一樣。2. 256個(gè)Bin的含義“每個(gè)動(dòng)作維度都被離散化為256個(gè)bin”意味著,對(duì)于像手臂的 x 坐標(biāo)這樣的一個(gè)連續(xù)維度,它不再是一個(gè)無(wú)限可能的小數(shù),而是被強(qiáng)制映射到 256 個(gè)預(yù)定義的整數(shù)索引中的一個(gè)。例如,如果手臂的 x 坐標(biāo)范圍是 -1 到 1 米:Bin 0 可能對(duì)應(yīng) -1.0 到 -0.992 米Bin 1 可能對(duì)應(yīng) -0.992 到 -0.984 米...Bin 255 可能對(duì)應(yīng) 0.992 到 1.0 米這樣,模型要預(yù)測(cè)的不再是一個(gè)浮點(diǎn)數(shù),而是一個(gè)介于 0 到 255 之間的離散整數(shù)。這使得動(dòng)作預(yù)測(cè)變成了一個(gè)分類問(wèn)題:模型需要從 256 個(gè)可能的 Bin 中選擇一個(gè)。3. 為什么這樣做(捕獲復(fù)雜多模態(tài)分布)這是這種離散化方法的關(guān)鍵優(yōu)勢(shì),也是它比標(biāo)準(zhǔn)高斯分布有顯著改進(jìn)的地方:標(biāo)準(zhǔn)連續(xù)高斯分布捕獲單一模式的局限性:如果你用一個(gè)**高斯分布**來(lái)預(yù)測(cè)動(dòng)作,它會(huì)輸出一個(gè)均值和一個(gè)方差。這意味著它傾向于認(rèn)為只有一個(gè)“最佳”的動(dòng)作,而且這個(gè)最佳動(dòng)作周圍的動(dòng)作也比較可能。這種方法只能很好地表達(dá)**單一的、集中在某個(gè)點(diǎn)上的行為模式。然而,在復(fù)雜的機(jī)器人任務(wù)中,通常可能存在多種同樣有效或合理的操作方式來(lái)完成一個(gè)子任務(wù)。例如,機(jī)器人可以從左邊或右邊抓取一個(gè)物體;或者在某個(gè)狀態(tài)下,既可以抬高手臂也可以降低手臂,這取決于下一步的策略。高斯分布很難同時(shí)表示這些多樣的、分散的“最佳”動(dòng)作。它可能會(huì)把所有這些“最佳”動(dòng)作平均掉,導(dǎo)致預(yù)測(cè)一個(gè)位于它們中間的、實(shí)際上可能并不好的動(dòng)作。離散化動(dòng)作的優(yōu)勢(shì):捕獲復(fù)雜的多模態(tài)分布:通過(guò)將動(dòng)作離散化為多個(gè) Bin,模型可以為每個(gè) Bin 學(xué)習(xí)一個(gè)概率分布(就像分類任務(wù)一樣)。如果存在多種合理的動(dòng)作方式,模型可以同時(shí)為這些不同動(dòng)作對(duì)應(yīng)的 Bin 分配較高的概率。例如,如果從左邊抓取物體對(duì)應(yīng)的 x 坐標(biāo)在 Bin 50,從右邊抓取在 Bin 200,模型可以同時(shí)預(yù)測(cè) Bin 50 和 Bin 200 都有高概率,而不是只預(yù)測(cè)一個(gè)介于 50 和 200 之間(可能導(dǎo)致撞到物體)的 Bin。這種能力使得模型能夠理解和預(yù)測(cè)動(dòng)作空間中存在的多個(gè)“高峰”(modes),這些高峰代表了不同的可行行為。這被稱為捕獲多模態(tài)分布(multimodal distributions)。4. 提升動(dòng)作的精確性和多樣性精確性(Precision):通過(guò)細(xì)致地切分 256 個(gè) Bin,模型可以在預(yù)測(cè)時(shí)達(dá)到相當(dāng)高的精度,因?yàn)樗匀皇窃谝粋€(gè)連續(xù)的范圍內(nèi)進(jìn)行選擇,只是選擇的粒度是 1/256。同時(shí),由于能捕獲多模態(tài),模型可以更精確地選擇最適合當(dāng)前狀態(tài)的某個(gè)動(dòng)作模式。
多樣性(Diversity):這是最大的優(yōu)點(diǎn)。當(dāng)有多種合法且有效的行為時(shí),模型不會(huì)被限制在單一預(yù)測(cè)上。它能夠識(shí)別并學(xué)習(xí)到這些不同的有效策略,從而使得機(jī)器人的行為更加靈活和多樣化,更能夠適應(yīng)復(fù)雜和不確定的真實(shí)世界環(huán)境。
表1: RT-1 動(dòng)作空間離散化詳情
動(dòng)作類型 | 維度數(shù)量 | 具體維度 | 離散化Bins數(shù)量 |
---|---|---|---|
手臂運(yùn)動(dòng) | 7 | x, y, z, roll, pitch, yaw, 夾持器開合 | 256 |
底座運(yùn)動(dòng) | 3 | x, y, yaw | 256 |
模式切換 | 1 | 控制手臂, 控制底座, 終止任務(wù) | 3 (離散變量) |
-
輸入處理流程:
(1)?視覺(jué)特征: 圖像首先通過(guò)ImageNet預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(EfficientNet)進(jìn)行處理。該EfficientNet通過(guò)FiLM(Feature-wise Linear Modulation)層,根據(jù)預(yù)訓(xùn)練的自然語(yǔ)言指令嵌入進(jìn)行條件化,以提取與任務(wù)相關(guān)的視覺(jué)特征。EfficientNet 的輸出是一系列高維的特征圖(feature maps),這些特征圖包含了圖像的豐富語(yǔ)義和空間信息,但通常具有較高的維度和冗余性。例如,一個(gè)?\(H \times W \times C\)?的特征圖,如果直接展平,會(huì)產(chǎn)生大量的特征向量。
FiLM (Feature-wise Linear Modulation) 是一種非常強(qiáng)大且通用的神經(jīng)網(wǎng)絡(luò)條件化方法,它允許一個(gè)神經(jīng)網(wǎng)絡(luò)的計(jì)算過(guò)程根據(jù)另一個(gè)輸入(條件信息)進(jìn)行動(dòng)態(tài)調(diào)整。這在多模態(tài)任務(wù)中特別有用,比如在 RT-1 中,它能讓圖像特征的提取過(guò)程被自然語(yǔ)言指令所“引導(dǎo)”。
FiLM 的核心思想是,它通過(guò)一個(gè)簡(jiǎn)單的特征維度上的仿射變換(affine transformation)來(lái)調(diào)制(modulate)神經(jīng)網(wǎng)絡(luò)中間層的激活值。這個(gè)仿射變換的參數(shù)(縮放因子?和偏移量?
)是由另一個(gè)獨(dú)立的網(wǎng)絡(luò)(稱為 FiLM 生成器,FiLM Generator)根據(jù)條件信息動(dòng)態(tài)生成的。
用數(shù)學(xué)公式表示,如果??是某個(gè)神經(jīng)網(wǎng)絡(luò)層(例如卷積層或全連接層)的輸出激活值,那么經(jīng)過(guò) FiLM 層調(diào)制后的輸出?
為:
其中:
是輸入到 FiLM 層的特征圖或激活值。
表示逐元素乘法 (element-wise multiplication),也稱為 Hadamard 乘積。
(gamma)是縮放因子 (scaling factor)。
(beta)是偏移量 (bias / shifting factor)。
關(guān)鍵在于:
和?
不是可學(xué)習(xí)的固定參數(shù)(像傳統(tǒng)神經(jīng)網(wǎng)絡(luò)層中的權(quán)重那樣),它們是由 FiLM 生成器根據(jù)條件信息動(dòng)態(tài)計(jì)算出來(lái)的。
?和?
?的維度與?
的特征維度(即通道數(shù))匹配,并且對(duì)每個(gè)特征通道獨(dú)立應(yīng)用。這就是“Feature-wise”的含義。
FiLM 生成器 (FiLM Generator)
FiLM 的另一個(gè)關(guān)鍵部分是FiLM 生成器。這是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),它接收條件信息作為輸入,然后輸出對(duì)應(yīng)每個(gè)特征通道的和?
值。
例如,在 RT-1 中:
- 條件信息:?自然語(yǔ)言指令(例如,經(jīng)過(guò)編碼器處理后的語(yǔ)言嵌入向量)。
- FiLM 生成器:?一個(gè)小型神經(jīng)網(wǎng)絡(luò)(通常是幾層全連接層),它將語(yǔ)言嵌入向量作為輸入。
- 輸出:?生成器輸出兩個(gè)向量,一個(gè)用于?
,一個(gè)用于?
。這兩個(gè)向量的維度與被調(diào)制的目標(biāo)網(wǎng)絡(luò)層的特征通道數(shù)相同。
FiLM 如何影響神經(jīng)網(wǎng)絡(luò)計(jì)算
FiLM 通過(guò)動(dòng)態(tài)地縮放和偏移特征激活值,賦予模型強(qiáng)大的條件化能力:
-
動(dòng)態(tài)調(diào)整特征表示:?語(yǔ)言指令(或任何其他條件信息)可以通過(guò)?
?和
?來(lái)動(dòng)態(tài)地調(diào)整圖像特征的表示。
-
例如,如果指令是“抓取紅色方塊”,FiLM 層可能會(huì)學(xué)習(xí)到提高與“紅色”特征相關(guān)的通道的激活值(通過(guò)大的?
),并抑制與背景或不相關(guān)顏色相關(guān)的通道的激活值(通過(guò)小的?\
甚至負(fù)的?
,如果后面跟著 ReLU 激活,這能有效地“關(guān)閉”某些通道)。
-
?則可以用來(lái)調(diào)整特征的基線或激活閾值。
-
實(shí)現(xiàn)跨模態(tài)交互:?FiLM 使得視覺(jué)骨干網(wǎng)絡(luò)(例如 EfficientNet)的計(jì)算能夠被文本指令所“引導(dǎo)”。這意味著圖像特征的提取不再是靜態(tài)的,而是根據(jù)當(dāng)前任務(wù)和指令進(jìn)行自適應(yīng)的調(diào)整。
-
細(xì)粒度控制:?由于?
和?
是逐特征(逐通道)計(jì)算的,FiLM 提供了對(duì)神經(jīng)網(wǎng)絡(luò)內(nèi)部特征表示的細(xì)粒度控制。這比簡(jiǎn)單地將條件信息拼接(concatenation)到輸入特征中更強(qiáng)大,因?yàn)樗梢灾苯有薷奶卣鞯恼Z(yǔ)義含義。
-
提高泛化能力:?通過(guò)條件化,模型可以更好地泛化到新的任務(wù)或場(chǎng)景。例如,如果模型學(xué)習(xí)了如何根據(jù)顏色指令處理圖像,它就可以在看到新顏色物體時(shí),通過(guò)調(diào)整?
和?
來(lái)適應(yīng)。
FiLM 層的原理是:通過(guò)一個(gè)輔助網(wǎng)絡(luò)(FiLM 生成器)根據(jù)外部條件信息動(dòng)態(tài)生成縮放因子?\和偏移量?
,然后將這些參數(shù)逐特征地應(yīng)用到目標(biāo)神經(jīng)網(wǎng)絡(luò)層的激活值上,從而實(shí)現(xiàn)對(duì)目標(biāo)網(wǎng)絡(luò)計(jì)算過(guò)程的動(dòng)態(tài)調(diào)制。?這使得模型能夠根據(jù)條件信息自適應(yīng)地處理和理解數(shù)據(jù),極大地增強(qiáng)了神經(jīng)網(wǎng)絡(luò)在多模態(tài)和條件生成任務(wù)中的靈活性和性能。
- Token學(xué)習(xí)器模塊: 在圖像和文本處理之后,RT-1架構(gòu)的一個(gè)關(guān)鍵組件是Token學(xué)習(xí)器模塊。該模塊負(fù)責(zé)從處理過(guò)的視覺(jué)特征中計(jì)算出一組緊湊的Token,然后將其輸入到Transformer中。這一步驟對(duì)于效率至關(guān)重要,因?yàn)門ransformer網(wǎng)絡(luò)(盡管容量大)需要保持相對(duì)較小(僅接收48個(gè)Token作為輸入),以確保快速推理和對(duì)人類用戶的響應(yīng)能力。這表明它專注于為Transformer提供高度壓縮的相關(guān)信息。
RT-1 的Token 學(xué)習(xí)器模塊 (Token Learner module) 是其架構(gòu)中一個(gè)非常重要的組件,它的主要作用是**將從圖像中提取的豐富但冗余的視覺(jué)特征,壓縮成一組緊湊、有代表性的 Token 序列,以便高效地輸入到 Transformer 模型中進(jìn)行處理**。目的:Token 學(xué)習(xí)器模塊的任務(wù)就是將 EfficientNet 輸出的這些高維、冗余的視覺(jué)特征圖,轉(zhuǎn)化成一個(gè)**固定數(shù)量且高度壓縮的 Token 序列**。為什么要這樣做?因?yàn)?Transformer 的注意力機(jī)制計(jì)算成本與輸入序列長(zhǎng)度的平方成正比。直接使用原始的圖像特征(例如,將每個(gè)像素或每個(gè)小塊的特征都視為一個(gè) Token)會(huì)導(dǎo)致序列過(guò)長(zhǎng),使得 Transformer 的計(jì)算量過(guò)大,難以在實(shí)時(shí)機(jī)器人控制中應(yīng)用。Token 學(xué)習(xí)器通過(guò)“學(xué)習(xí)”的方式來(lái)選擇和組合最重要的視覺(jué)信息,從而有效地減少了序列長(zhǎng)度,同時(shí)保留了關(guān)鍵的視覺(jué)信息。計(jì)算原理: Token 學(xué)習(xí)器模塊本質(zhì)上是一個(gè)**注意力機(jī)制或基于卷積的模塊**,它通過(guò)學(xué)習(xí)的方式從輸入特征圖中“提煉”出少數(shù)幾個(gè)代表性的 Token。具體的計(jì)算過(guò)程可以概括為:Query Generation:Token 學(xué)習(xí)器內(nèi)部會(huì)生成一組可學(xué)習(xí)的“查詢向量”(或稱“原型向量”)。這些查詢向量的數(shù)量就是最終希望得到的 Token 數(shù)量(例如,RT-1 使用 8 或 16 個(gè) Token)。注:查詢向量作用類似于卷積核,它是通過(guò)一次次訓(xùn)練學(xué)習(xí)到的,代表了不同的“關(guān)注點(diǎn)”,當(dāng)一個(gè)圖像的視覺(jué)特征圖(Keys 和 Values)輸入時(shí),每個(gè)查詢向量會(huì)計(jì)算它與特征圖中所有“鍵”向量的相似度。Token 學(xué)習(xí)器的輸出不是動(dòng)作,而是一組固定數(shù)量的、壓縮了圖像核心信息的視覺(jué) Token 序列注意力加權(quán) (Attention Weighting)**:這些查詢向量會(huì)與 EfficientNet 提取的視覺(jué)特征圖進(jìn)行交互。這種交互通常通過(guò)一個(gè)**注意力機(jī)制**來(lái)實(shí)現(xiàn)。具體來(lái)說(shuō),每個(gè)查詢向量會(huì)與特征圖中的所有位置(或特征向量)計(jì)算相似度得分。這些相似度得分被歸一化(例如通過(guò) Softmax)得到注意力權(quán)重。這些權(quán)重表示了特征圖中每個(gè)部分對(duì)當(dāng)前查詢向量的“重要性”或“相關(guān)性”。加權(quán)求和 (Weighted Summation)**:將計(jì)算出的注意力權(quán)重應(yīng)用于原始的視覺(jué)特征圖。每個(gè)查詢向量會(huì)對(duì)應(yīng)一個(gè)“加權(quán)求和”后的特征向量,這個(gè)向量就是最終輸出的一個(gè) Token。這意味著,每個(gè) Token 實(shí)際上是原始特征圖中多個(gè)位置特征的**軟組合**,其中權(quán)重由注意力機(jī)制學(xué)習(xí)。輸出 Token 序列:** 最終,Token 學(xué)習(xí)器輸出一個(gè)固定數(shù)量的 Token 序列,例如 `[token_1, token_2, ..., token_N]`,其中每個(gè) Token 都代表了圖像中經(jīng)過(guò)選擇和壓縮的關(guān)鍵視覺(jué)信息。類比理解:Token 學(xué)習(xí)器可以想象成一個(gè)“信息篩選器”或“摘要器”。它不是簡(jiǎn)單地對(duì)圖像進(jìn)行固定分割,而是學(xué)習(xí)哪些圖像區(qū)域或特征組合對(duì)于理解當(dāng)前任務(wù)和預(yù)測(cè)動(dòng)作是最重要的,并把這些重要信息壓縮到少量 Token 中。例如,在抓取任務(wù)中,Token 學(xué)習(xí)器可能會(huì)學(xué)習(xí)將注意力集中在物體及其周圍區(qū)域的特征,而忽略背景中不相關(guān)的細(xì)節(jié)。總結(jié) Token 學(xué)習(xí)器計(jì)算的關(guān)鍵點(diǎn):輸入: 經(jīng)過(guò) CNN(EfficientNet + FiLM)處理的高維、豐富的視覺(jué)特征圖。
輸出:一組數(shù)量固定且緊湊的視覺(jué) Token 序列。
核心機(jī)制: 通常是基于注意力機(jī)制的加權(quán)求和,通過(guò)學(xué)習(xí)查詢向量與輸入特征圖的交互,動(dòng)態(tài)地選擇和組合最重要的視覺(jué)信息。
目的: 壓縮視覺(jué)信息,減少序列長(zhǎng)度,從而提高 Transformer 的計(jì)算效率和實(shí)時(shí)推理能力,同時(shí)保留對(duì)任務(wù)決策至關(guān)重要的視覺(jué)特征。
- Transformer核心: RT-1的核心是一個(gè)僅解碼器Transformer網(wǎng)絡(luò)。該Transformer對(duì)Token學(xué)習(xí)器生成的緊湊Token集進(jìn)行注意力處理,以生成離散的動(dòng)作Token。動(dòng)作是高度細(xì)粒度的,包括:
- 七個(gè)用于手臂運(yùn)動(dòng)的維度(x、y、z、滾轉(zhuǎn)、俯仰、偏航、夾持器開合)。
- 三個(gè)用于底座運(yùn)動(dòng)的維度(x、y、偏航)。
- 一個(gè)額外的離散維度,用于在三種操作模式之間切換:控制手臂、控制底座或終止回合。
-
閉環(huán)控制機(jī)制: RT-1以閉環(huán)控制方式運(yùn)行,以3赫茲的頻率發(fā)出動(dòng)作指令,直到發(fā)出“終止”動(dòng)作或達(dá)到預(yù)設(shè)的時(shí)間步數(shù)。盡管其擁有3500萬(wàn)參數(shù),但由于其高效的架構(gòu),實(shí)現(xiàn)了這種實(shí)時(shí)控制。
RT-1架構(gòu)的一個(gè)關(guān)鍵特點(diǎn)是,與Gato更統(tǒng)一的Token化方法不同,它在主Transformer之前使用了專門的預(yù)處理模塊,如帶有FiLM層的ImageNet預(yù)訓(xùn)練EfficientNet和Token學(xué)習(xí)器。這表明,對(duì)于機(jī)器人技術(shù)而言,原始像素?cái)?shù)據(jù)可能維度過(guò)高或噪聲過(guò)大,以至于純Transformer難以高效處理, 尤其是在實(shí)時(shí)約束下。這種因果關(guān)系在于,這些專門模塊充當(dāng)智能特征提取器和降維器,將最顯著的視覺(jué)和語(yǔ)言信息提煉成緊湊的Token表示(48個(gè)Token),然后由隨后的Transformer進(jìn)行有效推理以生成動(dòng)作。這更廣泛的意義是,對(duì)于真實(shí)世界的機(jī)器人技術(shù),從原始像素到動(dòng)作的純“端到端”Transformer可能尚未達(dá)到最佳或可行狀態(tài); 采用混合架構(gòu),利用特定領(lǐng)域的感知組件,可以顯著提高效率和性能,彌合高層推理和低層控制之間的鴻溝。
3.3. 數(shù)據(jù)收集策略與泛化能力
特征 | 描述 | 來(lái)源 |
---|---|---|
機(jī)器人數(shù)量 | 13臺(tái) Everyday Robots (EDR) 移動(dòng)機(jī)械臂車隊(duì) | Everyday Robots (EDR) |
數(shù)據(jù)收集時(shí)長(zhǎng) | 17個(gè)月 | EDR 機(jī)器人課堂 (辦公室廚房環(huán)境) |
Episode數(shù)量 | 約13萬(wàn)個(gè) | 人類遠(yuǎn)程遙操作演示 |
任務(wù)數(shù)量 | 超過(guò)700個(gè),涵蓋多種高層技能和對(duì)象,如抓取、放置、開關(guān)抽屜等 | - |
數(shù)據(jù)來(lái)源多樣性 | 混合了EDR真實(shí)世界數(shù)據(jù)和Kuka機(jī)械臂的抓取數(shù)據(jù) (1:2比例);可吸收模擬數(shù)據(jù) | EDR, Kuka (QT-Opt項(xiàng)目), 模擬環(huán)境 |
數(shù)據(jù)標(biāo)注 | 每個(gè)Episode均有文本指令描述 | - |
- 真實(shí)世界機(jī)器人數(shù)據(jù)集的規(guī)模與多樣性: RT-1成功的基石是其大規(guī)模的真實(shí)世界機(jī)器人數(shù)據(jù)集。該數(shù)據(jù)集是在17個(gè)月內(nèi)使用13臺(tái)機(jī)器人收集的,包含約13萬(wàn)個(gè)回合,涵蓋700多個(gè)不同的任務(wù)。
- 數(shù)據(jù)多樣性對(duì)泛化的重要性: 指令列表和技能(例如,抓取、放置、開關(guān)抽屜、取物品、操作細(xì)長(zhǎng)物體和打開罐子)的設(shè)計(jì)旨在測(cè)試對(duì)新指令的泛化能力以及執(zhí)行多種技能的能力。數(shù)據(jù)集的廣度和規(guī)模對(duì)于泛化至關(guān)重要,使模型能夠發(fā)現(xiàn)結(jié)構(gòu)相似任務(wù)之間的模式,并通過(guò)組合這些模式來(lái)執(zhí)行新任務(wù)。增加數(shù)據(jù)規(guī)模和多樣性可以提高模型的泛化能力。
- 可擴(kuò)展性: 該系統(tǒng)易于擴(kuò)展,允許持續(xù)提供更多樣化的數(shù)據(jù)以提高其能力,因?yàn)樵谔砑有轮噶顣r(shí)沒(méi)有對(duì)特定技能做出任何假設(shè)。
-
異構(gòu)數(shù)據(jù)源的整合: RT-1展現(xiàn)了從不同領(lǐng)域(如模擬或甚至不同類型的機(jī)器人,例如Kuka機(jī)器人用于垃圾分類,而RT-1主要使用Everyday Robots)有效吸收數(shù)據(jù)的卓越靈活性。至關(guān)重要的是,這種整合在保持原有任務(wù)性能的同時(shí),提高了對(duì)新場(chǎng)景的泛化能力。
雖然RT-1的13萬(wàn)個(gè)回合數(shù)據(jù)集在機(jī)器人領(lǐng)域已經(jīng)相當(dāng)龐大,但研究材料中反復(fù)強(qiáng)調(diào)的“多樣性”與規(guī)模并重,這是一個(gè)關(guān)鍵的發(fā)現(xiàn)。其潛在趨勢(shì)是,對(duì)于物理世界交互而言,僅僅積累更多數(shù)據(jù)點(diǎn)(數(shù)量)的效果不如確保這些數(shù)據(jù)點(diǎn)涵蓋廣泛的任務(wù)、物體、環(huán)境乃至機(jī)器人形態(tài)(多樣性)。這種因果關(guān)系在于,多樣化的數(shù)據(jù)迫使模型學(xué)習(xí)更抽象、可遷移的表示和技能,而非僅僅記憶特定的軌跡或任務(wù)實(shí)例。RT-1能夠泛化到未見任務(wù)、干擾物和背景,并整合來(lái)自不同機(jī)器人或模擬的數(shù)據(jù)而性能不下降,正是這一點(diǎn)的例證。這更廣泛的意義在于,機(jī)器人數(shù)據(jù)收集策略必須優(yōu)先考慮廣度和可變性,積極尋找新穎的場(chǎng)景和條件,以在復(fù)雜、連續(xù)的物理世界中實(shí)現(xiàn)魯棒的泛化,這與互聯(lián)網(wǎng)規(guī)模文本數(shù)據(jù)相對(duì)更容易的可擴(kuò)展性形成對(duì)比。
3.4. 性能與魯棒性
評(píng)估類別 | RT-1成功率 | Gato成功率 | BC-Z成功率 | BC-Z XL成功率 | RT-1相對(duì)優(yōu)勢(shì) |
---|---|---|---|---|---|
已知任務(wù) | 97% | 65% | 72% | - | 顯著領(lǐng)先 |
未見任務(wù) | 76% | - | - | - | 比次優(yōu)基線高24% |
干擾物魯棒性 | 83% | - | - | - | 比次優(yōu)基線高36% |
背景魯棒性 | 59% | - | - | - | 比次優(yōu)基線高18% |
長(zhǎng)時(shí)程任務(wù) (Kitchen1) | 67% | 33% | 53% | - | 顯著領(lǐng)先 |
長(zhǎng)時(shí)程任務(wù) (Kitchen2) | 67% | 0% | 13% | - | 顯著領(lǐng)先 |
Kuka數(shù)據(jù)融合 (垃圾桶揀選) | 39% (EDR+Kuka) | - | 22% (僅EDR) | - | 接近翻倍 |
- 對(duì)已知任務(wù)的高性能: RT-1在700多個(gè)訓(xùn)練指令上實(shí)現(xiàn)了97%的成功率。
- 對(duì)未知任務(wù)的顯著泛化: RT-1展現(xiàn)了強(qiáng)大的泛化能力,在從未見過(guò)的指令上執(zhí)行成功率為76%,比次優(yōu)基線高出24%。這表明它能夠推斷并應(yīng)用學(xué)習(xí)到的模式到新場(chǎng)景中。
- 對(duì)環(huán)境變化的魯棒性: 該模型對(duì)環(huán)境變化也表現(xiàn)出顯著的魯棒性。在涉及干擾物的任務(wù)中成功率為83%,比次優(yōu)基線高出36%;在新的背景下任務(wù)成功率為59%,比次優(yōu)基線高出18%。這包括在其他模型失敗的全新廚房環(huán)境中保持性能。
- 長(zhǎng)時(shí)序任務(wù): RT-1的性能使其能夠在SayCan等框架內(nèi)執(zhí)行非常長(zhǎng)的時(shí)序任務(wù),最多可達(dá)50個(gè)階段。
-
與基線的比較: 與Gato、BC-Z和BC-Z XL(BC-Z的更大版本)等模仿學(xué)習(xí)基線相比,RT-1在各項(xiàng)測(cè)試中均顯示出明顯的改進(jìn)。雖然Gato是一個(gè)通用智能體,但RT-1在機(jī)器人領(lǐng)域顯得更加專業(yè)和高效。
盡管RT-1在未見任務(wù)上取得了76%的成功率,并在干擾物和背景魯棒性方面有顯著提升,但從已知任務(wù)97%的成功率下降到未見任務(wù)的76%成功率,揭示了“具身泛化鴻溝”。其潛在趨勢(shì)是,在物理世界中實(shí)現(xiàn)真正的零樣本泛化仍然極具挑戰(zhàn),因?yàn)槲锢硎澜缇哂羞B續(xù)狀態(tài)、動(dòng)態(tài)交互和不可預(yù)測(cè)的元素,這與語(yǔ)言領(lǐng)域相對(duì)離散和結(jié)構(gòu)化的特性形成對(duì)比。這種因果關(guān)系在于,即使有多樣化、大規(guī)模的真實(shí)世界數(shù)據(jù)和強(qiáng)大的Transformer模型,物理環(huán)境的巨大復(fù)雜性和無(wú)限變異性也使得模型難以完美地外推到全新場(chǎng)景。RT-1的貢獻(xiàn)在于顯著“縮小”了這一鴻溝,證明了基于Transformer的數(shù)據(jù)驅(qū)動(dòng)方法是有效的。然而,更廣泛的意義在于,完全彌合這一鴻溝可能需要數(shù)據(jù)收集(例如,更高效的模擬到真實(shí)遷移、主動(dòng)數(shù)據(jù)獲取)、架構(gòu)改進(jìn)(例如,更好的物理歸納偏置)或更深層次地整合符號(hào)推理或規(guī)劃能力,以魯棒地處理真正的全新情況和長(zhǎng)時(shí)序任務(wù)。
方面 | Gato | RT-1 |
---|---|---|
模型名稱 | “通用智能體” | “機(jī)器人Transformer 1” |
主要目標(biāo) | 多模態(tài)、多任務(wù)、多具身通用策略 | 真實(shí)世界機(jī)器人中的可擴(kuò)展泛化模型 |
模型參數(shù)(約) | 12億 | 約3500萬(wàn) |
處理的關(guān)鍵模態(tài) | 圖像、文本、本體感受、關(guān)節(jié)扭矩、按鈕按壓 | 圖像、自然語(yǔ)言指令、機(jī)器人手臂/底座動(dòng)作 |
核心架構(gòu) | 僅解碼器Transformer | EfficientNet + FiLM + Token學(xué)習(xí)器 + Transformer |
訓(xùn)練范式 | 離線監(jiān)督學(xué)習(xí) | 真實(shí)世界數(shù)據(jù)上的模仿學(xué)習(xí) |
訓(xùn)練數(shù)據(jù)規(guī)模(機(jī)器人相關(guān)) | 大量數(shù)據(jù)集(模擬、真實(shí)世界、自然語(yǔ)言、圖像) | 13萬(wàn)個(gè)回合,700+任務(wù),13臺(tái)機(jī)器人,17個(gè)月 |
泛化焦點(diǎn) | 跨模態(tài)/任務(wù)的最廣泛通用性 | 機(jī)器人領(lǐng)域中對(duì)未見任務(wù)/環(huán)境的魯棒性和泛化能力 |
4. 區(qū)別:機(jī)器人Transformer與大型語(yǔ)言模型Transformer
4.1. 架構(gòu)相似性與基本原理
- 共享Transformer骨干: 機(jī)器人Transformer(如RT-1和Gato)和大型語(yǔ)言模型都從根本上依賴于Transformer架構(gòu)。這種架構(gòu)的特點(diǎn)是其自注意力機(jī)制和并行處理能力,這使得它能夠高效處理序列數(shù)據(jù)并理解長(zhǎng)距離依賴關(guān)系。
- Token化概念: 一個(gè)共同的基本原理是將多樣化輸入轉(zhuǎn)換為離散的Token序列。正如LLMs將文本Token化一樣,Gato將多模態(tài)數(shù)據(jù)Token化,而RT-1將圖像、語(yǔ)言指令和動(dòng)作Token化。這種統(tǒng)一的表示使得Transformer能夠跨不同數(shù)據(jù)類型進(jìn)行操作。
- 隨數(shù)據(jù)和參數(shù)的可擴(kuò)展性: 兩種范式都表明,性能和泛化能力隨著數(shù)據(jù)、計(jì)算和模型規(guī)模的增加而提升。這種“縮放定律”是一個(gè)核心的共同發(fā)現(xiàn)。
- 自學(xué)習(xí)/無(wú)監(jiān)督訓(xùn)練潛力: Transformer及其衍生的LLMs都能夠進(jìn)行自學(xué)習(xí)或無(wú)監(jiān)督訓(xùn)練,使它們能夠?qū)W習(xí)語(yǔ)法、語(yǔ)言和知識(shí)。雖然Gato是監(jiān)督訓(xùn)練的,但其具備強(qiáng)化學(xué)習(xí)的潛力被提及。
4.2. 目的與應(yīng)用領(lǐng)域的差異
- LLMs:自然語(yǔ)言理解與生成: LLMs的主要目的是生成和理解人類自然語(yǔ)言。它們的應(yīng)用程序涵蓋文本生成、摘要、翻譯和對(duì)話式AI。
-
機(jī)器人Transformer:真實(shí)世界物理交互與控制: 相比之下,機(jī)器人Transformer(以RT-1和Gato的機(jī)器人能力為例)旨在實(shí)現(xiàn)具身AI——在真實(shí)世界環(huán)境中與物理系統(tǒng)進(jìn)行交互和控制。它們的目標(biāo)是使機(jī)器人能夠執(zhí)行物理任務(wù)、導(dǎo)航和操縱物體。
盡管LLMs和機(jī)器人Transformer都利用了相同的Transformer架構(gòu),但它們的最終目的和應(yīng)用領(lǐng)域存在根本性差異。LLMs在符號(hào)、語(yǔ)言領(lǐng)域運(yùn)行,主要操作抽象概念并生成文本。然而,機(jī)器人Transformer則彌合了與物理世界之間的鴻溝,其“行動(dòng)”具有切實(shí)的、現(xiàn)實(shí)世界的影響。其潛在趨勢(shì)是將人工智能能力從純粹的認(rèn)知任務(wù)擴(kuò)展到具身智能。這種因果關(guān)系在于,這種轉(zhuǎn)變引入了一系列新的復(fù)雜性和挑戰(zhàn),主要與物理交互的連續(xù)性、動(dòng)態(tài)性和安全性關(guān)鍵性相關(guān)。這更廣泛的意義是,雖然LLMs推動(dòng)了人工智能在語(yǔ)言方面能夠“理解”和“生成”的界限,但機(jī)器人Transformer正在推動(dòng)人工智能在物理世界中能夠“做”的界限,標(biāo)志著邁向能夠感知、推理并在我們現(xiàn)實(shí)中行動(dòng)的真正智能體的關(guān)鍵一步。
4.3. 輸入/輸出模態(tài)與處理的差異
- LLMs:主要為文本輸入,文本輸出: LLMs通常以文本作為輸入,并生成文本作為輸出。它們的主要模態(tài)是語(yǔ)言,通過(guò)詞嵌入進(jìn)行處理。
- 機(jī)器人Transformer:多模態(tài)感知輸入,物理動(dòng)作輸出:
- 輸入: 機(jī)器人Transformer處理更豐富、更復(fù)雜的多模態(tài)感知輸入,包括高維視覺(jué)數(shù)據(jù)(圖像)、本體感受反饋(機(jī)器人關(guān)節(jié)狀態(tài))和自然語(yǔ)言指令。這些輸入代表著不斷變化的環(huán)境。
- 輸出: 它們的輸出是物理動(dòng)作,例如關(guān)節(jié)扭矩、按鈕按壓、手臂運(yùn)動(dòng)和底座運(yùn)動(dòng),通常為了控制目的而離散化。
-
實(shí)時(shí)控制與動(dòng)態(tài)環(huán)境: 機(jī)器人技術(shù)要求實(shí)時(shí)響應(yīng)和低延遲(例如,RT-1以3Hz運(yùn)行,Performer-MPC的延遲為8毫秒)。這是一個(gè)LLMs通常不面臨的關(guān)鍵約束。機(jī)器人技術(shù)面臨多模態(tài)表示、不斷變化的環(huán)境和有限計(jì)算的挑戰(zhàn)。
最根本的區(qū)別在于反饋循環(huán)的性質(zhì)。LLMs主要在符號(hào)信息(文本)的“讀寫”循環(huán)中操作。然而,機(jī)器人Transformer則嵌入在與物理世界交互的連續(xù)“感知-行動(dòng)”循環(huán)中。其潛在趨勢(shì)是從處理靜態(tài)或順序呈現(xiàn)的數(shù)字?jǐn)?shù)據(jù),轉(zhuǎn)向與動(dòng)態(tài)、連續(xù)且通常嘈雜的物理環(huán)境進(jìn)行交互。這種因果關(guān)系在于,這需要處理高維、多模態(tài)的感知輸入(圖像、本體感受)并生成精確的、實(shí)時(shí)的物理動(dòng)作。對(duì)特定頻率(例如,RT-1的3Hz)的閉環(huán)控制和低延遲的需求,使其與LLMs(其響應(yīng)時(shí)間通常更靈活)根本不同。更廣泛的意義在于,機(jī)器人Transformer必須應(yīng)對(duì)具身化的固有復(fù)雜性:噪聲、不確定性、物理約束以及行動(dòng)在現(xiàn)實(shí)世界中的直接后果,而純粹在數(shù)字領(lǐng)域中運(yùn)行的LLMs則無(wú)需面對(duì)這些。這也解釋了RT-1中專門的輸入處理(EfficientNet、Token學(xué)習(xí)器)等架構(gòu)選擇,旨在為Transformer提煉相關(guān)信息,這在純文本LLMs中并不那么突出。
4.4. 訓(xùn)練數(shù)據(jù)特性與規(guī)模
- LLMs:互聯(lián)網(wǎng)規(guī)模文本語(yǔ)料庫(kù): LLMs的特點(diǎn)是在真正大規(guī)模的互聯(lián)網(wǎng)級(jí)文本數(shù)據(jù)集上進(jìn)行訓(xùn)練,這些數(shù)據(jù)集通常包含數(shù)十億網(wǎng)頁(yè)、維基百科等。這些數(shù)據(jù)集在語(yǔ)言表達(dá)的數(shù)量和多樣性上都非常龐大。
- 機(jī)器人Transformer:大規(guī)模、多樣化的真實(shí)世界機(jī)器人交互數(shù)據(jù): 盡管機(jī)器人數(shù)據(jù)集也很大,但其性質(zhì)根本不同。它們由真實(shí)世界的機(jī)器人經(jīng)驗(yàn)組成,通常通過(guò)遙操作或自主探索收集,包含多模態(tài)傳感器讀數(shù)和相應(yīng)的動(dòng)作。其規(guī)模(例如,RT-1的13萬(wàn)個(gè)回合)在機(jī)器人領(lǐng)域是顯著的,但比互聯(lián)網(wǎng)文本數(shù)據(jù)小幾個(gè)數(shù)量級(jí)。重點(diǎn)在于物理領(lǐng)域內(nèi)任務(wù)、物體和環(huán)境的“多樣性”。
-
數(shù)據(jù)獲取挑戰(zhàn): 收集高質(zhì)量、多樣化的機(jī)器人數(shù)據(jù)比抓取互聯(lián)網(wǎng)文本更具挑戰(zhàn)性且成本更高。這一限制影響了機(jī)器人模型相對(duì)于LLMs可達(dá)到的規(guī)模。
訓(xùn)練數(shù)據(jù)規(guī)模和獲取難度的巨大差異是機(jī)器人Transformer面臨的關(guān)鍵瓶頸。LLMs受益于互聯(lián)網(wǎng)上幾乎無(wú)限且易于獲取的文本數(shù)據(jù),而機(jī)器人數(shù)據(jù)收集本質(zhì)上是資源密集型、耗時(shí)且昂貴的。其潛在趨勢(shì)是,數(shù)據(jù)可用性的這種差異直接影響了可實(shí)現(xiàn)的模型規(guī)模。這種因果關(guān)系在于,由于真實(shí)世界機(jī)器人數(shù)據(jù)難以達(dá)到互聯(lián)網(wǎng)規(guī)模,機(jī)器人模型(如RT-1的約3500萬(wàn)參數(shù),或Gato的12億參數(shù))通常比最大的LLMs(數(shù)百億參數(shù))小幾個(gè)數(shù)量級(jí)。更廣泛的意義是,通用機(jī)器人技術(shù)的未來(lái)進(jìn)展將嚴(yán)重依賴于數(shù)據(jù)合成(例如,高保真模擬)、更高效的真實(shí)世界數(shù)據(jù)收集方法(例如,自主數(shù)據(jù)工廠、眾包遙操作),或開發(fā)更具樣本效率且能從較少數(shù)據(jù)中學(xué)習(xí)的模型。這個(gè)瓶頸從根本上限制了機(jī)器人Transformer當(dāng)前可達(dá)到的規(guī)模,并因此限制了其相對(duì)于語(yǔ)言模型的涌現(xiàn)泛化能力,盡管它們共享架構(gòu)原理。
好的,這是機(jī)器人Transformer與大型語(yǔ)言模型Transformer的關(guān)鍵區(qū)別的 Markdown 格式表格:
方面 | 大型語(yǔ)言模型Transformer(LLM Transformer) | 機(jī)器人Transformer(Robotics Transformer) |
---|---|---|
核心目的 | 自然語(yǔ)言理解與生成 | 真實(shí)世界物理交互與控制 |
典型輸入模態(tài) | 文本 | 多模態(tài):圖像、本體感受、自然語(yǔ)言 |
典型輸出模態(tài) | 文本 | 物理動(dòng)作(關(guān)節(jié)扭矩、按鈕按壓、手臂/底座運(yùn)動(dòng)) |
主要訓(xùn)練數(shù)據(jù)源 | 互聯(lián)網(wǎng)規(guī)模文本語(yǔ)料庫(kù)(例如,Common Crawl,維基百科) | 大規(guī)模、多樣化的真實(shí)世界機(jī)器人交互數(shù)據(jù) |
典型規(guī)模(參數(shù)) | 數(shù)十億到數(shù)百億 | 數(shù)百萬(wàn)到數(shù)十億(例如,RT-1約35M,Gato 1.2B) |
主要挑戰(zhàn) | 事實(shí)準(zhǔn)確性、幻覺(jué)、偏見、訓(xùn)練/推理計(jì)算成本。 | 實(shí)時(shí)控制、對(duì)動(dòng)態(tài)/嘈雜環(huán)境的魯棒性、數(shù)據(jù)獲取難度/成本、物理交互中的安全性、模擬到真實(shí)遷移 |
5. 結(jié)論與未來(lái)展望
5.1. 貢獻(xiàn)總結(jié)
DeepMind的Gato通過(guò)在單一Transformer策略下統(tǒng)一多種模態(tài),推動(dòng)了通用人工智能的界限,展示了“單一大腦”智能體的巨大潛力。它將不同類型的數(shù)據(jù)序列化為統(tǒng)一的Token流,使Transformer能夠?qū)W習(xí)跨模態(tài)的通用策略,從而實(shí)現(xiàn)多任務(wù)、多具身的能力。
Google/DeepMind的RT-1則通過(guò)大規(guī)模、多樣化的數(shù)據(jù)收集和專門的Transformer架構(gòu),在真實(shí)世界機(jī)器人泛化方面做出了重大貢獻(xiàn)。它展示了前所未有的魯棒性和任務(wù)性能,特別是在處理未見任務(wù)和環(huán)境變化方面。RT-1的成功表明,將LLMs的縮放定律應(yīng)用于機(jī)器人領(lǐng)域是可行的,盡管其架構(gòu)中包含了為處理高維感知數(shù)據(jù)而設(shè)計(jì)的特定預(yù)處理模塊。
5.2. 根本區(qū)別與共同原理的重申
盡管機(jī)器人Transformer和大型語(yǔ)言模型Transformer都利用了強(qiáng)大的Transformer架構(gòu)及其縮放定律,但它們?cè)陬I(lǐng)域特定應(yīng)用上的差異導(dǎo)致了輸入/輸出模態(tài)、訓(xùn)練數(shù)據(jù)特性和固有挑戰(zhàn)的根本性區(qū)別。LLMs主要在符號(hào)、語(yǔ)言領(lǐng)域運(yùn)行,而機(jī)器人Transformer則專注于與物理世界的具身交互。這種從符號(hào)智能到具身智能的轉(zhuǎn)變是兩者核心分歧所在。
機(jī)器人Transformer必須應(yīng)對(duì)物理世界固有的復(fù)雜性,包括連續(xù)、動(dòng)態(tài)、嘈雜的環(huán)境,以及對(duì)實(shí)時(shí)響應(yīng)和精確物理動(dòng)作的嚴(yán)格要求。這與LLMs主要處理離散、結(jié)構(gòu)化文本數(shù)據(jù)的特點(diǎn)形成鮮明對(duì)比。