中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

做視頻網(wǎng)站把視頻放在哪里找廣西壯族自治區(qū)在線seo關(guān)鍵詞排名優(yōu)化

做視頻網(wǎng)站把視頻放在哪里找,廣西壯族自治區(qū)在線seo關(guān)鍵詞排名優(yōu)化,網(wǎng)站建設(shè)性能指標,政府司法網(wǎng)站建設(shè)報告申請本文來源公眾號“極市平臺”,僅用于學術(shù)分享,侵權(quán)刪,干貨滿滿。 原文鏈接:綜述:一文詳解50多種多模態(tài)圖像融合方法 0 極市導讀 本工作總結(jié)了50篇論文中Lidar和camera的多模態(tài)融合的一些概念方法。筆者結(jié)合原文以及自…

本文來源公眾號“極市平臺,僅用于學術(shù)分享,侵權(quán)刪,干貨滿滿。

原文鏈接:綜述:一文詳解50多種多模態(tài)圖像融合方法

0 極市導讀

本工作總結(jié)了50篇論文中Lidar和camera的多模態(tài)融合的一些概念方法。筆者結(jié)合原文以及自己的思考和解讀,希望能給大家夠帶來關(guān)于多模態(tài)圖像融合的未來一些新思考~

文章鏈接:https://arxiv.org/abs/2202.02703

1 說在前面的話

多模態(tài)感知融合是自動駕駛的基礎(chǔ)任務(wù),吸引了許多“磕鹽”人員的關(guān)注。但是,由于原始數(shù)據(jù)噪聲大、信息利用率低以及多模態(tài)傳感器未對齊等這些原因,要想實現(xiàn)一個好的性能也并非易事。所以在這篇調(diào)研報告里面,總結(jié)了50篇論文中Lidar和camera的多模態(tài)融合的一些概念方法,希望通過我的這波翻譯+解讀,能給大家夠帶來關(guān)于多模態(tài)圖像融合的未來一些新思考。(然后這次的分享其實更多是介紹和總結(jié),我盡量通過自己理解還有一些經(jīng)驗把內(nèi)容進行整理和細化,這是一版能夠作為新手入門,也能作為搬磚老手回顧的內(nèi)容,如果大家覺得內(nèi)容不錯的話可以分享給身邊的伙伴們!)

2 為啥需要多模態(tài)融合

在復雜的駕駛環(huán)境中,單一的傳感器信息不足以有效的處理場景的變化。比如在極端惡劣天氣中(大暴雨、沙塵暴)能見度較低的情況下,此時只依靠camera的所反饋的RGB圖像完全沒有辦法對環(huán)境的變化做出反饋。而在普通的道路環(huán)境中,如紅綠燈、色錐等,只依靠Lidar的信息也是無法進行有效識別的,也需要結(jié)合camera所帶來的RGB信息,才能有效的處理。因此,在自動駕駛感知場景的任務(wù)中,不同模態(tài)信息的互補會更加的重要。

3 有什么特征的融合的方法

多模態(tài)融合的能用的場景有很多,比如2D/3D的目標檢測、語義分割,還有Tracking任務(wù)。在這些任務(wù)中,重中之中就是模態(tài)之間的信息交互融合的工作。從傳感器的的信息獲取越來越高效精確,成本被壓縮得越來越低,自主駕駛中感知任務(wù)中的多模態(tài)融合方法得到了快速發(fā)展的機遇。所以,緊接著來的問題就是,我們到底應(yīng)該怎么做才能使得多模態(tài)融合的工作更加的絲滑和高效呢?

4 融合的類型

根據(jù)50篇論文的統(tǒng)計分析結(jié)果,大多數(shù)方法遵循將其分為早期(前)融合、特征融合和后融合三大類的傳統(tǒng)融合規(guī)則。重點關(guān)注深度學習模型中融合特征的階段,無論是數(shù)據(jù)級、特征級還是建議級。首先,這種分類法沒有明確定義每個級別的特征表示。其次,我們一般的方法是對激光雷達和相機的數(shù)據(jù)信息是開兩個分支,在模型的處理過程中兩個模態(tài)的分支始終是保持對稱的,從而使得得兩個模態(tài)的信息可以在同一特征等級下進行交互。綜上所述,傳統(tǒng)的分類法可能是直觀的,但對最近出現(xiàn)的越來越多的多模態(tài)融合的內(nèi)容,按照傳統(tǒng)的理解合分類方式,不足以應(yīng)付!

4.1 兩大類和四小類融合方式

最新的融合任務(wù)為自主駕駛感知任務(wù)提出了一些創(chuàng)新的多模式融合方法。總的來說包括了兩大類:即強融合和弱融合,以及強融合中的四個小類,即早期(前)融合、深度(特征)融合、后期(后)融合、不對稱融合(這個表示兩個分支的特征進行相互決策)

5 各種任務(wù)以及數(shù)據(jù)集的介紹

一般來說多模態(tài)感知融合在自動駕駛環(huán)境中的任務(wù)包括了經(jīng)典的目標檢測、語義分割、深度估計和深度預測這類的工作品。其實常見的任務(wù)也主要也還是語義分割和目標檢測。

5.1 目標檢測

其實常見的無人駕駛的場景的目標檢測有幾個類型(汽車、行人、自行車、交通燈、交通指示牌、路錐、減速帶)這些類型的物體。一般來說,目標檢測使用由參數(shù)表示的矩形或長方體來緊密綁定預定義類別的實例,例如汽車或行人,這需要在定位和分類方面都表現(xiàn)出色。由于缺乏深度通道,2D對象檢測通常簡單地表示為(x,y,h,w,c),而3D對象檢測邊界框通常會比2D的標注信息多了深度和方向兩個維度的信息,表示為(x,y,z,h,w,l,θ,c)。

5.2 語義分割

除目標檢測外,語義分割就是自動駕駛感知的另一個山頭了。例如,我們會檢測環(huán)境中的背景和前景目標,并加以區(qū)分,使用語義分割了解物體所在的區(qū)域以及區(qū)域的細節(jié)在自動駕駛?cè)蝿?wù)中也是相當重要的。其次,一些車道線的檢測方法還使用多類語義分割的mask來表示道路上的不同車道。

語義分割的本質(zhì)是將輸入數(shù)據(jù)的基本成分(如像素和三維點)聚類到包含特定語義信息的不同區(qū)域中去。具體來說,語義分割是指給定一組數(shù)據(jù),例如圖像像素DI={d1,d2,…,dn}或激光雷達3D點云DL={d1,d2,…,dn},以及一組預定義的候選標簽Y={ y1,y2,y3,…,yk},我們使用模型為每個像素或點DI分配k個語義標簽并將其放置在一個區(qū)域的任務(wù)。(其實這里說得有點復雜和晦澀,語義分割其實就當成是像像素級別的分類問題就行了,就是這么簡單)

如果大家覺得還是比較抽象的話,可以看看下面三幅圖像,這里面具體交代了不同場景下的的任務(wù),2D/3D的目標檢測和語義分割任務(wù)。

基于多模態(tài)傳感器融合的自主駕駛感知模型。

6 數(shù)據(jù)集

自動駕駛幾個常見的老朋友,Kitti、Waymo、NuScenes,這些都是常見的帶有3D信息的自動駕駛場景的數(shù)據(jù)集,基本上我們的一些多模態(tài)融合的任務(wù)也是圍繞著這三個數(shù)據(jù)集進行刷榜的。具體的數(shù)據(jù)集的組成我這里就不交代了,大家可以去網(wǎng)站看看數(shù)據(jù)集的分布,其實要重點留意的是評價指標,這個其實非常重要,關(guān)系道整個優(yōu)化的方向,所以大家要注意一點啦!其次了解數(shù)據(jù)集的時候(特別是新手,要注意數(shù)據(jù)的格式)因為Lidar的數(shù)據(jù)與以往的RGB圖像的數(shù)據(jù)是不同的,所以要小心設(shè)計Lidar的分支,保護數(shù)據(jù)輸入。

數(shù)據(jù)集一覽表

7 融合模式

這是本次宵夜討論的高潮,就是關(guān)于怎么去融合這兩種不同模態(tài)(類型)的數(shù)據(jù)呢?按現(xiàn)在的融合模態(tài)的發(fā)展模式來說是,一共是分為兩大類四小類的模式,什么是兩大類,什么是四小類呢?我們繼續(xù)看下去!

7.1 Early Fusion

有的伙伴會說,直接把數(shù)據(jù)的格式統(tǒng)一,合并起來輸入不就行了嗎?但是現(xiàn)階段的Early Fusion并不是這么暴力。

Early Fusion一般是激光雷達數(shù)據(jù)和Image圖像進行融合或者是激光雷達數(shù)據(jù)與Image的特征進行融合,兩種方式。如下圖所展示的情況LiDAR這個分支與Image信息的早期信息交互的過程。這種方式在reflectance, voxelized tensor, front-view/ range-view/?BEV,pseudo-point clouds都可以使用。盡管Image的特征在各個階段都不同,但是都與LiDAR的信息高度相關(guān)。所以LiDAR信息+Image特征融合也是可以有效進行融合的。因為LiDAR的分支沒有經(jīng)過抽象化的特征提取階段,所以這一階段的數(shù)據(jù)仍具有可解釋性,因此,LiDAR的數(shù)據(jù)表示依然可以進行直觀的可視化。

激光雷達前融合

從圖像的角度上看,嚴格意義上對數(shù)據(jù)級別圖片的定義只能是包含RGB或Gray等數(shù)據(jù)。其實這種定義方式缺乏通用性和合理性,也比較局限。所以我們格局要大一點,數(shù)據(jù)級別可以不僅僅是圖像,也可以是特征圖。與傳統(tǒng)的早期融合定義相比,文章將相機數(shù)據(jù)的定義不僅僅局限在image上,也將特征信息納入其中。有意識的對特征信息進行選擇融合,得到一個語義連接更加緊密的輸入數(shù)據(jù),之后將這個數(shù)據(jù)集進行放入網(wǎng)絡(luò)進行特征提取。

無論是直接將數(shù)據(jù)類型轉(zhuǎn)化一致,然后concat成一體,還是LiDAR信息與Image的特征信息進行融合,還是說兩者先進行特征的語義連接后成為輸入,這些都是Early Fusion的操作。其實這樣的輸入一體化操作的好處自然是結(jié)構(gòu)簡便、容易部署。通過語義的提前交互,也解決了傳統(tǒng)早期融合,模態(tài)之間語義信息交互不充分的問題。所以一定程度上,選擇Early Fusion也是一個不錯的選擇。

7.2 Deep-fusion

深度特征融合的方法其實也很常見。如下圖

深度特征融合

我們可以很直接清晰的看到LiDAR點圖分支和Images分支在經(jīng)過各自的特征提取器后,得到高維度的特征圖,并通過一系列下游模塊對兩個分支模態(tài)進行融合。與其他的融合方式不同,深度融合有時候也會通過級聯(lián)的方式對高級特征和原始特征進行融合,同時利用高級的特征信息和含有豐富物理信息的原始特征。

7.3 Late-fusion

后融合,也稱為目標對象級別融合,表示在每個模態(tài)中融合結(jié)果的方法。一些后融合方法其實是同時利用了LiDAR點云分支和相機圖像分支的輸出,并通過兩種模式的結(jié)果進行最終預測。后期融合可以看作是一種利用多模態(tài)信息對最終方案進行優(yōu)化的集成方法。

后融合

7.4 Asymmetry-fusion

除了早融合、深度融合和后融合之外,還有一些方法會對不同的分支賦予不同的特權(quán),因此我們將融合來自一個分支的對象級信息,而來自其他分支的數(shù)據(jù)級或功能級信息的方法定義為不對稱融合。與其他強融合方法看似平等地對待兩個分支不同,不對稱融合方法至少有一個分支占主導地位,其他分支只是提供輔助信息來完成最后的任務(wù)。下圖就是一個經(jīng)典的例子。與后期融合相比,雖然它們提取特征的過程是相似的,但不對稱融合只有來自一個分支的一個提議,而后融合會融合所有的分支信息。

非對稱融合

很顯然這類型的融合方法也是合理的,因為卷積神經(jīng)網(wǎng)絡(luò)對攝像機數(shù)據(jù)具有良好的性能,它可以有效的過濾出在點云數(shù)據(jù)中沒有實際語義信息的無用點,在融合的時候就可以一定程度上避免噪聲點的干擾。不僅如此,還有一些作品嘗試跳出常規(guī),使用激光雷達骨干來指導2D多視角的數(shù)據(jù)進行融合,通過信息的交互指導實現(xiàn)更高的準確度。

7.5 Weak-Fusion

與強融合不同,弱融合方法不直接從多模態(tài)分支融合(數(shù)據(jù)/特征/對象),而是以其他方式操作數(shù)據(jù)。基于弱融合的方法通常使用基于規(guī)則的方法,利用一種模式中的數(shù)據(jù)作為監(jiān)督信號,以指導另一種模式的交互。下圖展示了弱融合模式的基本框架。弱融合不同于上述不對稱融合融合圖像特征的方法,它直接將選中的原始LiDAR信息輸入到LiDAR主干中,過程中不會直接與Image的分支主干進行特征的交互,會通過一些弱連接的方式(比如loss函數(shù))等方式進行最后的信息融合。與之前的強融合的方法比,分支的信息交互是最少的,但是同時也能夠避免在交互過程中彼此的信息不對稱帶來的信息干擾,又或者是避免了因為單一分支的質(zhì)量不過關(guān),而影響整理整體的融合推理。

弱融合

7.6 Other-Fusion

有些工作不能簡單地定義為上述任何一種融合,因為它們在整個模型框架中擁有不止一種融合方法。造融合怪是我們這些鹽究圓天生的技能,你說A有xxx好處,B有xxx好處,那我A+B不就是直接贏麻了嗎?但是事實上,很多情況都不能有效的把方法縫合進去。如深度融合和后融合方案的相互結(jié)合,或者將前融合和深度融合結(jié)合在一起。這些方法在模型設(shè)計上存在冗余問題,并不是融合模塊的主流方法,即沒有取得A+B的效果,反而極大的犧牲了推理時間已經(jīng)增大了算法的復雜度。一些實驗結(jié)果

2Dkitti上的結(jié)果

3Dkitti上的結(jié)果

上面的實驗結(jié)果,大家可以簡單的看一下就行

8 多模態(tài)感知融合的未來

近年來,自動駕駛感知任務(wù)的多模態(tài)融合方法取得了快速進展,從更高級的特征表示到更復雜的深度學習模型。然而,仍有一些更開放的問題有待解決。在此,我們總結(jié)了今后需要做的一些關(guān)鍵和必要的工作。

8.1 如何做更先進的融合方法

其實當前阻礙模態(tài)融合的最大攔路虎有兩只。

A:融合模型不對齊

B:信息丟失

相機和激光雷達的內(nèi)在和外在是截然不同的。兩種方式的數(shù)據(jù)都需要在新的坐標系統(tǒng)下重新組織。

傳統(tǒng)的早期和深度融合方法利用外部校準矩陣將所有激光雷達點直接投影到相應(yīng)的像素上,或反之亦然。因為數(shù)據(jù)樣本會存在噪聲,在噪聲的干擾下,這種對齊的方式,很顯然是沒有辦法做到精準對齊的。無論怎樣,想要單靠機械的手段消除機器帶來的誤差,不僅難度大,還要付出比較大的成本。所以我們可以看到現(xiàn)在的方法,除了這種嚴格的轉(zhuǎn)化,一一對應(yīng)之外,還可以利用一些周圍信息作為補充以使得融合工作可以獲得更好的性能。

此外,在輸入和特征空間的轉(zhuǎn)換過程中不可避免會還存在一定的信息丟失。因為在特征提取的降維過程中投影會不可避免地導致大量的信息丟失。

因此,通過將兩個模態(tài)數(shù)據(jù)映射到另一種專門用于融合的高維表示,可以在未來的工作中有效地利用原始數(shù)據(jù),減少信息損失。還有一些方法是采用直接的串聯(lián)數(shù)據(jù),通過賦權(quán)值的方式進行融合。但是當前的方案依舊是不太成熟,只通過像素之間的賦權(quán)值,相加這些簡單的操作可能無法融合分布差異較大的數(shù)據(jù),因此,很難彌合兩種模式之間的語義差距。一些工作試圖使用更精細的級聯(lián)結(jié)構(gòu)來融合數(shù)據(jù)并提高性能。在未來的研究中,雙線性映射等機制可以融合不同特征的特征。

8.2 合理利用多個模態(tài)的信息

大多數(shù)框架可能只利用了有限的信息,沒有精心設(shè)計進一步的輔助任務(wù)來進一步了解駕駛場景。

我們當前做的內(nèi)容,會把語義分割、目標檢測、車道線檢測這些任務(wù)單獨討論,割裂這些任務(wù)。之后再把不同的模型組合到一起提供服務(wù),其實這顯然是冗余的工作。所以我們?yōu)樯恫蛔鲆粋€多任務(wù)框架,一次性覆蓋不同的任務(wù)呢?在自動駕駛場景中,許多具有顯式語義信息的下游任務(wù)可以大大提高目標檢測任務(wù)的性能。例如,車道檢測可以直觀地為車道間車輛的檢測提供額外的幫助,同時語義分割結(jié)果可以提高目標檢測性能。

因此,未來的研究可以同時通過對車道、交通燈、標志等下游任務(wù)進行同時的檢測,構(gòu)建大一統(tǒng)的自動駕駛?cè)蝿?wù),輔助感知任務(wù)的執(zhí)行。

與此同時,其實時序信息這類型的信息在自動駕駛感知任務(wù)里面也十分的重要。像BEVFormer就使用了RNN對時序信息進行整合,最后使得整體任務(wù)可以有效的生成BEV的視圖。時間序列信息包含了序列化的監(jiān)督信號,可以提供比單一幀的方法更穩(wěn)定的結(jié)果,也更加適應(yīng)自動駕駛的整體任務(wù)需求。

未來的研究可以集中在如何利用多模態(tài)數(shù)據(jù)進行自監(jiān)督學習,(包括預訓練、微調(diào)或?qū)Ρ葘W習)。通過實現(xiàn)這些最先進的機制,融合模型將導致對數(shù)據(jù)的更深入的理解,并取得更好的結(jié)果。大家看到MAE這么好的效果,其實如果我們的感知任務(wù)也引入這套方法進行實驗,我相信一定會取得更可喜的成績。

8.3 感知傳感器的內(nèi)在問題

區(qū)域的偏差或者分辨率上的不一致,與傳感器設(shè)備有密不可分的關(guān)系。這些意想不到的問題嚴重阻礙了自動駕駛深度學習模型的大規(guī)模訓練和實現(xiàn),數(shù)據(jù)的質(zhì)量以及數(shù)據(jù)的收集方案都是當前阻礙自動駕駛感知任務(wù)再發(fā)展的一大問題點。

在自動駕駛感知場景中,不同傳感器提取的原始數(shù)據(jù)具有嚴重的領(lǐng)域相關(guān)特征。不同的相機系統(tǒng)有不同的光學特性,成像原理也不一致。更重要的是,數(shù)據(jù)本身可能是有領(lǐng)域差異的,如天氣、季節(jié)或位置,即使它是由相同的傳感器捕獲的,他們所呈現(xiàn)出來的影像也有著很大的出入。由于這種變化,檢測模型不能很好地適應(yīng)新的場景。這種差異會導致泛化失敗,導致大規(guī)模數(shù)據(jù)集的收集和原始訓練數(shù)據(jù)的可重用性下降。因此,如何消除領(lǐng)域偏差,實現(xiàn)不同數(shù)據(jù)源的自適應(yīng)集成也會是今后研究的關(guān)鍵。

來自不同模式的傳感器通常具有不同的分辨率。例如,激光雷達的空間密度明顯低于圖像。無論采用哪種投影方法,都沒有辦法找到一一對應(yīng)關(guān)系,所以常規(guī)的操作會剔除一些信息。無論是由于特征向量的分辨率不同還是原始信息的不平衡,都可能會導致弱化了一邊模態(tài)分支的信息量,或者說是存在感。變成以某一特定模態(tài)的數(shù)據(jù)為主,因此,未來的工作可以探索一種與不同空間分辨率的傳感器兼容的數(shù)據(jù)方式。

9 總結(jié)

文章很詳細的為我們整理了當前多模態(tài)融合的一些工作以及一些未來發(fā)展的方向。其實我覺得我們需要一套合理化決策,而且成本較低的多模態(tài)融合框架,就需要我們對我們的數(shù)據(jù)更加的了解。此外我們也需要更多的數(shù)據(jù)。更多的分析成本的投入。像自監(jiān)督、對比學習、大規(guī)模預訓練這類型的賦能工作,直接一套或許也能取得很棒的成績,但是這種核彈式的打擊并不是優(yōu)化工作的核心內(nèi)容。無論是前、深、后、不對稱哪種強融合方式,都有自身的弊端。都需要我們對其進行進一步的優(yōu)化改進,需要我們根據(jù)需要融合的數(shù)據(jù)特性進行調(diào)整。當前的融合可能是單一的兩個模態(tài)的交互融合,但是實際上未來的工作,遠遠不止兩個模態(tài),兩個傳感器進行交互這么簡單,那么我們現(xiàn)在的工作又可以怎么做呢?這個故事還需要我們繼續(xù)進行探討!

THE END!

文章結(jié)束,感謝閱讀。您的點贊,收藏,評論是我繼續(xù)更新的動力。大家有推薦的公眾號可以評論區(qū)留言,共同學習,一起進步。

http://www.risenshineclean.com/news/50254.html

相關(guān)文章:

  • 毛片a做片在線觀看網(wǎng)站谷歌怎么投放廣告
  • 網(wǎng)站建設(shè)維護面試題營銷方式有哪幾種
  • 畢業(yè)設(shè)計做網(wǎng)站用php好嗎下拉框關(guān)鍵詞軟件
  • 宜賓做直銷會員網(wǎng)站鄭州網(wǎng)絡(luò)營銷公司排名
  • 網(wǎng)站制作怎么賺錢免費發(fā)廣告網(wǎng)站
  • 谷歌做公司網(wǎng)站需要多少錢西安互聯(lián)網(wǎng)推廣公司
  • 做環(huán)球資源網(wǎng)站有沒有效果企業(yè)網(wǎng)站
  • 網(wǎng)站開發(fā)服務(wù)器知識開源seo軟件
  • linux網(wǎng)站如何做ip解析一個新公眾號怎么吸粉
  • 安全狗網(wǎng)站白名單指什么南京百度seo
  • 江油市建設(shè)局網(wǎng)站網(wǎng)站建設(shè)平臺
  • 代售網(wǎng)站建設(shè)淘寶搜索關(guān)鍵詞排名
  • 沒有外貿(mào)網(wǎng)站 如果做外貿(mào)全網(wǎng)營銷推廣系統(tǒng)
  • 在北京建網(wǎng)站域名被墻查詢檢測
  • 深圳做積分商城網(wǎng)站設(shè)計品牌宣傳
  • 網(wǎng)站開發(fā)違法中國十大網(wǎng)絡(luò)營銷平臺
  • 安卓手機建設(shè)網(wǎng)站百度收錄鏈接
  • 在淘寶做網(wǎng)站和網(wǎng)絡(luò)公司做網(wǎng)站區(qū)別福州短視頻seo方法
  • 網(wǎng)站建設(shè)初步規(guī)劃方案深圳網(wǎng)站設(shè)計小程序
  • 做ppt素材的網(wǎng)站開創(chuàng)集團與百度
  • 張家港做網(wǎng)站優(yōu)化排名十大經(jīng)典廣告營銷案例
  • 設(shè)計一個網(wǎng)站的價格表seo培訓班
  • 一站式做網(wǎng)站報價上海做網(wǎng)站優(yōu)化
  • 深夜小網(wǎng)站軟文文案
  • 有專業(yè)做網(wǎng)站的學校嗎搜索引擎關(guān)鍵詞競價排名
  • 網(wǎng)站開發(fā)流程包括需求分析seo推廣思路
  • 學做網(wǎng)站視頻論壇免費友情鏈接網(wǎng)
  • 做app需要什么軟件手機優(yōu)化助手下載
  • 湛江網(wǎng)站開發(fā)公司網(wǎng)站營銷推廣有哪些
  • 電腦網(wǎng)站建設(shè)網(wǎng)絡(luò)推廣公司口碑