中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

自己做首飾的好網(wǎng)站優(yōu)化方案電子版

自己做首飾的好網(wǎng)站,優(yōu)化方案電子版,微網(wǎng)站建設(shè)云帆網(wǎng)絡(luò),誠信通國際網(wǎng)站怎么做近期幾乎看了所有有關(guān)NERF技術(shù)論文,本身我研究的領(lǐng)域不在深度學(xué)習(xí)技術(shù)方向,是傳統(tǒng)的機(jī)器人控制和感知。所以總結(jié)了下這部分基于學(xué)習(xí)的感知技術(shù),會寫一個(gè)新的系列教程講解這部分三維感知技術(shù)的發(fā)展到最新的技術(shù)細(xì)節(jié),并支持自己最近…

近期幾乎看了所有有關(guān)NERF技術(shù)論文,本身我研究的領(lǐng)域不在深度學(xué)習(xí)技術(shù)方向,是傳統(tǒng)的機(jī)器人控制和感知。所以總結(jié)了下這部分基于學(xué)習(xí)的感知技術(shù),會寫一個(gè)新的系列教程講解這部分三維感知技術(shù)的發(fā)展到最新的技術(shù)細(xì)節(jié),并支持自己最近的項(xiàng)目開發(fā)和論文。本系列禁止轉(zhuǎn)載,有技術(shù)探討可以發(fā)郵件給我 fanzexuan135@163.com

深入淺出3D感知中的優(yōu)化與學(xué)習(xí)技術(shù)

1 引言

3D感知是計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域的一個(gè)核心問題,旨在從2D圖像恢復(fù)場景的3D結(jié)構(gòu)和運(yùn)動。它在自動駕駛、虛擬/增強(qiáng)現(xiàn)實(shí)、智能制造等許多領(lǐng)域有著廣泛應(yīng)用。傳統(tǒng)的3D感知算法大多基于幾何視覺的理論,通過精心建模和優(yōu)化來求解相機(jī)位姿、場景結(jié)構(gòu)等幾何量。而近年來,深度學(xué)習(xí)的崛起為3D感知問題帶來了新的思路和活力。本文將對3D感知中的經(jīng)典優(yōu)化方法和深度學(xué)習(xí)方法進(jìn)行綜述和對比,并重點(diǎn)介紹一些將二者結(jié)合的新進(jìn)展,讓讀者對這一領(lǐng)域的基本概念和前沿成果有一個(gè)全面的了解。

2 將3D感知問題建模為優(yōu)化問題

在3D感知的諸多任務(wù)中,如相機(jī)定位、稠密重建、非剛性形變估計(jì)等,我們面臨的核心問題往往可以表述為一個(gè)優(yōu)化問題:
min ? x ∈ X E ( x ; y ) ( 1 ) \min\limits_{x \in X} E(x; y) \qquad (1) xXmin?E(x;y)(1)

其中 y y y表示輸入的觀測數(shù)據(jù)(如一組圖像),而 x x x表示我們感興趣的幾何量(如相機(jī)位姿、場景深度),構(gòu)成了優(yōu)化變量。 X X X表示 x x x的可行域,囊括了我們對 x x x已知的先驗(yàn)知識(如相機(jī)姿態(tài)必須是剛體變換)。 E ( x ; y ) E(x; y) E(x;y)是一個(gè)衡量 x x x y y y匹配程度的目標(biāo)函數(shù)(或代價(jià)函數(shù)),可以分解為數(shù)據(jù)項(xiàng)和正則項(xiàng)兩部分:
E ( x ; y ) = D ( x ; y ) + R ( x ) ( 2 ) E(x; y) = D(x; y) + R(x) \qquad (2) E(x;y)=D(x;y)+R(x)(2)

數(shù)據(jù)項(xiàng) D ( x ; y ) D(x; y) D(x;y)度量了在當(dāng)前估計(jì) x x x下,觀測數(shù)據(jù) y y y的擬合/重投影誤差,反映了 x x x y y y的解釋能力。以雙目立體匹配為例,若 y y y為左右兩幀圖像,而 x x x為像素的視差值,則數(shù)據(jù)項(xiàng)可以定義為:
D ( x ; y l , y r ) = ∑ p ρ ( y l ( p ) , y r ( p ? [ x ( p ) , 0 ] T ) ) ( 3 ) D(x; y_l, y_r) = \sum_p \rho\Big( y_l(p), y_r\big(p - [x(p), 0]^T\big) \Big) \qquad (3) D(x;yl?,yr?)=p?ρ(yl?(p),yr?(p?[x(p),0]T))(3)

其中 p p p遍歷所有像素, ρ ( ? ) \rho(\cdot) ρ(?)為某種顏色/梯度constancy誤差度量。這個(gè)數(shù)據(jù)項(xiàng)的意義是:在估計(jì)的視差 x x x下,將左圖 y l y_l yl?的像素 p p p投影到右圖 y r y_r yr?,若視差正確,則左右圖像的局部外觀應(yīng)該一致。

正則項(xiàng) R ( x ) R(x) R(x)通?;谝恍┫闰?yàn)假設(shè),對 x x x施加額外約束,鼓勵解具有某些良好性質(zhì)。以稠密重建為例,我們通常假設(shè)相鄰像素的深度值是接近的(分段光滑),于是可以定義一個(gè)鼓勵深度圖光滑的正則項(xiàng):
R ( x ) = ∑ p ∥ ? x ( p ) ∥ 1 ( 4 ) R(x) = \sum_p \|\nabla x(p)\|_1 \qquad (4) R(x)=p?∥?x(p)1?(4)

其中 p p p遍歷像素, ? x ( p ) \nabla x(p) ?x(p)為深度圖在 p p p處的梯度。

求解優(yōu)化問題(1),得到的 x ? x^* x?就是在觀測數(shù)據(jù) y y y下對真實(shí)幾何量 x ^ \hat{x} x^的最大后驗(yàn)估計(jì)(MAP):
x ? = arg ? max ? x P ( x ∣ y ) = arg ? max ? x P ( y ∣ x ) P ( x ) ( 5 ) x^* = \arg\max_x P(x|y) = \arg\max_x P(y|x) P(x) \qquad (5) x?=argxmax?P(xy)=argxmax?P(yx)P(x)(5)

換言之,優(yōu)化求解的過程可以看作是在先驗(yàn)( R ( x ) R(x) R(x))和似然( D ( x ; y ) D(x; y) D(x;y))之間尋求平衡,得到后驗(yàn)概率最大的估計(jì)值。

當(dāng)目標(biāo)函數(shù)是凸的,且其梯度/Hessian矩陣容易計(jì)算時(shí),優(yōu)化問題可以用牛頓法、高斯牛頓法、梯度下降等經(jīng)典算法有效求解。然而,3D感知問題的目標(biāo)函數(shù)往往是高度非線性和非凸的,優(yōu)化變量 x x x所在的空間(如李群流形SE(3))也可能是非歐的,這給問題的求解帶來很大挑戰(zhàn)。

3 經(jīng)典的優(yōu)化算法及其局限性

針對非線性最小二乘型的3D感知問題,高斯牛頓法是最常用的優(yōu)化算法。它在當(dāng)前估計(jì)點(diǎn) x k x_k xk?處,對目標(biāo)函數(shù) E ( x ) E(x) E(x)做二階泰勒展開:
E ( x ) ≈ E ( x k ) + J ( x k ) Δ x + 1 2 Δ x T H ( x k ) Δ x ( 6 ) E(x) \approx E(x_k) + J(x_k) \Delta x + \frac{1}{2} \Delta x^T H(x_k) \Delta x \qquad (6) E(x)E(xk?)+J(xk?)Δx+21?ΔxTH(xk?)Δx(6)

其中 J ( x k ) = ? E ? x ∣ x = x k J(x_k) = \frac{\partial E}{\partial x}|_{x=x_k} J(xk?)=?x?E?x=xk?? E E E x k x_k xk?處的Jacobian矩陣, H ( x k ) = ? 2 E ? x 2 ∣ x = x k ≈ J ( x k ) T J ( x k ) H(x_k) = \frac{\partial^2 E}{\partial x^2}|_{x=x_k} \approx J(x_k)^T J(x_k) H(xk?)=?x2?2E?x=xk??J(xk?)TJ(xk?)為近似的Hessian矩陣。高斯牛頓法通過求解如下線性方程來生成更新步長 Δ x k \Delta x_k Δxk?:
H ( x k ) Δ x k = ? J ( x k ) T r ( x k ) ( 7 ) H(x_k) \Delta x_k = -J(x_k)^T r(x_k) \qquad (7) H(xk?)Δxk?=?J(xk?)Tr(xk?)(7)

其中 r ( x k ) : = D ( x ; y ) ∣ x = x k r(x_k) := D(x; y)|_{x=x_k} r(xk?):=D(x;y)x=xk??為數(shù)據(jù)項(xiàng)的殘差。然后用 Δ x k \Delta x_k Δxk?更新當(dāng)前估計(jì):
x k + 1 = x k ? Δ x k ( 8 ) x_{k+1} = x_k \boxplus \Delta x_k \qquad (8) xk+1?=xk??Δxk?(8)

直到 Δ x k \Delta x_k Δxk?足夠小。這里的 ? \boxplus ?表示在流形空間(如SE(3))上的加法。注意 ( 7 ) (7) (7)是個(gè)高維稀疏線性系統(tǒng),可用Cholesky分解或預(yù)條件共軛梯度等方法高效求解。

當(dāng)目標(biāo)函數(shù)局部可以很好地用二次函數(shù)近似時(shí),高斯牛頓法具有二階收斂速度。然而它也有一些局限性:

  1. 在最優(yōu)解附近,目標(biāo)函數(shù)的Hessian陣必須是正定的,否則 ( 7 ) (7) (7)不保證有解。

  2. Jacobian矩陣 J ( x k ) J(x_k) J(xk?)中的某些項(xiàng)可能在數(shù)值上或理論上難以定義/求導(dǎo),如光度誤差對姿態(tài)變量的導(dǎo)數(shù)。

  3. 算法容易停留在局部極小值,缺乏全局視野。

  4. 若目標(biāo)函數(shù)含有非光滑的正則項(xiàng)(如 L 1 L_1 L1?范數(shù)),則Jacobian在奇異點(diǎn)不存在。

一些改進(jìn)的優(yōu)化技術(shù)如Levenberg-Marquardt方法通過信賴域策略緩解了正定性問題,但其它問題仍然存在。

為了增強(qiáng)魯棒性,人們常常在數(shù)據(jù)項(xiàng)中使用截?cái)喽蔚萂估計(jì)函數(shù),降低異常值的影響。但這些非凸函數(shù)也使得優(yōu)化更加困難,可能需要更復(fù)雜的啟發(fā)式或全局優(yōu)化策略。

4 基于深度學(xué)習(xí)的端到端方法

與經(jīng)典建模范式不同,深度學(xué)習(xí)采用了一種數(shù)據(jù)驅(qū)動的端到端方法。其基本思想是:收集一個(gè)有代表性的數(shù)據(jù)集 D = { ( y i , x i ? ) } i = 1 N \mathcal{D}=\{(y_i, x_i^*)\}_{i=1}^N D={(yi?,xi??)}i=1N?,其中 y i y_i yi?為輸入圖像, x i ? x_i^* xi??為圖像對應(yīng)的ground truth幾何參數(shù)(如深度圖、光流場等)。然后訓(xùn)練一個(gè)深層神經(jīng)網(wǎng)絡(luò) f θ : y ? x f_\theta: y \mapsto x fθ?:y?x,其參數(shù) θ \theta θ通過最小化如下經(jīng)驗(yàn)風(fēng)險(xiǎn)而學(xué)習(xí)得到:
L ( θ ) = ∑ i = 1 N l ( f θ ( y i ) , x i ? ) ( 9 ) \mathcal{L}(\theta) = \sum_{i=1}^N l\big(f_\theta(y_i), x_i^*\big) \qquad (9) L(θ)=i=1N?l(fθ?(yi?),xi??)(9)
其中 l ( ? ) l(\cdot) l(?)為某種loss函數(shù),如 L 1 / L 2 L_1/L_2 L1?/L2? loss。這一范式的優(yōu)點(diǎn)是:

  1. 端到端可微分,不需要人工提取特征或設(shè)計(jì)目標(biāo)函數(shù)/優(yōu)化策略。只要定義合適的網(wǎng)絡(luò)結(jié)構(gòu)和loss函數(shù),就可以從數(shù)據(jù)中自動學(xué)習(xí)復(fù)雜的映射。

  2. 前向推斷速度快,可滿足實(shí)時(shí)性需求。

  3. 可遷移性好。從一個(gè)場景學(xué)到的泛化能力可遷移到新場景。

以單目深度估計(jì)為例,Eigen等[1]首次將CNN應(yīng)用于該任務(wù)。他們在網(wǎng)絡(luò)的encoder中使用了兩個(gè)并行的VGG分支分別提取全局和局部特征,decoder采用多尺度架構(gòu),在4個(gè)spatial resolution下估計(jì)深度,并對深度圖施加了尺度不變loss和平滑loss。Laina等[2]提出了更深的ResNet架構(gòu),并引入了反距離的Berhu loss,取得了更好的效果。

對于光流估計(jì),FlowNet[3]首次證明了深度回歸在該任務(wù)上的有效性。后續(xù)的FlowNet2[4]引入了級聯(lián)和迭代細(xì)化,大幅提升了估計(jì)精度。RAFT[5]從另一角度解決該問題,巧妙地將經(jīng)典的優(yōu)化過程與深度特征提取相結(jié)合,可以看作本文后面要重點(diǎn)介紹的一類混合方法。

盡管深度學(xué)習(xí)取得了矚目成績,但純端到端的黑盒回歸也有其局限性:

  1. 缺乏對幾何和物理規(guī)律的顯式建模,純數(shù)據(jù)驅(qū)動的學(xué)習(xí)有時(shí)不夠穩(wěn)定,容易受domain gap影響。

  2. 需要大量paired數(shù)據(jù)做監(jiān)督訓(xùn)練,在許多3D感知任務(wù)上難以獲得,labeled數(shù)據(jù)的稀缺限制了模型的表現(xiàn)。

  3. 不可解釋和可控。學(xué)習(xí)到的映射高度復(fù)雜,缺乏可解釋性。網(wǎng)絡(luò)的預(yù)測結(jié)果不能保證滿足一些幾何約束。

因此,如何將基于物理的歸納偏置與深度學(xué)習(xí)的表達(dá)能力相結(jié)合,已成為新的研究熱點(diǎn)。

5 將深度學(xué)習(xí)嵌入優(yōu)化過程

一類有前景的混合方法是將深度學(xué)習(xí)嵌入到傳統(tǒng)優(yōu)化過程中,形成"可學(xué)習(xí)"、"可微分"的復(fù)合層。這類方法在經(jīng)典優(yōu)化算法的框架下,用學(xué)習(xí)的模塊替代手工設(shè)計(jì)的某些部分(如能量/梯度的計(jì)算),并端到端訓(xùn)練整個(gè)系統(tǒng)。RAFT[5]是這一思想在光流估計(jì)任務(wù)上的代表作。

與FlowNet等直接回歸光流場的方法不同,RAFT明確建模了光流估計(jì)中的迭代優(yōu)化過程。記 I 1 , I 2 \mathcal{I}_1, \mathcal{I}_2 I1?,I2?為輸入的兩幀圖像,網(wǎng)絡(luò)的目標(biāo)是學(xué)習(xí)一個(gè)映射:
f 1 , f 2 , … , f N = R A F T ( I 1 , I 2 ) ( 10 ) f_1, f_2, \dots, f_N = \mathrm{RAFT}(\mathcal{I}_1, \mathcal{I}_2) \qquad (10) f1?,f2?,,fN?=RAFT(I1?,I2?)(10)
其中 f k ∈ R H × W × 2 f_k \in \mathbb{R}^{H \times W \times 2} fk?RH×W×2為第 k k k次迭代估計(jì)的光流場。具體來說,RAFT包含三個(gè)關(guān)鍵組件:

(1) 特征提取網(wǎng)絡(luò),用CNN從輸入圖像中提取高層特征:
F 1 = F e a t u r e E n c o d e r ( I 1 ) , F 2 = F e a t u r e E n c o d e r ( I 2 ) ( 11 ) \mathbf{F}_1 = \mathrm{FeatureEncoder}(\mathcal{I}_1), \quad \mathbf{F}_2 = \mathrm{FeatureEncoder}(\mathcal{I}_2) \qquad (11) F1?=FeatureEncoder(I1?),F2?=FeatureEncoder(I2?)(11)

(2) 相關(guān)體計(jì)算模塊,基于當(dāng)前估計(jì)的光流場 f k f_k fk?和特征 F 1 , F 2 \mathbf{F}_1, \mathbf{F}_2 F1?,F2?構(gòu)造一個(gè)4D相關(guān)體:
C k = C o m p u t e C o r r e l a t i o n ( f k , F 1 , F 2 ) ( 12 ) \mathbf{C}_k = \mathrm{ComputeCorrelation}(f_k, \mathbf{F}_1, \mathbf{F}_2) \qquad (12) Ck?=ComputeCorrelation(fk?,F1?,F2?)(12)

直觀上, C k [ i , j , p , q ] \mathbf{C}_k[i, j, p, q] Ck?[i,j,p,q]度量了以 f k [ i , j ] f_k[i, j] fk?[i,j]為中心的 I 1 \mathcal{I}_1 I1?局部patch與 I 2 \mathcal{I}_2 I2?中對應(yīng)patch的相似性。這一步可以看作傳統(tǒng)優(yōu)化方法中計(jì)算匹配代價(jià)的過程。

(3) GRU更新單元,迭代細(xì)化光流估計(jì):
h k + 1 , f k + 1 = G R U U p d a t e ( f k , h k , C k ) ( 13 ) h_{k+1}, f_{k+1} = \mathrm{GRUUpdate}(f_k, h_k, \mathbf{C}_k) \qquad (13) hk+1?,fk+1?=GRUUpdate(fk?,hk?,Ck?)(13)

其中 h k h_k hk?是隱藏狀態(tài), f k + 1 f_{k+1} fk+1?是細(xì)化后的光流場。這一步可以看作傳統(tǒng)優(yōu)化中的梯度下降更新。但與手工設(shè)計(jì)的梯度不同,這里的更新方向由數(shù)據(jù)驅(qū)動學(xué)習(xí)得到。

整個(gè)RAFT網(wǎng)絡(luò)是端到端可訓(xùn)練的,所有參數(shù)都通過最小化預(yù)測光流場 f N f_N fN?與GT光流場 f ? f^* f?的差異來學(xué)習(xí):
L ( θ ) = ∑ i = 1 M ∥ f N ( i ) ? f ? ( i ) ∥ 1 ( 14 ) \mathcal{L}(\theta) = \sum_{i=1}^M \|f_N^{(i)} - f^{*(i)}\|_1 \qquad (14) L(θ)=i=1M?fN(i)??f?(i)1?(14)

RAFT的優(yōu)點(diǎn)在于,它將學(xué)習(xí)的連續(xù)warp和相關(guān)計(jì)算嵌入到每一步的迭代更新中,而非單純堆疊卷積層,賦予了網(wǎng)絡(luò)更強(qiáng)的歸納偏置。同時(shí),顯式建模迭代過程也使得網(wǎng)絡(luò)更加可解釋。實(shí)驗(yàn)表明,這一混合范式在準(zhǔn)確性和泛化性方面都優(yōu)于純端到端的回歸方法。

類似地,BA-Net[6]以及LM-Reloc[7]將深度學(xué)習(xí)引入SLAM后端優(yōu)化中。它們用學(xué)習(xí)的網(wǎng)絡(luò)模塊替代了傳統(tǒng)的 bundle adjustment (BA) 流程中的某些手工設(shè)計(jì)部分,如:

(1) 在Pose-Graph優(yōu)化中,用GNN預(yù)測每條邊的信息矩陣,作為Mahalanobis距離的權(quán)重[6];

(2) 在特征點(diǎn)BA中,用CNN預(yù)測每對匹配的置信度,作為Huber損失的權(quán)重[7]。

這些學(xué)習(xí)的模塊可以看作是傳統(tǒng)目標(biāo)函數(shù)的"插件",使優(yōu)化過程更加自適應(yīng)和數(shù)據(jù)驅(qū)動。實(shí)驗(yàn)表明,嵌入學(xué)習(xí)模塊的SLAM系統(tǒng)在準(zhǔn)確性、魯棒性方面都有明顯提升。

6 將優(yōu)化嵌入深度學(xué)習(xí)

與上一節(jié)"learning in optimization"的思路互補(bǔ),另一類混合范式是將優(yōu)化模塊嵌入到深度網(wǎng)絡(luò)中,形成端到端可訓(xùn)練的"可微分優(yōu)化層"。這類方法用可微分的優(yōu)化層(用內(nèi)部迭代求解一個(gè)隱式函數(shù))替代網(wǎng)絡(luò)中的某些前饋層,使網(wǎng)絡(luò)輸出自動滿足一些硬約束。

以經(jīng)典的PnP問題為例,已知一組3D點(diǎn) { X i } \{\mathbf{X}_i\} {Xi?}在世界坐標(biāo)系下的坐標(biāo)和它們在相機(jī)中的2D投影 { x i } \{\mathbf{x}_i\} {xi?},估計(jì)相機(jī)的位姿 T ∈ S E ( 3 ) \mathbf{T} \in \mathrm{SE}(3) TSE(3)。傳統(tǒng)的DLT、P3P等解法先建立目標(biāo)函數(shù):
E ( T ) = ∑ i = 1 N ∥ π ( T X i ) ? x i ∥ 2 ( 15 ) E(\mathbf{T}) = \sum_{i=1}^N \|\pi(\mathbf{T}\mathbf{X}_i) - \mathbf{x}_i\|^2 \qquad (15) E(T)=i=1N?π(TXi?)?xi?2(15)

其中 π : P 3 → P 2 \pi: \mathbb{P}^3 \to \mathbb{P}^2 π:P3P2為相機(jī)投影模型。然后用SVD或Ransac求解一個(gè)閉式解 T ? = arg ? min ? T E ( T ) \mathbf{T}^* = \arg\min_{\mathbf{T}} E(\mathbf{T}) T?=argminT?E(T)。

DSAC[8]提出了一種可微分的RANSAC層,可以集成到任意網(wǎng)絡(luò)中用于PnP估計(jì)。該層將傳統(tǒng)RANSAC的采樣、模型估計(jì)和評價(jià)過程公式化為可微分的操作,關(guān)鍵是將假設(shè)模型的評價(jià)函數(shù)softmax化:
s i = exp ? ( ? E ( T i ) / τ ) ∑ j exp ? ( ? E ( T j ) / τ ) ( 16 ) s_i = \frac{\exp(-E(\mathbf{T}_i)/\tau)}{\sum_{j} \exp(-E(\mathbf{T}_j)/\tau)} \qquad (16) si?=j?exp(?E(Tj?)/τ)exp(?E(Ti?)/τ)?(16)

其中 τ \tau τ為溫度參數(shù)。DSAC層的輸出是加權(quán)的假設(shè)集合:
T ? = ∑ i s i T i , s.t. ∑ i s i = 1 ( 17 ) \mathbf{T}^* = \sum_{i} s_i \mathbf{T}_i, \quad \text{s.t.} \sum_{i} s_i = 1 \qquad (17) T?=i?si?Ti?,s.t.i?si?=1(17)

DSAC層可以插入到任意2D-3D匹配網(wǎng)絡(luò)中,使網(wǎng)絡(luò)輸出的匹配自動滿足PnP約束。實(shí)驗(yàn)表明,這種端到端的可微分求解范式可以明顯提高姿態(tài)估計(jì)的精度,且節(jié)省后處理時(shí)間。

類似地,一些工作將ICP[9]、特征匹配[10]、mesh簡化[11]等傳統(tǒng)幾何任務(wù)重構(gòu)為可微分層,嵌入到深度網(wǎng)絡(luò)中,實(shí)現(xiàn)幾何約束感知的端到端學(xué)習(xí)。

參考文獻(xiàn):
[1] Eigen D, Puhrsch C, Fergus R. Depth map prediction from a single image using a multi-scale deep network[J]. NeurIPS, 2014.
[2] Laina I, Rupprecht C, Belagiannis V, et al. Deeper depth prediction with fully convolutional residual networks[C]//3DV. IEEE, 2016.
[3] Dosovitskiy A, Fischer P, Ilg E, et al. Flownet: Learning optical flow with convolutional networks[C]//ICCV, 2015.
[4] Ilg E, Mayer N, Saikia T, et al. Flownet 2.0: Evolution of optical flow estimation with deep networks[C]//CVPR, 2017.
[5] Teed Z, Deng J. RAFT: Recurrent all-pairs field transforms for optical flow[C]//ECCV, 2020.
[6] Tang C, Tan P. BA-Net: Dense bundle adjustment network[J]. arXiv, 2018.
[7] Wei Y, Liu S, Zhao W, et al. Deepsfm: Structure from motion via deep bundle adjustment[C]//ECCV, 2020.
[8] Brachmann E, Krull A, Nowozin S, et al. DSAC-differentiable RANSAC for camera localization[C]//CVPR, 2017.
[9] Wang Y, Solomon J M. Deep closest point: Learning representations for point cloud registration[C]//ICCV, 2019.
[10] Zhang J, Sun D, Luo Z, et al. Learning two-view correspondences and geometry using order-aware network[C]//ICCV, 2019.
[11] Hanocka R, Hertz A, Fish N, et al. MeshCNN: a network with an edge[J]. ACM TOG, 2019.

7 基于優(yōu)化與學(xué)習(xí)的混合范式

7.1 引入物理約束和先驗(yàn)知識

將物理規(guī)律、幾何約束等先驗(yàn)知識納入深度學(xué)習(xí)pipeline,是混合范式的一個(gè)關(guān)鍵優(yōu)勢。這不僅可以提高模型輸出的幾何一致性和物理合理性,還能降低模型對label數(shù)據(jù)的依賴。那么如何設(shè)計(jì)高效、通用的約束編碼和融合機(jī)制呢?

一種思路是將約束顯式地嵌入loss函數(shù)中。如Pixel2Mesh[1]在mesh變形的同時(shí),加入了拉普拉斯loss和法向loss,鼓勵相鄰頂點(diǎn)的位置和法向保持局部一致。SDFDIFF[2]在用SDF表示形狀時(shí),設(shè)計(jì)了Eikonal loss L E = ∫ Ω ( ∣ ? f ( x ) ∣ ? 1 ) 2 d x \mathcal{L}_E=\int_\Omega (|\nabla f(\mathbf{x})|-1)^2\mathrmvxwlu0yf4\mathbf{x} LE?=Ω?(∣?f(x)?1)2dx,鼓勵SDF滿足 i s o \mathrm{iso} iso-surface的性質(zhì)。

另一思路是將約束隱式地嵌入網(wǎng)絡(luò)結(jié)構(gòu)中。如Shen等[3]在點(diǎn)云配準(zhǔn)中,用一個(gè)預(yù)訓(xùn)練的網(wǎng)絡(luò)估計(jì)兩組點(diǎn)之間的軟對應(yīng),再用 S V D \mathrm{SVD} SVD求解最優(yōu)剛體變換,從而將 S E ( 3 ) \mathrm{SE}(3) SE(3)流形約束融入前向傳播。RAFT[4]用相關(guān)體搜索匹配,用GRU迭代更新optical flow,從而將光流平滑性、small displacement等先驗(yàn)隱式地編碼入網(wǎng)絡(luò)計(jì)算圖。

此外,還可將約束直接納入輸入和輸出表示中。如 NeuralSym[5] 用球諧函數(shù)(SPHARM)表示物體形狀,從而顯式建模物體的拓?fù)浜蛯ΨQ性。Gao等[6]發(fā)現(xiàn)用黎曼度量等內(nèi)蘊(yùn)表示取代歐式表示,可使網(wǎng)絡(luò)更好地適應(yīng)非歐流形(如旋轉(zhuǎn)群 S O ( 3 ) \mathrm{SO(3)} SO(3))。

7.2 降低對label數(shù)據(jù)的依賴

大量的label數(shù)據(jù)對于監(jiān)督深度學(xué)習(xí)至關(guān)重要,但在許多3D感知任務(wù)中,精確的逐點(diǎn)標(biāo)注非常困難。因此,如何最大限度地利用無監(jiān)督和弱監(jiān)督信號,來指導(dǎo)深度網(wǎng)絡(luò)學(xué)習(xí)更加魯棒和可泛化的表示,成為一個(gè)重要課題。

合理利用數(shù)據(jù)本身蘊(yùn)含的某些不變性,是構(gòu)建自監(jiān)督loss的重要手段。一個(gè)典型例子是對極幾何約束:從不同視角觀測同一個(gè)剛體,任意匹配點(diǎn)的深度值應(yīng)滿足對極方程。基于這一原理,Zhou等[7]聯(lián)合訓(xùn)練兩個(gè)CNN分別估計(jì)單目深度和相機(jī)姿態(tài),并設(shè)計(jì)loss監(jiān)督二者的一致性,實(shí)現(xiàn)了僅需monocular視頻的深度自監(jiān)督學(xué)習(xí)。

多模態(tài)感知也為弱監(jiān)督學(xué)習(xí)開辟了新路徑。投影l(fā)aser點(diǎn)提供的稀疏深度能為image depth估計(jì)構(gòu)建有力的監(jiān)督信號[8];而在缺乏audio-visual pair的情況下,音頻和視頻互為表征空間,音頻事件和視覺目標(biāo)的同步性能為它們構(gòu)建弱監(jiān)督[9]。

此外,知識的遷移和先驗(yàn)的編碼也能降低學(xué)習(xí)難度。如 D O N \mathrm{DON} DON[10]將ShapeNet上預(yù)訓(xùn)練的object detector遷移到KITTI數(shù)據(jù),僅用很少的label數(shù)據(jù)微調(diào),就實(shí)現(xiàn)了高精度的outdoor 3D檢測。Neural Point Descriptor[11]基于可區(qū)分性、平滑性、局部一致性等先驗(yàn),無監(jiān)督地學(xué)習(xí)了一個(gè)通用、緊致的3D點(diǎn)云描述子表示。

7.3 提高系統(tǒng)的泛化性和適應(yīng)性

現(xiàn)實(shí)世界的視覺環(huán)境千差萬別,數(shù)據(jù)分布也呈現(xiàn)多樣性(multi-modality)。因此,如何確保算法能夠適應(yīng)不同的場景、傳感器和外部條件,是3D感知落地應(yīng)用必須考慮的問題。現(xiàn)有的一些研究思路包括:

(1) 基于元學(xué)習(xí)的快速自適應(yīng)。Finn等[12]提出MAML算法,通過二次梯度下降學(xué)習(xí)一個(gè)對不同任務(wù)都有良好初始化的meta-learner,從而實(shí)現(xiàn)少樣本條件下的快速finetune。類似思想也被用于6D位姿估計(jì)[13]、深度估計(jì)[14]等任務(wù)的domain adaptation中。

(2) 不變特征表示學(xué)習(xí)。Cohen等[15]利用群等變性,設(shè)計(jì)了對SO(3)旋轉(zhuǎn)不變的spherical CNN,使學(xué)習(xí)到的3D形狀描述子具有更好的泛化能力。Zhu等[16]用cycle-consistency loss實(shí)現(xiàn)了跨模態(tài)(如CT-X光)醫(yī)學(xué)圖像的遷移,學(xué)到了對成像原理不變的語義特征。

(3) 持續(xù)學(xué)習(xí)與漸進(jìn)優(yōu)化。Dai等[17]提出漸進(jìn)網(wǎng)絡(luò),在連續(xù)的優(yōu)化域上學(xué)習(xí)網(wǎng)絡(luò)權(quán)重,避免在新樣本到來時(shí)catastrophic forgetting。VASE[18]引入外顯記憶模塊,實(shí)現(xiàn)了open-set的語義場景理解。

(4) 主動學(xué)習(xí)與探索。Chaplot等[19]讓agent主動探索周圍環(huán)境并搜集hard samples,再將其用于導(dǎo)航策略學(xué)習(xí),實(shí)現(xiàn)了indoor navigation任務(wù)的自我強(qiáng)化。Luo等[20]提出主動多視圖深度估計(jì),學(xué)習(xí)next-best-view并動態(tài)重建,在固定預(yù)算下提高深度圖的精度和完整性。

7.4 提高模型的可解釋性和可控性

深度學(xué)習(xí)模型常被比作"黑盒",內(nèi)部工作機(jī)制難以洞察,這在一定程度上阻礙了其在自動駕駛等高安全性要求場合的應(yīng)用。有鑒于此,AI可解釋性、可控性研究受到學(xué)界和業(yè)界的高度重視。在3D感知領(lǐng)域,一些有益的嘗試包括:

(1) 顯式編碼高層語義概念。3D-RCNN[21]在兩階段檢測框架中引入orientation anchor,將物體的朝向顯式地建模到網(wǎng)絡(luò)中,在提高精度的同時(shí),輸出也更符合人的直覺。Han等[22]提出將場景組織為物體-關(guān)系圖,并用GCN建模推理其中的語義,使基于圖的3D重建更加可解釋。

(2) 模仿人類的感知推理過程。投射3D模型到2D,再回歸6D位姿[23];或者先粗略估計(jì)物體的3D包圍盒,再迭代優(yōu)化[24],都是在網(wǎng)絡(luò)的計(jì)算過程中模仿人類"從粗到精分解子任務(wù)"的認(rèn)知習(xí)慣。類似地,Neural-Sym[5]通過顯式建模視圖間和物體內(nèi)的對稱關(guān)系,模仿人類對物體形狀的感知。

(3) 對抗性學(xué)習(xí)增強(qiáng)網(wǎng)絡(luò)魯棒性。Xiao等[25]發(fā)現(xiàn),添加物理上合理的random perturbation(如小幅度旋轉(zhuǎn)平移),可使PointNet等3D分類網(wǎng)絡(luò)產(chǎn)生錯(cuò)誤預(yù)測。為此,他們提出對抗性訓(xùn)練和r-max pooling等策略,增強(qiáng)網(wǎng)絡(luò)應(yīng)對形變的能力。Zeng等[26]研究了移動機(jī)器人中傳感器和運(yùn)動規(guī)劃模塊的"協(xié)同對抗",揭示了其內(nèi)部機(jī)理。

(4) 后修正與自我糾錯(cuò)。Hu等[27]提出gradslam,學(xué)習(xí)一個(gè)RNN,在SLAM過程中接收未來觀測,主動返回過去重新優(yōu)化歷史幀的位姿。這種"后知后覺"(hindsight)的反復(fù)修正機(jī)制,使SLAM系統(tǒng)更接近人腦的思維過程。Liao等[28]在VO pipeline后附加一個(gè)correction network,顯式地估計(jì)前一階段pose的不確定性并訂正,可視為自我糾錯(cuò)的一種形式。

7.5 拓展應(yīng)用場景

除了3D感知,混合優(yōu)化-學(xué)習(xí)范式在其他需要求解復(fù)雜逆問題的領(lǐng)域也有廣闊的應(yīng)用前景。它可以用于學(xué)習(xí)加速物理模擬[29]、drug discovery中的分子優(yōu)化[30]、機(jī)器人強(qiáng)化學(xué)習(xí)中的運(yùn)動規(guī)劃[31]等。這也為3D感知和其他AI領(lǐng)域的cross-fertilization提供了新的可能。

盡管基于優(yōu)化的傳統(tǒng)3D感知方法和基于學(xué)習(xí)的新興方法各有所長,但它們在求解相同問題時(shí)往往是互補(bǔ)的。將二者有機(jī)融合、協(xié)同優(yōu)化,對于開發(fā)更加魯棒、高效、可解釋的3D感知系統(tǒng)至關(guān)重要。

這一節(jié)的技術(shù)還在不斷探索,參考了如下論文
參考文獻(xiàn):
[1] Wang N, Zhang Y, Li Z, et al. Pixel2mesh: Generating 3d mesh models from single rgb images[C]//ECCV 2018.
[2] Jiang Y, Ji D, Han Z, et al. Sdfdiff: Differentiable rendering of signed distance fields for 3d shape optimization[C]//CVPR 2020.
[3] Shen W, Zhang B, Huang S, et al. Learning-based Optimization for Robust Registration of Point Clouds[J]. arXiv preprint arXiv:2103.05858, 2021.
[4] Teed Z, Deng J. RAFT: Recurrent all-pairs field transforms for optical flow[C]//ECCV 2020.
[5] Hosseinzadeh M, Li K, Latif Y, et al. Neural-Sym: Learning to Generate Symbolic 3D Shapes from 2D Images[J]. arXiv preprint arXiv:2106.00722, 2021.
[6] Gao R, Xie J, Zhang M, et al. Learning canonical pose and viewpoint for object categories in the wild[J]. arXiv preprint arXiv:2109.00106, 2021.
[7] Zhou T, Brown M, Snavely N, et al. Unsupervised learning of depth and ego-motion from video[C]//CVPR 2017.
[8] Ma F, Cavalheiro G V, Karaman S. Self-supervised sparse-to-dense: Self-supervised depth completion from lidar and monocular camera[C]//ICRA 2019.
[9] Yang Z, Shi D, Jain S, et al. Lane[C]//ICASSP 2021.
[10] Qi C R, Liu W, Wu C, et al. Frustum pointnets for 3d object detection from rgb-d data[C]//CVPR 2018.
[11] Elbaz G, Avraham T, Fischer A. 3d point cloud registration for localization using a deep neural network auto-encoder[C]//CVPR 2017.
[12] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//ICML 2017.
[13] Xiang Y, Schmidt T, Narayanan V, et al. Posecnn: A convolutional neural network for 6d object pose estimation in cluttered scenes[J]. RSS, 2018.
[14] Tonioni A, Rahnama O, Joy T, et al. Learning to adapt for stereo[C]//CVPR 2019.
[15] Cohen T S, Geiger M, Koehler J, et al. Spherical cnns[J]. ICLR, 2018.
[16] Zhu J Y, Zhang R, Pathak D, et al. Toward multimodal image-to-image translation[J]. NeurIPS, 2017.
[17] Dai X, Yang G, Chen X, et al. Progressive Self-Supervised Representation Learning for Skeleton-Based Action Recognition[J]. IEEE Trans. Multimedia, 2021.
[18] Gül S, Abolghasemi M, B?tz M, et al. Vase: A new approach for video-based active speaker detection[J]. arXiv preprint arXiv:2105.09897, 2021.
[19] Chaplot D S, Gandhi D, Gupta S, et al. Learning to explore using active neural slam[J]. arXiv preprint arXiv:2004.05155, 2020.
[20] Luo K, Guan T, Ju L, et al. Learning-based Automatic Reconstruction of 3D Models from Real-World Images[J]. arXiv preprint arXiv:2103.14098, 2021.
[21] Kundu A, Li Y, Rehg J M. 3d-rcnn: Instance-level 3d object reconstruction via render-and-compare[C]//CVPR 2018.
[22] Han Z, Wang X, Vong C M, et al. 3DViewGraph: learning global features for 3d shapes from a graph of unordered views with attention[C]//ICLR 2019.
[23] Xiang Y, Schmidt T, Narayanan V, et al. Posecnn: A convolutional neural network for 6d object pose estimation in cluttered scenes[J]. RSS, 2018.
[24] Kehl W, Manhardt F, Tombari F, et al. SSD-6D: Making rgb-based 3d detection and 6d pose estimation great again[C]//ICCV 2017.
[25] Xiao C, Yang J, Li B, et al. Generating adversarial point clouds in 3D[J]. arXiv preprint arXiv:2101.11589, 2021.
[26] Zeng A, Feng Z, Zhang H, et al. Adversarial Feature Learning for Collaborative Motion Prediction[J]. arXiv preprint arXiv:2109.06467, 2021.
[27] Hu Y, Luo Z, Wang X, et al. GradSLAM: Dense SLAM Meets Automatic Differentiation[J]. IEEE Trans. Robot., 2021.
[28] Liao Z, Ji X, Wang W, et al. DNET: A deep network for correcting the correspondence of visual odometry[J]. arXiv pre

http://www.risenshineclean.com/news/26977.html

相關(guān)文章:

  • 哪些網(wǎng)站比較容易做怎么做好市場宣傳和推廣
  • 什么網(wǎng)站可以快速做3d效果圖百度怎么注冊公司網(wǎng)站
  • 單頁銷售網(wǎng)站源碼站長統(tǒng)計(jì)軟件
  • 阿里云鏡像wordpressseo網(wǎng)站營銷推廣公司
  • 地產(chǎn)主視覺設(shè)計(jì)網(wǎng)站北京網(wǎng)站優(yōu)化對策
  • 教育視頻網(wǎng)站開發(fā)蘇州整站優(yōu)化
  • 周年慶網(wǎng)站要怎么做6seo公司推薦
  • 做宣傳冊模板的網(wǎng)站域名注冊商怎么查
  • 網(wǎng)站好友邀請鏈接生成 php酒店如何進(jìn)行網(wǎng)絡(luò)營銷
  • 自己做的視頻網(wǎng)站視頻加載慢seo優(yōu)化培訓(xùn)機(jī)構(gòu)
  • 網(wǎng)站建設(shè)談單技巧深圳優(yōu)化seo
  • 做外貿(mào)主要是哪些網(wǎng)站石家莊今天最新新聞頭條
  • 用asp做網(wǎng)站怎么布局湖南百度推廣開戶
  • 網(wǎng)站建設(shè)運(yùn)營預(yù)算合肥seo網(wǎng)站排名
  • 永久免費(fèi)做網(wǎng)站app外貿(mào)營銷網(wǎng)站
  • wordpress按修改時(shí)間排序人員優(yōu)化是什么意思
  • 浙江巨鑫建設(shè)有限公司網(wǎng)站全能優(yōu)化大師
  • 接做網(wǎng)站私活無憂軟文網(wǎng)
  • 網(wǎng)站建設(shè)制度網(wǎng)絡(luò)營銷的方法包括哪些
  • 網(wǎng)站開發(fā)工具報(bào)告網(wǎng)絡(luò)推廣公司怎么找客戶
  • 深圳網(wǎng)站建設(shè)smawto百度競價(jià)開戶哪家好
  • html網(wǎng)站中文模板下載北京搜索引擎優(yōu)化seo專員
  • 西安網(wǎng)站建設(shè)費(fèi)用百度競價(jià)推廣開戶費(fèi)用
  • 微網(wǎng)站和門戶網(wǎng)站的區(qū)別徐州網(wǎng)站建設(shè)方案優(yōu)化
  • 保定學(xué)校網(wǎng)站建設(shè)小程序搭建教程
  • 高端網(wǎng)站設(shè)計(jì)報(bào)價(jià)表百度推廣優(yōu)化排名怎么收費(fèi)
  • 網(wǎng)店代理杭州seo教程
  • 服務(wù)器是干什么用的一點(diǎn)優(yōu)化
  • 都江堰發(fā)布seo綜合查詢網(wǎng)站
  • 天津科技公司網(wǎng)站阿里云盤資源搜索引擎