青島外貿網站建設哪家好網絡事件營銷
計算機視覺是人工智能的一個快速發(fā)展的領域,特別是在 3D 領域。 本概述將考慮一個應用任務:2D 和 3D 環(huán)境之間的轉換。
在線工具推薦:?Three.js AI紋理開發(fā)包?-?YOLO合成數據生成器?-?GLTF/GLB在線編輯?-?3D模型格式在線轉換?-?可編程3D場景編輯器?
1、2D和3D的轉換
關于2D和3D的轉換,存在兩種任務:從3D模型創(chuàng)建2D圖像,或者從2D圖像重建3D模型。
1.1 正向任務:從3D模型創(chuàng)建2D圖像
首先,我們將分析如何解決計算機圖形學的正向任務,即使用 3D 模型創(chuàng)建 2D 圖像,并熟悉基本概念。
渲染是從 3D 模型轉變?yōu)?2D 投影的過程。 你可能聽說過其中一些方法:
- 光柵化(rasterization)是最早、最快的渲染方法之一。 光柵化將模型視為多邊形網格。 這些多邊形的頂點嵌入了位置、紋理和顏色等信息。 然后將這些頂點投影到垂直于透視圖的平面上。 光柵化存在重疊對象的問題:如果表面重疊,則渲染時最后繪制的部分將被反射,這將導致顯示錯誤的對象。 這個問題是使用z-buffering解決的(事實上,z-buffer就是深度圖)。
- 射線投射(ray casting)。 與光柵化不同,光線投射期間不會出現重疊表面的潛在問題。 光線投射,顧名思義,就是從相機的角度將光線投射到模型上。 光線輸出到圖像平面上的每個像素。 它首先碰到的表面將在渲染過程中顯示,并且第一個表面之后的任何其他交叉點都不會被繪制。
- 光線追蹤(ray tracing)。 盡管光線投射具有諸多優(yōu)點,但該技術仍然缺乏正確建模陰影、反射和折射的能力。 光線追蹤方法的開發(fā)就是為了幫助解決這些問題。 光線追蹤的工作原理與光線投射類似,只是它能更好地顯示光線。 基本上,從相機的角度來看的主光線被引導到模型上以產生次級光線。 擊中模型后,將發(fā)射陰影光線、反射光線或折射光線,具體取決于表面屬性。
1.2 逆向任務:從2D圖像重建3D模型
現在我們已經考慮了從 3D 模型構建 2D 圖像的直接問題,讓我們看看解決逆問題的方法:從 2D 圖像構建 3D 模型。
二維照片是三維場景的投影。 3D 場景是 3D 網格、頂點、面、紋理貼圖以及從相機或視點查看的光源的集合。 為簡單起見,我們將場景限制為單個 3D 對象。 如果我們能夠恢復創(chuàng)建 2D 照片的原始 3D 場景,我們應該能夠通過使用與創(chuàng)建輸入 2D 照片相同的視點將 3D 對象投影到 2D 來驗證這一點。
要重建3D對象,需要計算頂點、面、光源和紋理的所有可能組合,當以 2D 投影時,這些組合應該在給定輸入圖像的情況下給出等效的 2D 圖像,前提是相機位置是 相同的。 這本質上是一個搜索問題。 但暴力破解的問題在于,可以創(chuàng)建的頂點、面、紋理貼圖和光照的組合數量巨大,因此我們無法通過暴力破解來解決這個問題。
讓我們看看現有的解決這個問題的方法!
2、從2D圖像重建3D模型的解決方案
這里我們介紹幾種從單張2D圖像重建3D模型的解決方案:DIB-R、Im2Struct、ATLAS和Mesh R-CNN。
2.1 DIB-R
DIB-R?是一種差分渲染器,它使用可微分光柵化算法對像素值進行建模。 它有兩種分配像素值的方法。 一個用于前景像素,另一個用于背景像素。 在這里,與標準渲染相反,標準渲染將像素值分配給覆蓋像素的最近的面,前景光柵化被視為頂點屬性的插值。 在每個前景像素上,我們執(zhí)行 z 緩沖測試并將其分配給最近的覆蓋面。 每個像素都只受該面的影響。 因此,前景像素的計算方式是使用每個頂點的權重對最近的三個相鄰頂點進行插值。 對于背景像素,即未被 3D 對象的任何面覆蓋的像素,該值是根據像素到最近面的距離計算的。
DIB-R可以生成具有傳統(tǒng)渲染難以實現的逼真光照和陰影效果的圖像。
2.2 Im2Struct:SMN+SRN
結構掩膜網絡 (SMN:Structural Masking Network) 根據不同比例的輸入 2D 圖像創(chuàng)建對象掩膜。 這是一個多層卷積神經網絡(CNN)。 它的任務是保存有關表單的信息,同時查看不相關的信息:背景和紋理。
結構恢復網絡(SRN:Structure Restoring Network)以長方體結構的形式遞歸地重建對象細節(jié)的層次結構。 SRN接收來自SMN的輸入數據,添加2D圖像的CNN特征,然后將這些函數傳遞給遞歸神經網絡(RvNN)解碼成3D結構。 在輸出中,我們得到具有合理空間配置的三維長方體形式的圖像。
與傳統(tǒng) 3D 掃描方法相比,Im2Struct?具有多個優(yōu)勢,因為它可以從單個 2D 圖像恢復物體的 3D 結構,這通常比從多個視點掃描物體更快、更便宜。
2.3 ATLAS
ATLAS將任意長度的 RGB 圖像序列作為輸入。 每幅圖像的內部特征和姿勢都是已知的。 這些圖像通過 2D CNN 主干進行特征提取。 然后將對象投影回 3D 體素體積并使用當前平均值進行累積。 一旦圖像元素以 3D 形式組合,我們就直接使用 3D CNN 對 TSDF 進行回歸。
ATLAS 可用于多種行業(yè),包括制造、工程和考古。 ATLAS 3D 的一個限制是它要求被掃描的物體是靜止的,這在某些應用中可能并不總是可行。 此外,系統(tǒng)可能難以捕捉具有高反射或透明表面的物體的精細細節(jié)和紋理。
2.4 Mesh R-CNN
Mesh R-CNN框架采用兩階段方法:在第一階段,它使用卷積神經網絡 (CNN) 檢測和分割圖像中的對象,類似于流行的 Mask R-CNN 框架。 在第二階段,它使用網格預測網絡對每個對象實例的一組 3D 頂點進行回歸。
Mesh R-CNN 的主要優(yōu)點之一是它能夠重建對象的詳細 3D 網格,包括其細粒度的幾何形狀和紋理。 這使得它對于虛擬現實、增強現實和 3D 打印等應用非常有用
3、從單張2D圖像生成深度圖
我們介紹了幾種解決逆向圖形任務的最先進的解決方案。 所有這些解決方案都可以幫助你解決各種任務,例如重建房間、創(chuàng)建 3D 局部地圖、從單個圖像重建 3D 場景,甚至估計農作物或地形的高度和深度以指導種植、收割和灌溉決策。
請記住,所有這些解決方案都基于不同的渲染、體素預測、網格預測等方法。 但它們都有一個共同的需求,即以一種或另一種形式構建或預測深度圖。
這就是為什么我也建議單獨考慮構建深度圖的問題。
讓我們看一下單目圖像預測深度圖的幾種最先進的解決方案。
3.1 GLPN
GLPN單目深度估計網絡具有貫穿整個網絡的全局和局部特征路徑的新架構。 該框架的整體結構如下:transformer編碼器使模型能夠學習全局依賴性,并且所提出的解碼器通過跳躍連接和特征融合模塊構建局部路徑,成功地將提取的特征恢復到目標深度圖中。
3.2 Dense Depth模型
Dense Depth模型的編碼環(huán)節(jié)使用在 ImageNet 中預訓練的 DenseNet-169 網絡將 RGB 輸入圖像編碼為對象向量。然后將該向量輸入到一系列連續(xù)的層中,并增加采樣,以構建分辨率等于輸入一半的最終深度圖。 這些上采樣層及其相關的帶寬連接形成了解碼器。
3.3 Midas
Midas架構以視覺多連接transformer為基礎來表示。 過去成功預測的整體編碼器-解碼器結構被保留。 通過提取非重疊部分,然后對其平滑表示(DPT-Base 和 DPT-Large)進行線性投影,或者通過應用 ResNet-50 (DPT-Hybrid),將輸入圖像轉換為標記。 圖像嵌入輔以位置嵌入和獨立于補丁的標記。 標記要經歷幾個轉換階段。 從不同階段收集標記作為多分辨率圖像(重新組裝)。 Fusion 模塊逐漸合并和上采樣視圖以生成詳細的預測。
4、眾包之手
在后一種情況下,MIDAS 能夠通過鏈接新的數據源來實現其結果,而這是以前沒有人實現過的。 大規(guī)模收集不同的深度數據集是很困難的,因此引入了一種工具來組合互補的數據源。 此外,基于 3D 電影的新數據集提供了有關各種動態(tài)場景的可靠信息。
因此,我想重點關注3D方向的數據問題。 每個開發(fā)人員都面臨這個問題,并且必須以某種方式回避它,包括在架構上。 我描述的所有這些解決方案都使用幾乎相同的開放數據集。
這還不夠,因為由于遮擋、光照條件差、視角有限等多種原因,收集如此復雜和高質量的數據并不是那么簡單。 當沒有足夠的可用數據時,就很難準確估計場景的深度和結構,從而導致 3D 重建不準確或不完整。
眾包可以作為解決 3D 重建需要更多數據的問題的潛在解決方案。 通過利用大量個人的集體努力,眾包可以提供場景的額外數據和視角,從而提高 3D 重建的準確性和完整性。
例如,眾包平臺可用于收集大量貢獻者從不同角度拍攝的場景的多幅圖像。 然后可以使用多視圖立體或運動結構技術處理這些圖像,以創(chuàng)建更準確的場景 3D 重建。
這正是 Neatsy 項目中為了部分彌補 3D 數據缺乏而實施的內容。 Neatsy 開發(fā)了用于虛擬調整鞋子尺寸的人工智能軟件。 他們使用 Toloka 眾包平臺進行額外的數據收集(超過 5 萬張新照片),并對模型的指標進行了改進。 他們的軟件使用大約 50 種不同的測量方法創(chuàng)建腳的 3D 模型,并幫助你找到一雙完美的運動鞋。 該項目已經繼續(xù)進行,現在他們還可以診斷足部的健康問題,這一切都歸功于人群中的數據。 這只是開發(fā) 3D 技術的巨大潛力的一個例子。
5、結束語
有許多最先進的解決方案可用于正向和逆向圖形任務以及預測深度圖。 我們研究了每種方法在實際應用中的情況,并注意到由于缺乏 3D 數據而造成的限制。 眾包平臺有潛力解決數據收集問題并支持現實計算機視覺應用的 3D 技術開發(fā)。
原文鏈接:單圖像3D重建AI綜述 - BimAnt