logo免費(fèi)設(shè)計(jì)無水印seo搜索工具欄
AllClear: A Comprehensive Dataset and Benchmark for Cloud Removal in Satellite Imagery
Abstract
????????衛(wèi)星圖像中的云對下游應(yīng)用構(gòu)成了重大挑戰(zhàn)。當(dāng)前云移除研究的一個(gè)主要挑戰(zhàn)是缺乏一個(gè)全面的基準(zhǔn)和一個(gè)足夠大和多樣化的訓(xùn)練數(shù)據(jù)集。為了解決這個(gè)問題,我們引入了最大的公共數(shù)據(jù)集——AllClear,用于云清除,其中包含23,742個(gè)全球分布的興趣區(qū)域(roi),具有不同的土地利用模式,總共包含400萬張圖像。每個(gè)ROI包括2022年的完整時(shí)間捕獲,包括:
- 來自Sentinel-2和Landsat 8/9的多光譜光學(xué)圖像
- 來自Sentinel-1的合成孔徑雷達(dá)(SAR)圖像
- 輔助遙感產(chǎn)品,如云掩模和土地覆蓋圖
????????我們通過基準(zhǔn)性能驗(yàn)證了我們數(shù)據(jù)集的有效性,展示了精度指標(biāo)——PSNR從28.47上升到33.87,增加30倍的數(shù)據(jù),并對時(shí)間長度和單個(gè)模式的重要性進(jìn)行了消融研究。該數(shù)據(jù)集旨在提供對地球表面的全面覆蓋,并促進(jìn)更好的除云結(jié)果。
1? Introduction?
????????衛(wèi)星圖像識別可以實(shí)現(xiàn)環(huán)境監(jiān)測、災(zāi)害響應(yīng)、城市規(guī)劃、作物產(chǎn)量預(yù)測等許多應(yīng)用,但由于云層遮擋而受到嚴(yán)重阻礙。在任何給定時(shí)刻,大約67%的地球表面被云覆蓋。無云捕獲的有限可用性對于時(shí)間敏感事件(如野火控制和洪水損害評估)尤其成問題。因此,開發(fā)有效的去云技術(shù)對于在各個(gè)領(lǐng)域最大限度地利用遙感數(shù)據(jù)至關(guān)重要。?
? ? ? ? 表1? 公開可用的去云數(shù)據(jù)集。?
????????阻礙云移除研究的一個(gè)主要挑戰(zhàn)是缺乏全面的數(shù)據(jù)集和基準(zhǔn)。一項(xiàng)關(guān)于云移除的公開可用數(shù)據(jù)集的調(diào)查(表1)揭示了幾個(gè)問題:
- 大多數(shù)現(xiàn)有數(shù)據(jù)集都是從一小部分地點(diǎn)采樣的,因此地理多樣性有限,這既影響了訓(xùn)練的有效性,也影響了評估的嚴(yán)謹(jǐn)性。
- 許多現(xiàn)有的數(shù)據(jù)集過濾掉了非常多云的圖像(例如,超過30%的云覆蓋率),從而使訓(xùn)練好的模型無法處理廣泛云覆蓋的實(shí)際情況(圖1)。
- 一些現(xiàn)有的基準(zhǔn)使用在與有云輸入圖像的時(shí)間差異較大的無云圖像。這意味著在有云輸入圖像和無云圖像之間可能發(fā)生了許多變化,從而在評估中引入了誤差。
- 現(xiàn)有的數(shù)據(jù)集包含了一組非常有限的傳感器(即Sentinel-2),限制了模型可獲得的信息,無法真實(shí)地去除云層。
? ? ? ? 圖1??左圖:AllClear感興趣區(qū)的地理分布;中間圖:訓(xùn)練和測試集AllClear的土地覆蓋分布;右圖:整個(gè)AllClear數(shù)據(jù)集的云覆蓋分布。
????????為了解決這些限制并促進(jìn)去云的未來研究,我們引入了迄今為止最大和最全面的數(shù)據(jù)集AllClear。為了確保充分覆蓋地球下墊面的多樣性,AllClear包括了23,742個(gè)分散在全球各地的不同土地覆蓋種類的感興趣區(qū)域(roi),產(chǎn)生了400萬張多光譜圖像。AllClear包括來自三顆不同衛(wèi)星(即Sentinel-1,Sentinel-2和landsat -8/9)在每個(gè)ROI捕獲的一年(2022年)的數(shù)據(jù),使模型能夠更好地填補(bǔ)缺失的信息。我們使用這個(gè)數(shù)據(jù)集來創(chuàng)建一個(gè)更嚴(yán)格的sequence-to-point基準(zhǔn),具有更多的時(shí)間對齊的基礎(chǔ)真值。最后,除了大量的原始衛(wèi)星圖像,我們還為每個(gè)單獨(dú)的圖像構(gòu)建了一組豐富的元數(shù)據(jù)(地理位置、時(shí)間戳、土地覆蓋圖、云掩膜等),以支持構(gòu)建未來的模型來應(yīng)對去云的挑戰(zhàn),實(shí)現(xiàn)分層評估。?
????????我們評估了AllClear上現(xiàn)有的先進(jìn)技術(shù),發(fā)現(xiàn)現(xiàn)有的模型訓(xùn)練不足。在我們更大、更多樣化的訓(xùn)練集上進(jìn)行訓(xùn)練可以顯著提高性能。我們還發(fā)現(xiàn),使用全套可用傳感器以及較長時(shí)間序列的模型表現(xiàn)得更好??偟膩碚f,我們的貢獻(xiàn)是:
- 我們引入了迄今為止最大的云移除數(shù)據(jù)集,以及一個(gè)全面分層的評估基準(zhǔn)
- 證明更大、更多樣化的訓(xùn)練集顯著提高了模型的性能
- 我們從經(jīng)驗(yàn)上展示了利用多個(gè)傳感器和更長的時(shí)間跨度的重要性
2? 背景知識?
2.1? 現(xiàn)有去云數(shù)據(jù)集?
????????衛(wèi)星圖像云去除研究的進(jìn)展,促使了幾個(gè)具有獨(dú)特特征和獨(dú)特局限性的數(shù)據(jù)集的發(fā)展。STGAN引入了兩個(gè)去云數(shù)據(jù)集,并建立了使用三幅圖像作為輸入的多時(shí)間任務(wù)格式。然而,該數(shù)據(jù)集丟棄了所有云量超過30%的圖像,導(dǎo)致只有3k幅圖像。繼STGAN之后,Huang和Wu發(fā)現(xiàn)STGAN中的注釋可能是不正確的,并提出了四倍數(shù)量于STGAN的圖像的Sen2_MTC。Sen_MTC數(shù)據(jù)集首先在全球范圍內(nèi)采樣50個(gè)瓦片,然后將瓦片分成小塊,限制采樣的區(qū)域多樣性。STGAN和Sen_ MTC也沒有描述它們的數(shù)據(jù)處理水平(例如,1級大氣頂部或2級表面反射圖像),因此很難比較不同數(shù)據(jù)集上的模型。不同于STGAN和Sen2 MTC數(shù)據(jù)集。SEN12MS-CR數(shù)據(jù)集的特點(diǎn)是包含合成孔徑雷達(dá)(SAR)圖像,以增強(qiáng)光學(xué)圖像,每個(gè)數(shù)據(jù)點(diǎn)有一個(gè)圖像對。緊接著是SEN12MS-CR-TS ,具有多時(shí)間(每個(gè)位置多個(gè)圖像)多模態(tài)配對圖像。對于每個(gè)位置,將2018年的30張Sentinel-1和Sentinel-2圖像進(jìn)行時(shí)間對齊和配對,形成時(shí)空瓦片。然而,兩種模式之間的時(shí)間差異可以大到14天,輸入和目標(biāo)之間的時(shí)間差異可以大到一年,從而導(dǎo)致評估中的誤差。此外,作者構(gòu)建了一個(gè)sequence-to-point的云去除任務(wù),其中不包括該數(shù)據(jù)集中云覆蓋率超過50%的圖像。EarthNet2021還提供了精心整理的sentinel -2圖像序列,空間分辨率為20米,波段為RGB和紅外。然而,該數(shù)據(jù)排除了高云層覆蓋率的時(shí)空瓦片,因此不是一個(gè)理想的云移除數(shù)據(jù)集。?
2.2? 去云方法
????????早期的去云工作使用條件GAN將單幅圖像映射到其無云版本,在NlR通道上進(jìn)行調(diào)節(jié)或SAR圖像,這些早期的嘗試無法推廣到真實(shí)的多云圖像。Singh和Komodakis以及Ebel等人通過使用循環(huán)一致性損失改進(jìn)了這種設(shè)置。其他方法學(xué)習(xí)從SAR圖像到其相應(yīng)的多光譜波段的映射。最近,隨著Transformer的出現(xiàn)和興起,已經(jīng)引入了多個(gè)頭部關(guān)注模塊用于云去除任務(wù)。Yu等將云視為圖像失真,設(shè)計(jì)失真感知模塊來恢復(fù)無云圖像。Zou等人利用多時(shí)間輸入和多尺度注意力自編碼器來利用全局和局部上下文進(jìn)行重建。Ebel等人也采用了多時(shí)間輸入和注意力自編碼器,但也提出估計(jì)預(yù)測的不確定性,這控制了風(fēng)險(xiǎn)緩解應(yīng)用的重建質(zhì)量。Jing,Zou等人提出利用擴(kuò)散訓(xùn)練目標(biāo)進(jìn)行無云圖像生成,其輸入僅依賴于最優(yōu)圖像,不考慮SAR圖像。Khanna等人提出了一種用于衛(wèi)星圖像的生成基礎(chǔ)模型,但并不適合云移除任務(wù)。?
3? 數(shù)據(jù)集?
3.1? 感興趣區(qū)的選擇?
????????我們選擇roi來滿足兩個(gè)目標(biāo):
- 大部分地表的覆蓋
- 土地覆蓋類型的平衡采樣
????????這種平衡的采樣特別確保了像城市這樣面積較小但更受關(guān)注的地方與大片荒野一樣被很好地代表。為了獲得這些ROI,我們遵循兩個(gè)步驟:管理ROI候選對象池,然后構(gòu)建跨土地覆蓋類型平衡的訓(xùn)練/基準(zhǔn)子組,如圖1所示。這確?;鶞?zhǔn)和訓(xùn)練集都包含足夠數(shù)量的代表各種土地覆蓋類型的數(shù)據(jù)。?
????????為了管理ROI池,與之前隨機(jī)選擇ROI的工作不同,我們使用網(wǎng)格采樣來選擇每0.1°緯度和每0.1°經(jīng)度的ROI,其中
是緯度,從90°S到90°N。這種方法背后的思想是,同樣的0.1°經(jīng)度在赤道上可以表示11.1公里,在67°緯度上可以表示4.35公里。這種加權(quán)為避免高緯度地區(qū)的過度采樣提供了一種簡單而有效的方法。通過使用GeoPandas包剔除海洋區(qū)域,我們共選擇了1,087,947個(gè)roi。
????????接下來,我們從池中選擇roi,在考慮地球表面土地覆蓋分布的自然不平衡的情況下,實(shí)現(xiàn)更平衡的土地覆蓋使用數(shù)據(jù)集。我們利用谷歌地球引擎的動(dòng)態(tài)世界產(chǎn)品中的土地覆蓋數(shù)據(jù)。這是一個(gè)10米分辨率的土地利用/土地覆蓋(LULC)數(shù)據(jù)集,包含9個(gè)類別的類別概率和標(biāo)簽信息:水體、樹木、草地、淹水植被、作物、灌木、建筑、裸地、冰雪。具體來說,我們計(jì)算了2022年LULC的全年中位數(shù),作為每個(gè)ROl的土地利用和土地覆蓋的估計(jì)。我們迭代地從候選池中選擇roi,使得所有類別(雪和冰除外)的平均土地覆蓋率在基準(zhǔn)集中大于10%,在訓(xùn)練集中大于5%。
????????最后,為了與先前數(shù)據(jù)集訓(xùn)練的模型進(jìn)行更公平的比較,我們采取了額外的措施來排除接近SEN12MS-CR-TS數(shù)據(jù)集的roi。具體來說,SEN12MS-TR-CS數(shù)據(jù)集中的瓦片大小為40 x 40 km2。因此,我們排除了在SEN12MS-CR-TS的roi半徑50公里范圍內(nèi)的AllClear中的roi。
3.2? 數(shù)據(jù)準(zhǔn)備
????????AllClear包含由Google Earth Engine (GEE)平臺提供的三種不同類型的開放獲取衛(wèi)星圖像:Sentinel-2 A/B,sentinel - 1 A/B和Landsat 8/9。對于Sentinel-2,我們收集了所有13個(gè)波段的1c級正整流大氣頂(TOA)反射率產(chǎn)品。對于Sentinel-1,我們獲取了具有兩個(gè)極化通道(VV和VH)的S1 Ground Range Detected (GRD) 產(chǎn)品。所有清晰系統(tǒng)的原始圖像都被重新采樣到10米分辨率。在所有下載過程中,我們都遵循默認(rèn)的GEE預(yù)處理步驟。此外,我們還包括所有Sentinel-2圖像的動(dòng)態(tài)世界土地覆蓋圖。對于每個(gè)選定的ROI,我們的目標(biāo)是在2022年以10米的空間分辨率收集所有2.56 x 2.56 km2的片。我們采用通用橫墨卡托(Universal Transverse Mercator,簡稱UTM)坐標(biāo)參考系(CRS),繼Ebel、Zhao之后,將地球劃分為60個(gè)帶。每個(gè)跨越6度的經(jīng)度,以確保最小的失真,特別是沿經(jīng)度軸。由于衛(wèi)星圖像通常是在不一定符合UTM區(qū)域邊界的大型圖塊中捕獲的,因此在圖塊數(shù)據(jù)未覆蓋整個(gè)ROI的地方可能會(huì)出現(xiàn)空白(NaN值)。在這種情況下,我們排除所有包含NaN值的圖像以保持?jǐn)?shù)據(jù)質(zhì)量。?
數(shù)據(jù)預(yù)處理
????????對于Sentinel-1,遵循Ebel等人,我們將S1的VV通道中的值削波為[-25,0],有VH通道的值削波為[-32.5,0]。對于 Sentinel-2和 Landsat8/9,我們將原始值裁剪為[0,10000]。然后將值規(guī)范化為 [0,1]的范圍。
云和陰影遮罩計(jì)算
????????云和陰影掩碼是該數(shù)據(jù)集不可或缺的,因?yàn)樗鼈冇糜谕ㄟ^掩蓋目標(biāo)圖像中存在云和陰影的區(qū)域來指導(dǎo)評估度量計(jì)算。為了獲得云掩碼,我們使用了谷歌地球引擎上的S2云概率數(shù)據(jù)集。該數(shù)據(jù)集使用S2cloudless構(gòu)建,S2cloudless是一種基于梯度增強(qiáng)算法的Sentinel-2圖像自動(dòng)云檢測算法,在Hollstein參考數(shù)據(jù)集和LCD PixBox數(shù)據(jù)集中,對不透明云和半透明云的整體云檢測精度最好。
????????對于陰影掩碼,理想情況下可以利用太陽方位角和云層高度來估計(jì)云的陰影,但后者的信息無法獲得。因此,我們根據(jù)Google Earth Engine中的文檔繼續(xù)管理陰影掩碼。通過計(jì)算暗像素和投影云區(qū)域來估計(jì)陰影。對于暗像素,我們使用來自Sentinel-2的場景分類圖(SCL)波段值來去除水像素,因?yàn)樗袼嘏c陰影相似。然后,我們將NlR像素值的閾值設(shè)置為1e-4,以創(chuàng)建暗像素的地圖。最后,取暗像素圖與投影云區(qū)的交點(diǎn),得到云陰影掩碼。
3.3? 基準(zhǔn)任務(wù)設(shè)置和評估?
????????為了評估,使用AllClear數(shù)據(jù)集構(gòu)建了一個(gè)sequence-to-point的任務(wù),該數(shù)據(jù)集分別具有278,613、14,215和55,317個(gè)樣本的訓(xùn)練、驗(yàn)證和測試。每個(gè)實(shí)例包含三個(gè)輸入圖像(u1、u2、u3)、一個(gè)目標(biāo)清晰圖像(v)、輸入云和陰影掩碼、目標(biāo)云和陰影掩碼、時(shí)間戳以及諸如緯度、經(jīng)度、太陽仰角和太陽方位角等元數(shù)據(jù)。Sentinel-2圖像被認(rèn)為是主要的傳感器模態(tài),而Sentinel-1和LandSat-8/9等傳感器是輔助的。與以前的數(shù)據(jù)集不同,我們沒有對輸入圖像中的云覆蓋率設(shè)置閾值。我們還提供了不同閾值的云和陰影掩碼選項(xiàng)供用戶使用。
????????我們解決了在以前的數(shù)據(jù)集中發(fā)現(xiàn)的兩個(gè)時(shí)間偏差問題:源和目標(biāo)圖像之間的偏差(其中差異可能相隔數(shù)月)以及主傳感器與輔助傳感器配對的時(shí)間偏差(其中差異最多可能為兩周)。為了避免時(shí)間錯(cuò)位問題,從四個(gè)連續(xù)的時(shí)空塊中選擇目標(biāo)清晰圖像。特別是,輸入圖像和目標(biāo)圖像的時(shí)間戳的順序?yàn)閇u1,v,u2,u3]或順序?yàn)閇u1,u2,v,u3]。這確保了目標(biāo)圖像不包括在捕獲渾濁圖像后發(fā)生的任何新的或未見過的變化。對于輔助傳感器,我們選擇與各自的Sentinel-2圖像相差兩天的輔助衛(wèi)星圖像。如果沒有可用的輔助傳感器圖像匹配,則用相應(yīng)的通道填充。
????????請注意,我們的目標(biāo)圖像可能仍然有一些云(因?yàn)楹茈y在每個(gè)時(shí)間跨度內(nèi)獲得無云圖像)。為了在不同場景和限制度量不準(zhǔn)確性之間達(dá)到平衡,我們將目標(biāo)圖像設(shè)置為云和陰影(組合)覆蓋率小于10%,并在計(jì)算度量時(shí)排除多云像素。我們修改了各種基于像素的指標(biāo),只計(jì)算無云區(qū)域。我們采用了去云文獻(xiàn)中常用的指標(biāo):平均絕對誤差(MAE)、均方根誤差(RMSE)、峰值信噪比(PSNR)、光譜角映射器(SAM)和結(jié)構(gòu)相似指數(shù)測量(SSIM)。
4? 實(shí)驗(yàn)
4.1? 對AllClear測試集上的先前方法進(jìn)行基準(zhǔn)測試?
選擇SoTA模型體系結(jié)構(gòu)
????????為了在數(shù)據(jù)集之間進(jìn)行公平的比較,我們選擇SoTA模型進(jìn)行比較。具體來說,我們選擇了在SEN12MS-CR-TS上預(yù)先訓(xùn)練過的最先進(jìn)的模型作為基準(zhǔn),因?yàn)锳llClear和SEN12MS-CR-TS都是大氣層頂部圖像,并且包含了Sentinel-2的所有波段。值得注意的是,其他以前的數(shù)據(jù)集,如STGAN和Sen2_MTC被排除在外,因?yàn)轭A(yù)處理方法和圖像生產(chǎn)類型沒有明確提到,這使得在AllClear數(shù)據(jù)集上直接部署以前的模型不公平,也不具有可比性。因此,我們排除了CTGAN、PMAA等模型。DiffCR使用這些數(shù)據(jù)集進(jìn)行訓(xùn)練。相反,我們選擇sequence-to-point模型UnCRtainTS模型,和sequence-to-sequence的模型U-TILISE,既在SEN12MS-TR-CS數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,也可用于我們的實(shí)驗(yàn)。對于這個(gè)評估,所有模型都接收三張圖像作為輸入。具體來說,它們同時(shí)接收沿通道維度連接的Sentinel-2和Sentinel-1圖像。?
結(jié)果
????????基準(zhǔn)測試結(jié)果如表2所示。我們首先注意到,采樣的基線云霧最少,拼接在數(shù)據(jù)集上表現(xiàn)良好。UnCRtainTS在SSIM和SAM方面的性能略好于這些采樣基線。另一方面,U-TILISE模型無法達(dá)到采樣基線的性能。由于U-TILISE是一個(gè)序列到序列的模型,我們采用它進(jìn)行序列到點(diǎn)的評估,從輸出序列中選擇MAE得分最低的圖像作為模型輸出。值得注意的是,U-TlLISE的訓(xùn)練涉及到將采樣的云掩模作為輸入添加到無云圖像中,并且訓(xùn)練它恢復(fù)原始的無云序列。以類似的方式對模型進(jìn)行評估。采樣云掩模與真實(shí)云的分布差異可能是導(dǎo)致真實(shí)場景中U-TILISE得分較低的原因。少混濁和拼接的良好性能令人感興趣。我們推測部分原因可能是在AllClear中,輸入圖像和目標(biāo)圖像之間的時(shí)間差距較小,因此簡單地對輸入圖像進(jìn)行平均或選擇可能會(huì)產(chǎn)生良好的結(jié)果。
? ? ? ? 表2??在我們的AllClear基準(zhǔn)數(shù)據(jù)集上評估了以前的SoTA模型的基準(zhǔn)性能。表現(xiàn)最好的值用粗體表示,第二好的值用下劃線表示。
失敗案例
????????為了更好地理解最先進(jìn)技術(shù)的性能,我們將使用最先進(jìn)模型UnCRtainTS生成的輸出圖像可視化,該模型是在SEN12MS-CR-TS數(shù)據(jù)集上訓(xùn)練的。在圖2中,我們在AllClear測試用例上評估預(yù)訓(xùn)練模型,其中它接收三張渾濁圖像作為輸入。總的來說,我們觀察到模型性能的三種主要失效模式:
- 模型不能從清晰的輸入圖像中提取,特別是當(dāng)其他兩個(gè)圖像是渾濁的時(shí)候。正如作者所指出的那樣,這個(gè)問題可能會(huì)出現(xiàn),因?yàn)槟P褪菍iT針對云覆蓋率低于50%的圖像進(jìn)行訓(xùn)練的。
- 即使輸入的圖像大部分是清晰的,該模型也經(jīng)常難以恢復(fù)正確的光譜。我們假設(shè)這是由于相對較小的數(shù)據(jù)集大小,導(dǎo)致缺乏泛化能力。
- 模型往往不能推廣到積雪覆蓋地區(qū)。我們推測這是由于訓(xùn)練過程中對不同雪域的采樣不足。
? ? ? ? 圖2??在SEN12MS-CR-TS云移除數(shù)據(jù)集上訓(xùn)練的先前SOTA模型UnCRtainTS的失敗案例。
4.2? 在AllClear上訓(xùn)練?
????????接下來,我們將評估在AlClear上進(jìn)行培訓(xùn)的好處。出于這個(gè)目的,我們使用UnCRtainTS,因?yàn)樗谥暗幕鶞?zhǔn)測試中表現(xiàn)良好。為了評估AllClear和之前的SEN12MS-TR-CS數(shù)據(jù)集之間是否存在域差異,我們首先運(yùn)行一個(gè)相等訓(xùn)練集大小的比較。我們在AllClear的子集上訓(xùn)練UnCRtainTS,該子集的大小與UnCRtainTS訓(xùn)練中使用的訓(xùn)練集大小相同,即10,167個(gè)數(shù)據(jù)點(diǎn)。為了避免額外的調(diào)優(yōu),我們還遵循了原始論文中的訓(xùn)練超參數(shù)。如表3所示,當(dāng)兩個(gè)模型在AllClear上進(jìn)行評估時(shí)(即表3中底部的兩行),我們觀察到在兩個(gè)數(shù)據(jù)集上預(yù)訓(xùn)練的UnCRtainTS模型在四個(gè)指標(biāo)上具有可比較的結(jié)果。這表明兩個(gè)數(shù)據(jù)集之間沒有明顯的域差異。????????
? ? ? ? 表3??在AllClear上重新訓(xùn)練UnCRtainTs模型的基準(zhǔn)性能.
使用AllClear進(jìn)行縮放
????????接下來我們使用AllClear提供的大型訓(xùn)練集來評估我們可以縮放多少UnCRtainTS。具體來說,我們在同一驗(yàn)證集上進(jìn)行評估時(shí),使用來自訓(xùn)練數(shù)據(jù)集的隨機(jī)抽樣來管理各種規(guī)模的數(shù)據(jù)集。表4顯示了結(jié)果。我們發(fā)現(xiàn),更多的訓(xùn)練數(shù)據(jù)明顯提高了所有指標(biāo)的準(zhǔn)確性,導(dǎo)致PSNR提高了10%以上。圖5顯示,使用更大的數(shù)據(jù)集,該模型能夠更好地去除云并更好地保留顏色。這表明,在過去的數(shù)據(jù)集上訓(xùn)練的云移除模型通常訓(xùn)練不足,而AllClear的大型訓(xùn)練集對于幫助模型更好地?cái)M合數(shù)據(jù)非常有用。??
? ? ? ? 表4??我們的模型在以UnCRtainTS為骨干架構(gòu)的AllClear數(shù)據(jù)集上的縮放規(guī)律。
? ? ? ? 圖5??將訓(xùn)練數(shù)據(jù)集縮放10倍會(huì)得到更好的定性結(jié)果。
4.3? 分層評價(jià)
????????我們使用AllClear中可用的土地覆蓋類型標(biāo)簽對土地覆蓋類型進(jìn)行分層評估(圖3)。我們通常發(fā)現(xiàn),水體和積雪的PSNR和SSIM指標(biāo)都要差得多。水體具有瞬態(tài)波型,積雪也常常是瞬態(tài)波型,這可能解釋了預(yù)測這些波型的困難。雪也可能與云混淆。?
? ? ? ? 圖3??使用AllClear數(shù)據(jù)集的不同部分訓(xùn)練的模型的土地覆蓋分層評估:1%、3.4%、10%和100%。
? ? ? ? 圖4??在不同云和陰影覆蓋水平下,通過PSNR(左列)和SSIM(右列)測量云的去除質(zhì)量。上面一行表示在完整AllClear數(shù)據(jù)集上訓(xùn)練的模型,下面一行表示在SEN12MS-CR-TS數(shù)據(jù)集上訓(xùn)練的模型。
????????根據(jù)過去的工作,我們還對相對于云覆蓋和陰影程度的精度進(jìn)行了分層評估(圖5)。對于云覆蓋,通常性能隨云百分比下降,這是預(yù)期內(nèi)的。在更大的數(shù)據(jù)集(AllClear)上進(jìn)行訓(xùn)練,大大提高了低云和中等云量的準(zhǔn)確性,但對全云地區(qū)則沒有提高。請注意,條紋圖案是由于完全渾濁的圖像,在附錄中解釋。陰影通常不是問題,陰影百分比似乎與性能無關(guān)。?
4.4??不同時(shí)間跨度的影響
????????接下來,我們將使用基準(zhǔn)測試來查看使用3個(gè)輸入圖像的常見做法是否足夠。我們比較了兩個(gè)模型,一個(gè)使用3張圖像,另一個(gè)使用在該位置捕獲的所有12張圖像。這兩個(gè)模型都是在AllClear的10k子集上訓(xùn)練的。結(jié)果如表5所示,表明事實(shí)上較長的時(shí)間跨度顯著提高了準(zhǔn)確性。因此,未來的云清除技術(shù)應(yīng)該考慮更長的時(shí)間跨度。
? ? ? ? 表5? 不同時(shí)間長度的影響
5? 結(jié)論?
????????本文介紹了AllClear,這是用于云清除研究的最廣泛和最多樣化的數(shù)據(jù)集。更大的訓(xùn)練集顯著提高了最先進(jìn)的性能。我們的數(shù)據(jù)集還可以對云覆蓋和土地覆蓋以及序列長度和傳感器類型的消融進(jìn)行分層評估。我們希望未來的研究可以建立在這個(gè)基準(zhǔn)上,例如通過探索SAR和多光譜圖像之間的動(dòng)態(tài),來推進(jìn)云的去除。?