白城網(wǎng)站建設(shè)網(wǎng)站制作公司高端
這是 ECCV 2024 的一篇文章,文章作者想建立一個(gè)統(tǒng)一的 ISP 模型,以實(shí)現(xiàn)在不同手機(jī)之間的自由切換。文章作者是香港中文大學(xué)的 xue tianfan 和 Gu jinwei 老師。
Abstract
現(xiàn)代端到端圖像信號(hào)處理器(ISPs)能夠?qū)W習(xí)從 RAW/XYZ 數(shù)據(jù)到 sRGB(或其逆過程)的復(fù)雜映射,為圖像處理帶來了新的可能性。然而,隨著相機(jī)型號(hào)的多樣性不斷增加,長(zhǎng)期開發(fā)和維護(hù)單個(gè) ISP 是難以持續(xù)的,因?yàn)槠浔旧砣狈νㄓ眯?#xff0c;阻礙了對(duì)多種相機(jī)型號(hào)的適應(yīng)性。這篇文章提出了一種新穎的流程 —— 統(tǒng)一圖像信號(hào)處理器(Uni - ISP),它統(tǒng)一了對(duì)多個(gè)相機(jī)的 ISP 學(xué)習(xí),為多種相機(jī)型號(hào)提供了準(zhǔn)確且通用的處理器。Uni - ISP 的核心是通過學(xué)習(xí)正向 / 逆向 ISP 及其特殊的訓(xùn)練方案來利用設(shè)備感知嵌入。通過這種方式,Uni - ISP 不僅提高了正向 / 逆向 ISP 的性能,還開啟了現(xiàn)有學(xué)習(xí)型 ISP 無法實(shí)現(xiàn)的多種新應(yīng)用。此外,由于沒有由多個(gè)相機(jī)同步拍攝用于訓(xùn)練的數(shù)據(jù)集,文章還構(gòu)建了一個(gè)真實(shí)世界的 4K 數(shù)據(jù)集 ——FiveCam,它包含由五部智能手機(jī)同步拍攝的 2400 多對(duì) sRGB - RAW 圖像。文章進(jìn)行了大量實(shí)驗(yàn),證明了 Uni - ISP 在正向 / 逆向 ISP 中的準(zhǔn)確性(峰值信噪比分別提高了 + 1.5dB/2.4dB)、其在實(shí)現(xiàn)新應(yīng)用方面的通用性以及對(duì)新相機(jī)型號(hào)的適應(yīng)性。
Introduction
圖像信號(hào)處理器(ISP)將相機(jī)傳感器捕獲的原始圖像數(shù)據(jù)轉(zhuǎn)換為諸如 sRGB 等可查看的格式,在決定照片的視覺質(zhì)量方面起著關(guān)鍵作用。通過精心設(shè)計(jì)它們的 ISP,各個(gè)相機(jī)品牌塑造出了符合不同用戶偏好的獨(dú)特?cái)z影風(fēng)格。例如,蘋果(Apple)智能手機(jī)相機(jī)以其清晰且獨(dú)具特色的 “蘋果感” 而廣受贊譽(yù),而徠卡(Leica)相機(jī)則因其光暈效果和濃郁的色調(diào)備受推崇,形成了標(biāo)志性的徠卡風(fēng)格。
近期,神經(jīng)網(wǎng)絡(luò)已被用于逼近整個(gè)圖像信號(hào)處理器(ISP)或特定模塊,即學(xué)習(xí)型 ISP,這帶來了兩大主要益處。
- 1)性能提升。神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力使學(xué)習(xí)型 ISP 能夠執(zhí)行具有挑戰(zhàn)性的任務(wù),例如對(duì)高光和陰影區(qū)域中的細(xì)節(jié)內(nèi)容進(jìn)行腦補(bǔ)。
- 2)新功能。學(xué)習(xí)型 ISP 引入了新功能,例如逆向 ISP,它能將 sRGB 圖像轉(zhuǎn)換回 RAW/XYZ 空間,為原始域增強(qiáng)和進(jìn)一步處理(如去模糊、去噪、高動(dòng)態(tài)范圍(HDR)攝影等)提供了更大的靈活性和潛力。這些創(chuàng)新拓展了學(xué)習(xí)型 ISP 的應(yīng)用范圍和潛力。
然而,目前的方法仍然是針對(duì)單個(gè)相機(jī)型號(hào)設(shè)計(jì)和訓(xùn)練 ISP,這可能會(huì)限制不同 ISP 之間的協(xié)同效益。此外,通用模型在低層級(jí)視覺、高層級(jí)視覺和多模態(tài)等多個(gè)領(lǐng)域都展現(xiàn)出了優(yōu)勢(shì)。隨著相機(jī)型號(hào)數(shù)量的增加,單個(gè)學(xué)習(xí)型 ISP 可能也缺乏廣泛應(yīng)用所需的通用性和適應(yīng)性,從長(zhǎng)遠(yuǎn)來看可能難以為繼。
在本文中,我們旨在對(duì)來自不同相機(jī)的圖像信號(hào)處理器(ISP)進(jìn)行統(tǒng)一學(xué)習(xí),這有兩個(gè)直接的優(yōu)勢(shì)。
- 1)通過利用來自多個(gè)相機(jī)的 ISP 之間的協(xié)同效應(yīng)來提升視覺質(zhì)量。統(tǒng)一學(xué)習(xí)使 ISP 能夠理解不同數(shù)據(jù)中的潛在共性和差異,從而使視覺表現(xiàn)得到整體提升。
- 2)統(tǒng)一學(xué)習(xí)提供了新穎的應(yīng)用,超越了現(xiàn)有學(xué)習(xí)型 ISP 僅限于正向和逆向 ISP 的能力。這種統(tǒng)一學(xué)習(xí)實(shí)現(xiàn)了諸如跨不同相機(jī)型號(hào)的影像風(fēng)格之間的轉(zhuǎn)換、插值和外推等新用途。此外,它還支持基于 ISP 行為自洽性的零樣本圖像取證,包括圖像級(jí)別的源相機(jī)識(shí)別和像素級(jí)別的圖像拼接檢測(cè)。
不過為多臺(tái)相機(jī)學(xué)習(xí)一個(gè)具有設(shè)備感知能力的圖像信號(hào)處理器(ISP)模型絕非易事,面臨著諸多挑戰(zhàn)。首先,我們發(fā)現(xiàn),在現(xiàn)有模型中簡(jiǎn)單地混合來自多臺(tái)相機(jī)的訓(xùn)練數(shù)據(jù)并不能帶來令人滿意的性能。因此,我們提出了 Uni - ISP,這是一種用于多臺(tái)相機(jī)的新型統(tǒng)一 ISP 模型,它包含若干可優(yōu)化的設(shè)備感知嵌入,用于學(xué)習(xí)不同相機(jī)的 ISP。這些設(shè)備感知嵌入使模型能夠捕捉針對(duì)單個(gè)設(shè)備量身定制的特定特性,而共享的主干網(wǎng)絡(luò)則能捕捉潛在的共性。
其次,目前的 ISP 數(shù)據(jù)集并不包含由多臺(tái)相機(jī)拍攝的同步 sRGB - Raw 圖像對(duì)。盡管這類數(shù)據(jù)對(duì)于學(xué)習(xí)單個(gè) ISP 并非必需,但對(duì)于學(xué)習(xí)支持不同相機(jī)型號(hào)協(xié)同增效并能開發(fā)新應(yīng)用的統(tǒng)一 ISP 至關(guān)重要。為解決這一問題,我們用五部智能手機(jī)搭建了一個(gè)同步相機(jī)陣列,并構(gòu)建了一個(gè)新的數(shù)據(jù)集 ——FiveCam,該數(shù)據(jù)集包含 2464 對(duì)同步的、空間分辨率為 4K 的高質(zhì)量 sRGB - Raw 配對(duì)圖像。所采集的數(shù)據(jù)集涵蓋了從風(fēng)景到特寫等廣泛的場(chǎng)景,并且包含不同的光照條件,包括白天和夜晚的室內(nèi)外環(huán)境。
第三,鑒于不同相機(jī)拍攝的同步照片對(duì)中不可避免地存在錯(cuò)位,需要一種穩(wěn)健的對(duì)齊和訓(xùn)練方案。為了應(yīng)對(duì)這一挑戰(zhàn),我們首先使用基于光流的方法對(duì)圖像進(jìn)行粗略對(duì)齊,這會(huì)在變形圖像中引入頻率偏差。然后,我們?cè)O(shè)計(jì)了一種頻率偏差校正(FBC)損失來減輕紋理模糊。此外,我們引入了自相機(jī) / 跨相機(jī)訓(xùn)練方案,以促進(jìn)在相同 / 不同相機(jī)型號(hào)上的應(yīng)用。
通過這三項(xiàng)設(shè)計(jì),統(tǒng)一圖像信號(hào)處理器(Uni - ISP)可應(yīng)用于廣泛的圖像任務(wù),例如跨不同相機(jī)型號(hào)的攝影外觀轉(zhuǎn)換、插值和外推。用戶可以將一種相機(jī)型號(hào)的視覺特性應(yīng)用到另一種相機(jī)上,實(shí)現(xiàn)獨(dú)特的美學(xué)效果。還可以利用這些 ISP 行為的自洽性來促進(jìn)零樣本圖像取證任務(wù),包括源相機(jī)識(shí)別和圖像拼接檢測(cè)。大量實(shí)驗(yàn)表明,Uni - ISP 優(yōu)于現(xiàn)有技術(shù),在逆向 ISP 中峰值信噪比(PSNR)約高 1.5dB,在正向 ISP 中約高 2.4dB。
- 圖1 :我們提出了 Uni-ISP 模型,該模型可同時(shí)統(tǒng)一多個(gè)相機(jī)的逆 ISP(圖像信號(hào)處理)行為和正 ISP 行為的學(xué)習(xí)。
通過利用不同相機(jī) ISP 之間的共享特性,與之前僅針對(duì)單個(gè)相機(jī)分別學(xué)習(xí)的 ISP 方法相比,我們的方法在逆 ISP 和正 ISP(A)方面能夠?qū)崿F(xiàn)更高的性能。同時(shí),Uni-ISP 的設(shè)備感知特性使得一個(gè)已學(xué)習(xí)的 ISP 模型能夠應(yīng)用于新的跨相機(jī) ISP 場(chǎng)景,包括攝影外觀遷移(B 和 C)、內(nèi)插 / 外推(D)以及零樣本圖像取證(E 和 F)。
Method
Overview
首先介紹正向和逆向 ISP 任務(wù)中的 XYZ 圖像格式。XYZ 圖像是與設(shè)備無關(guān)的輻射度量,學(xué)習(xí) XYZ 圖像與學(xué)習(xí)原始圖像有相同的好處。因此我們選擇將相機(jī)拍攝的原始圖像處理得到的 XYZ 圖像作為原始模態(tài)。具體而言,XYZ 圖像是通過對(duì)真實(shí)原始圖像 RAW 應(yīng)用 ISP 的固定流程得到的,這個(gè)階段使用拍攝時(shí)的白平衡、固定的線性去馬賽克算法以及當(dāng)前設(shè)備的 camera-to-XYZ 矩陣,且不應(yīng)用伽馬色調(diào)映射。在這種設(shè)置下,XYZ 圖像與原始圖像呈線性相關(guān),它們可以相互轉(zhuǎn)換且無損失。
圖 2 展示了統(tǒng)一圖像信號(hào)處理器(Uni - ISP)的整體流程,它包含逆向 ISP 模塊 g g g 和正向 ISP 模塊 h h h。我們的模型旨在學(xué)習(xí) ISP 任務(wù)時(shí)能夠識(shí)別各種攝像設(shè)備。假設(shè)我們這里討論的圖像尺寸均為 H × W H \times W H×W,通道數(shù)為 C C C。給定由相機(jī) a 生成的 sRGB 圖像 I a ∈ R H × W × C I_{a} \in \mathbb{R}^{H \times W \times C} Ia?∈RH×W×C, ε a ∈ R D \varepsilon_{a} \in \mathbb{R}^{D} εa?∈RD 表示針對(duì)相機(jī) a 的尺寸為 D 的設(shè)備感知嵌入,逆向 ISP 模塊 g g g 通過學(xué)習(xí)在給定輸入 I a I_{a} Ia? 的情況下輸出相機(jī) a 對(duì)應(yīng)的 XYZ 圖像 L ^ a \hat{L}_{a} L^a?。
L ^ a = g ( I a , ε a ) (1) \hat{L}_{a} = g(I_{a}, \varepsilon_{a}) \tag{1} L^a?=g(Ia?,εa?)(1)
前向 ISP 模塊 h h h 學(xué)習(xí)從給定的實(shí)際 XYZ 圖像 L a L_{a} La? 中預(yù)測(cè) I ^ a \hat{I}_{a} I^a?
I ^ a = g ( L a , ε a ) (2) \hat{I}_{a} = g(L_{a}, \varepsilon_{a}) \tag{2} I^a?=g(La?,εa?)(2)
模塊 g ( ? ) g(\cdot) g(?) 和 h ( ? ) h(\cdot) h(?) 學(xué)習(xí)圖像信號(hào)處理器(ISP)在不同設(shè)備間的通用屬性,而設(shè)備感知嵌入 ε a \varepsilon_{a} εa? 則側(cè)重于相機(jī) a 特定的自有屬性。上述公式使我們能夠通過將 g , h g, h g,h 與設(shè)備感知嵌入 $ {\varepsilon_{a}, \varepsilon_, \varepsilon_{c}, …, \varepsilon_{z} }$ 一起訓(xùn)練,來同時(shí)學(xué)習(xí)多臺(tái)相機(jī) { a , b , c , … , z } \{a, b, c, …, z\} {a,b,c,…,z} 的 ISP 行為。
Model Design
- 圖 2 Uni-ISP 的模型設(shè)計(jì)。Uni-ISP 包含兩個(gè)模塊,即逆 ISP 模塊 g 和正 ISP 模塊 h。這兩個(gè)模塊具有相同的結(jié)構(gòu)。為了視覺上的簡(jiǎn)潔,我們將逆 ISP 模塊 g 繪制成縮略圖,其內(nèi)部結(jié)構(gòu)與正 ISP 模塊 h 相同。設(shè)備感知嵌入是可優(yōu)化的參數(shù),在訓(xùn)練或推理過程中,它們將通過 DEIM(動(dòng)態(tài)嵌入交互機(jī)制)被選擇與瓶頸特征進(jìn)行交互。
如圖 2 所示,統(tǒng)一圖像信號(hào)處理器(Uni - ISP)使用了逆向 ISP 模塊 g g g 和正向 ISP 模塊 h h h,每個(gè)模塊都具有編碼器-解碼器架構(gòu)。兩個(gè)模塊都包含局部特征提取塊(LFEBs)用于細(xì)致的局部處理,以及全局特征操作塊(GFMBs)用于大范圍的圖像調(diào)整,這反映了真實(shí)相機(jī) ISP 的雙重處理機(jī)制,即同時(shí)處理諸如曝光補(bǔ)償和色彩校正等全局操作,以及色調(diào)映射和高光恢復(fù)等局部任務(wù)。
Local Feature Extraction Blocks 統(tǒng)一圖像信號(hào)處理器(Uni - ISP)中的每個(gè)編碼器和解碼器階段都包含四個(gè)局部特征提取塊(LFEBs)。編碼器階段的 LFEBs 包含最大池化層,解碼器階段的 LFEBs 包含上采樣層。每個(gè) LFEB 包含多個(gè)卷積層、激活層、半實(shí)例歸一化層以及空間 / 通道注意力層。殘差連接將編碼器和解碼器階段的 LFEBs 連接起來。
Global Feature Manipulation Blocks 全局 ISP 操作受到曝光時(shí)間和 ISO 等參數(shù)的顯著影響,這些參數(shù)會(huì)改變照片的整體外觀。我們?cè)O(shè)計(jì)的全局特征操作塊(GFMBs)旨在結(jié)合這些參數(shù)來修改來自編碼器局部特征提取塊(LFEBs)的殘差特征。然后,這些經(jīng)過操作的特征會(huì)被傳遞到解碼器階段相應(yīng)的 LFEBs。使用過的相機(jī)參數(shù)(曝光、ISO 和光圈值)是從相機(jī)生成的 JPEG 圖像的 EXIF 元數(shù)據(jù)中提取出來的。
Device-aware Embedding Interaction Module 設(shè)備感知嵌入交互模塊(DEIM)位于編碼器和解碼器階段之間,通過與設(shè)備感知嵌入進(jìn)行交互,增強(qiáng)了模型適應(yīng)不同攝像設(shè)備的能力。給定一個(gè)設(shè)備感知嵌入 ε a \varepsilon_{a} εa?,DEIM 對(duì)來自編碼器階段的瓶頸特征 B 應(yīng)用基于注意力的變換,并輸出 F a F_a Fa?。這種設(shè)置使模型能夠自適應(yīng)地同時(shí)學(xué)習(xí)多臺(tái)相機(jī)的 ISP 行為。
Training Scheme
文章為統(tǒng)一圖像信號(hào)處理器(Uni - ISP)精心設(shè)計(jì)了一種特殊的訓(xùn)練方案,該方案包含兩種訓(xùn)練目標(biāo),即自相機(jī)圖像信號(hào)處理器(ISP)目標(biāo)和跨相機(jī) ISP 目標(biāo)。
Self-Camera Training Objective
在自相機(jī)訓(xùn)練目標(biāo)中,我們的統(tǒng)一圖像信號(hào)處理器(Uni - ISP)同時(shí)學(xué)習(xí)多臺(tái)相機(jī)的逆向和正向圖像信號(hào)處理器(ISP)行為。
L I n v = ∥ L a ? L ^ a ∥ 1 (3) \mathcal{L}_{Inv} = \left \| L_{a} - \hat{L}_{a} \right \|_{1} \tag{3} LInv?= ?La??L^a? ?1?(3)
L F o r = ∥ I a ? I ^ a ∥ 1 (4) \mathcal{L}_{For} = \left \| I_{a} - \hat{I}_{a} \right \|_{1} \tag{4} LFor?= ?Ia??I^a? ?1?(4)
Cross-Camera Training Objective
跨相機(jī)訓(xùn)練目標(biāo)中的目標(biāo)照片是由與拍攝輸入照片不同的相機(jī)拍攝的。具體而言,這種訓(xùn)練目標(biāo)應(yīng)用于正向圖像信號(hào)處理器(ISP)模塊 h h h 以處理相機(jī)模型轉(zhuǎn)換。假設(shè) I a I_a Ia? 是由相機(jī) a 拍攝的, I b I_b Ib? 是由相機(jī) b 拍攝的,統(tǒng)一圖像信號(hào)處理器(Uni - ISP)的逆向 ISP 模塊 g g g 將 I a I_a Ia? 作為輸入并預(yù)測(cè) XYZ 圖像 L ^ a \hat{L}_a L^a?,這與公式 (1) 中描述的過程相同。然后,正向 ISP 模塊 h 將預(yù)測(cè)的 L ^ a \hat{L}_a L^a? 轉(zhuǎn)換為相機(jī) b 的 sRGB 圖像 I ^ b \hat{I}_b I^b?:
I ^ b = h ( ε b , L ^ a ) (5) \hat{I}_ = h(\varepsilon_, \hat{L}_a) \tag{5} I^b?=h(εb?,L^a?)(5)
其中, ε b \varepsilon_ εb? 表示相機(jī) b 的設(shè)備感知嵌入。
上面的loss 優(yōu)化有一個(gè)問題,因?yàn)檩斎雸D像 I a I_a Ia? 和輸出真實(shí)值 I b I_ Ib? 無法對(duì)齊,因?yàn)樗鼈兪怯貌煌南鄼C(jī)拍攝的。這使得像 L1 loss 這樣的像素級(jí)損失無法驅(qū)動(dòng)最小化 I ^ b \hat{I}_b I^b? 和 I b I_ Ib? 之間距離的跨相機(jī)訓(xùn)練目標(biāo)。因此,文章首先使用基于光流的方法 RAFT 來對(duì)用于跨相機(jī)訓(xùn)練目標(biāo)的數(shù)據(jù)集進(jìn)行 warp。所有由相機(jī)拍攝 b 的 sRGB 圖像 I b I_ Ib? 都將被變形為 I b w I_^{w} Ibw?,使其與由相機(jī) a 拍攝的 sRGB 圖像 I a I_{a} Ia? 對(duì)齊。我們對(duì)數(shù)據(jù)集中每一個(gè)可能的 camera-to-camera 的 sRGB 圖像對(duì)都應(yīng)用這種 warp 操作。在訓(xùn)練過程中,任何無法對(duì)齊的區(qū)域都將被標(biāo)注為遮擋區(qū)域并進(jìn)行掩模處理。
- 圖 3 使用光流法包裹的數(shù)據(jù)集內(nèi)頻率偏差示意圖。與原始圖像相比,包裹過程中的插值會(huì)使圖像看起來模糊,消除了其高頻成分。
然而,盡管基于光流的變形方法有效地對(duì)齊了這些圖像,但它也在我們的數(shù)據(jù)集中引入了頻率偏差。如圖 3 所示,與變形前的圖像相比,變形后的圖像往往缺少高頻細(xì)節(jié)。如果我們直接使用對(duì)齊后的圖像來訓(xùn)練我們的模型,它將意外地在跨相機(jī) ISP 任務(wù)中對(duì)圖像進(jìn)行平滑處理。為解決這個(gè)問題,我們針對(duì)跨相機(jī)訓(xùn)練目標(biāo)提出了頻率偏差校正(FBC)損失。公式(6)展示了該任務(wù)的過程。FBC 損失可寫為:
L F B C = ∥ f l o w ( I ^ b ) ? f l o w ( I b w ) ∥ + L f r e q ( I ^ b , I b ) (6) \mathcal{L}_{FBC} = \left \| f_{low}(\hat{I}_b) - f_{low}({I}_^{w}) \right \| + \mathcal{L}_{freq}(\hat{I}_, I_) \tag{6} LFBC?= ?flow?(I^b?)?flow?(Ibw?) ?+Lfreq?(I^b?,Ib?)(6)
其中, f l o w f_{low} flow? 表示一個(gè)低通濾波器,文章用了一個(gè)高斯模糊核實(shí)現(xiàn), L f r e q \mathcal{L}_{freq} Lfreq? 表示頻域的 loss。
Overall Loss
整體的 loss 形式為:
L = L I n v + L F o r + L F B C + λ L N R R (7) \mathcal{L} = \mathcal{L}_{Inv} + \mathcal{L}_{For} + \mathcal{L}_{FBC} + \lambda \mathcal{L}_{NRR} \tag{7} L=LInv?+LFor?+LFBC?+λLNRR?(7)
其中 L N R R \mathcal{L}_{NRR} LNRR? 是附加的中性渲染正則化項(xiàng), λ \lambda λ 是它的平衡權(quán)重。當(dāng)中性渲染正則化在設(shè)備感知嵌入被給定為零向量時(shí),引導(dǎo)模型學(xué)習(xí)一個(gè)在 XYZ 和 sRGB 色彩空間之間執(zhí)行標(biāo)準(zhǔn)色彩轉(zhuǎn)換的虛擬相機(jī)。
L N R R = ∥ s ( I a ) ? g ( I a , 0 ) ∥ 1 + ∥ s ? 1 ( L a ) ? h ( L a , 0 ) ∥ 1 (8) \mathcal{L}_{NRR} = \left \| s(I_a) - g(I_a, \mathbf{0}) \right \|_1 + \left \| s^{-1}(L_a) - h(L_a, \mathbf{0}) \right \|_1 \tag{8} LNRR?=∥s(Ia?)?g(Ia?,0)∥1?+ ?s?1(La?)?h(La?,0) ?1?(8)
s ( ? ) , s ? 1 ( ? ) s(\cdot), s^{-1}(\cdot) s(?),s?1(?) 分別表示 sRGB-XYZ 和 XYZ-sRGB 之間的色彩空間轉(zhuǎn)換。如果用戶想要增強(qiáng)或減弱某臺(tái)相機(jī)的攝影風(fēng)格,而不與另一臺(tái)相機(jī)的設(shè)備感知嵌入進(jìn)行內(nèi)插或外推操作,中性渲染正則化會(huì)為用戶提供一個(gè)錨點(diǎn)。
Novel Dataset
盡管現(xiàn)有的 sRGB - RAW 數(shù)據(jù)集允許對(duì)逆向和正向 ISP 任務(wù)進(jìn)行模型訓(xùn)練,但仍然需要包含由多個(gè)設(shè)備同步拍攝的 sRGB - RAW 對(duì)的數(shù)據(jù)集。這類數(shù)據(jù)集對(duì)于訓(xùn)練能夠有效處理跨相機(jī) ISP 任務(wù)的模型至關(guān)重要,而跨相機(jī) ISP 任務(wù)對(duì)于諸如攝影外觀轉(zhuǎn)換和內(nèi)插 / 外推等應(yīng)用來說是至關(guān)重要的。
為應(yīng)對(duì)這一挑戰(zhàn),我們收集了一個(gè)名為 FiveCam 的新數(shù)據(jù)集,其特點(diǎn)是包含來自五種不同相機(jī)型號(hào)同步拍攝的 sRGB - RAW 對(duì)。該數(shù)據(jù)集包含 2464 張高分辨率(4K)的原始圖像和 JPEG 圖像,代表了大約 500 個(gè)不同的場(chǎng)景。FiveCam 數(shù)據(jù)集中使用的相機(jī)包括蘋果 iPhone 14 Pro Max、谷歌 Pixel 6 Pro、華為 P40、三星 Galaxy S20 和小米 Mi 12。所有相機(jī)都通過編程的藍(lán)牙快門進(jìn)行同步,以確保所有設(shè)備的拍攝時(shí)間一致。
圖 4 展示了與其所使用的拍攝設(shè)備一同呈現(xiàn)的三個(gè)場(chǎng)景。我們的 FiveCam 數(shù)據(jù)集場(chǎng)景豐富多樣,在多種光照條件下(從白晝到夜間環(huán)境,包括室外和室內(nèi)光照)拍攝了自然景觀和城市環(huán)境。
此外,我們還創(chuàng)建了這個(gè)數(shù)據(jù)集的 sRGB - XYZ 版本,其中所有相機(jī)的原始圖像都使用拍攝時(shí)的白平衡、線性去馬賽克算法進(jìn)行處理,并轉(zhuǎn)換為標(biāo)準(zhǔn)的相機(jī) - 到 - XYZ 色彩空間。這個(gè)版本中的 XYZ 圖像保持了線性,這使得它們對(duì)于需要保持原始圖像線性的下游任務(wù)特別有益。
- 圖 4 我們新數(shù)據(jù)集中 3 個(gè)場(chǎng)景的預(yù)覽(左圖)以及我們的拍攝設(shè)備(右圖)。每個(gè)場(chǎng)景都包含來自五款智能手機(jī)相機(jī)的同步 sRGB(標(biāo)準(zhǔn)紅綠藍(lán))-Raw(原始)圖像對(duì):蘋果 iPhone 14 Pro Max、谷歌 Pixel 6 Pro、華為 P40、三星 Galaxy S20 以及小米 Mi 12。這里將原始圖像可視化為 XYZ 圖像,并且可以無損地轉(zhuǎn)換回原始格式。