申請(qǐng)自助網(wǎng)站深圳網(wǎng)站設(shè)計(jì)專(zhuān)業(yè)樂(lè)云seo
🌟🌟 歡迎來(lái)到我的技術(shù)小筑,一個(gè)專(zhuān)為技術(shù)探索者打造的交流空間。在這里,我們不僅分享代碼的智慧,還探討技術(shù)的深度與廣度。無(wú)論您是資深開(kāi)發(fā)者還是技術(shù)新手,這里都有一片屬于您的天空。讓我們?cè)谥R(shí)的海洋中一起航行,共同成長(zhǎng),探索技術(shù)的無(wú)限可能。
🚀 探索專(zhuān)欄:學(xué)步_技術(shù)的首頁(yè) —— 持續(xù)學(xué)習(xí),不斷進(jìn)步,讓學(xué)習(xí)成為我們共同的習(xí)慣,讓總結(jié)成為我們前進(jìn)的動(dòng)力。
🔍 技術(shù)導(dǎo)航:
- 人工智能:深入探討人工智能領(lǐng)域核心技術(shù)。
- 自動(dòng)駕駛:分享自動(dòng)駕駛領(lǐng)域核心技術(shù)和實(shí)戰(zhàn)經(jīng)驗(yàn)。
- 環(huán)境配置:分享Linux環(huán)境下相關(guān)技術(shù)領(lǐng)域環(huán)境配置所遇到的問(wèn)題解決經(jīng)驗(yàn)。
- 圖像生成:分享圖像生成領(lǐng)域核心技術(shù)和實(shí)戰(zhàn)經(jīng)驗(yàn)。
- 虛擬現(xiàn)實(shí)技術(shù):分享虛擬現(xiàn)實(shí)技術(shù)領(lǐng)域核心技術(shù)和實(shí)戰(zhàn)經(jīng)驗(yàn)。
🌈 非常期待在這個(gè)數(shù)字世界里與您相遇,一起學(xué)習(xí)、探討、成長(zhǎng)。不要忘了訂閱本專(zhuān)欄,讓我們的技術(shù)之旅不再孤單!
💖💖💖 ?? 歡迎關(guān)注和訂閱,一起開(kāi)啟技術(shù)探索之旅! ??
文章目錄
- 1. 背景介紹
- 2. 方法
- 2.1 初步回顧
- 2.2 總覽
- **FoodSAM 框架**
- 2.3 FoodSAM 框架
- **語(yǔ)義增強(qiáng)**
- **實(shí)例分割**
- **全景分割**
- **可提示分割**
- 3. 實(shí)驗(yàn)
- 3.1 實(shí)驗(yàn)設(shè)置
- 數(shù)據(jù)集
- 3.2 實(shí)現(xiàn)細(xì)節(jié)
- 3.3 評(píng)估指標(biāo)
- 3.4 與最新方法的比較
- **語(yǔ)義分割評(píng)估**
- **實(shí)例分割評(píng)估**
- **全景分割評(píng)估**
- **可提示分割評(píng)估**
- 3.5 FoodSAM 的改進(jìn)
- **融合實(shí)驗(yàn)**
- **消融實(shí)驗(yàn)**
- **閾值影響**
- 4. 結(jié)論
1. 背景介紹
Lan X, Lyu J, Jiang H, et al. Foodsam: Any food segmentation[J]. IEEE Transactions on Multimedia, 2023.
在本文中,我們探討了 Segment Anything Model (SAM) 在食品圖像分割任務(wù)中的零樣本能力。為了解決 SAM 生成的掩碼中缺乏類(lèi)別特定信息的問(wèn)題,我們提出了一個(gè)新框架,稱(chēng)為 FoodSAM。該創(chuàng)新方法將粗語(yǔ)義掩碼與 SAM 生成的掩碼相結(jié)合,以提升語(yǔ)義分割的質(zhì)量。此外,我們注意到食品中的食材可以被視為獨(dú)立的個(gè)體,這啟發(fā)我們?cè)谑称穲D像上執(zhí)行實(shí)例分割。
進(jìn)一步地,FoodSAM 通過(guò)集成一個(gè)目標(biāo)檢測(cè)器,將其零樣本能力擴(kuò)展到全景分割,從而有效捕獲非食品對(duì)象的信息。受最近可提示分割(promptable segmentation)成功的啟發(fā),我們還將 FoodSAM 擴(kuò)展為支持各種提示變體的可提示分割。結(jié)果,FoodSAM 成為一個(gè)多層次粒度分割的全方位解決方案。
值得注意的是,這一開(kāi)創(chuàng)性框架成為首個(gè)在食品圖像上實(shí)現(xiàn)實(shí)例分割、全景分割和可提示分割的工作。大量實(shí)驗(yàn)表明了 FoodSAM 的可行性和出色的性能,驗(yàn)證了 SAM 在食品圖像分割領(lǐng)域作為重要和有影響力工具的潛力。
自然語(yǔ)言處理領(lǐng)域【1】【2】【3】因大規(guī)模語(yǔ)言模型的出現(xiàn)【4】【5】【6】而發(fā)生了革命性變化,這些模型基于海量網(wǎng)頁(yè)數(shù)據(jù)訓(xùn)練,展現(xiàn)了令人印象深刻的零樣本泛化能力,能夠超越其原始訓(xùn)練領(lǐng)域,在多個(gè)任務(wù)和數(shù)據(jù)分布上表現(xiàn)出色。在計(jì)算機(jī)視覺(jué)領(lǐng)域,Meta AI 最近發(fā)布的 Segment Anything Project (SAM) 提出了一種開(kāi)創(chuàng)性的可提示分割任務(wù),用于訓(xùn)練一個(gè)強(qiáng)大的視覺(jué)基礎(chǔ)模型。這項(xiàng)雄心勃勃的工作標(biāo)志著向全面認(rèn)知識(shí)別所有物體邁出了重要一步,同時(shí)探索了交互式分割的挑戰(zhàn),并有效地考慮了真實(shí)世界的約束。
SAM 在各種分割基準(zhǔn)測(cè)試中表現(xiàn)卓越,其零樣本遷移能力在23個(gè)不同分割數(shù)據(jù)集上得到了驗(yàn)證【7】。本文聚焦于 SAM 在食品圖像分割領(lǐng)域的零樣本能力,這是一項(xiàng)食品計(jì)算領(lǐng)域中的關(guān)鍵任務(wù)【8】【9】【10】。然而,SAM 單獨(dú)生成的掩碼效果并不令人滿意,主要是由于其生成的掩碼缺乏類(lèi)別特定信息。此外,與一般物體圖像的語(yǔ)義分割相比,食品圖像分割更具挑戰(zhàn)性,因?yàn)槭称吠庥^的多樣性大且食材類(lèi)別分布不平衡【11】。因此,利用 SAM 準(zhǔn)確區(qū)分食品的類(lèi)別和屬性是一項(xiàng)艱巨的任務(wù)。
為了解決上述問(wèn)題,我們提出了一個(gè)名為 FoodSAM 的新型零樣本分割框架,它通過(guò)將原始語(yǔ)義掩碼與 SAM 生成的類(lèi)別無(wú)關(guān)的掩碼結(jié)合起來(lái),提升分割效果。盡管 SAM 在食品圖像分割中展現(xiàn)了顯著的能力,但其缺乏類(lèi)別特定信息。相較之下,傳統(tǒng)分割方法保留了類(lèi)別信息,但在分割質(zhì)量上有所妥協(xié)。為提升語(yǔ)義分割質(zhì)量,我們倡導(dǎo)將原始分割輸出與 SAM 生成的掩碼融合,并通過(guò)識(shí)別掩碼的主要元素確定其類(lèi)別,這是一種新穎且有效的增強(qiáng)語(yǔ)義分割的方式。
由于食品中的食材通常被隨機(jī)切割并放置,它們可以被視為獨(dú)立的個(gè)體。這啟發(fā)我們?cè)谑称穲D像上實(shí)現(xiàn)實(shí)例分割。SAM 生成的掩碼與獨(dú)立實(shí)例天然相關(guān),為我們?cè)谑称穲D像上執(zhí)行實(shí)例分割奠定了基礎(chǔ)。
食品圖像中常包含非食品物體,如叉子、勺子、玻璃杯和餐桌等。這些物體雖非食材,但對(duì)食品的屬性表征至關(guān)重要。FoodSAM 引入目標(biāo)檢測(cè)方法【12】【13】【14】,檢測(cè)背景中的非食品物體,并通過(guò)結(jié)合 SAM 生成的背景掩碼,將物體類(lèi)別標(biāo)簽作為語(yǔ)義標(biāo)簽。結(jié)合實(shí)例分割方法,該框架能夠成功實(shí)現(xiàn)食品圖像的全景分割。
受 SAM 項(xiàng)目的啟發(fā),我們將研究擴(kuò)展到“食品圖像分割提示任務(wù)”。我們?cè)O(shè)計(jì)了一種簡(jiǎn)單而有效的目標(biāo)檢測(cè)方法,使 FoodSAM 支持可提示分割,支持多種提示形式,如點(diǎn)、框和掩碼提示。通過(guò)點(diǎn)定位、框覆蓋或掩碼重疊來(lái)選擇感興趣的物體。結(jié)合 SAM 的可提示分割和原始語(yǔ)義掩碼,我們?cè)谑称泛头鞘称肺矬w上實(shí)現(xiàn)了多個(gè)粒度級(jí)別的可提示分割。
主要貢獻(xiàn):
-
全方位分割能力:我們提出了一個(gè)全新的零樣本框架 FoodSAM,能夠在不同粒度級(jí)別上完成食品分割任務(wù)。這項(xiàng)工作首次探索了 SAM 在食品圖像分割領(lǐng)域的應(yīng)用,成功擴(kuò)展了其零樣本能力。
-
多種分割任務(wù)的突破:這是首個(gè)在食品圖像上實(shí)現(xiàn) 實(shí)例分割、全景分割 和 可提示分割 的工作。
-
實(shí)驗(yàn)結(jié)果:通過(guò)在 FoodSeg103 和 UECFoodPix Complete 數(shù)據(jù)集上的全面評(píng)估,FoodSAM 在兩個(gè)數(shù)據(jù)集上均優(yōu)于當(dāng)前最先進(jìn)的方法。此外,FoodSAM 的性能在所有食品分割任務(wù)中都超越了其他 SAM 變體。
2. 方法
2.1 初步回顧
Segment Anything Model (SAM)【7】是第一個(gè)將基礎(chǔ)模型應(yīng)用于圖像分割任務(wù)領(lǐng)域的模型。如圖2所示,該模型包含三個(gè)關(guān)鍵組件:圖像編碼器、提示編碼器和輕量化的掩碼解碼器模塊。
-
圖像編碼器:
- 使用計(jì)算密集型的視覺(jué) Transformer 架構(gòu),包含數(shù)百萬(wàn)個(gè)參數(shù),有效提取輸入圖像的顯著視覺(jué)特征。
- 提供三種特定尺度的預(yù)訓(xùn)練配置:
- ViT-B(91M 參數(shù))
- ViT-L(308M 參數(shù))
- ViT-H(636M 參數(shù))【56】【57】。
-
提示編碼器:
- 支持四種文本或空間提示輸入:
- 點(diǎn)(points)
- 框(boxes)
- 自由格式文本(freeform text)
- 現(xiàn)有掩碼(existing masks)
- 提示的表示方法:
- 點(diǎn)和框使用位置編碼【58】。
- 文本由預(yù)訓(xùn)練的 CLIP 模型中的文本編碼器編碼【20】。
- 掩碼輸入通過(guò)卷積嵌入。
- 提示嵌入和圖像特征逐元素相加。
- 支持四種文本或空間提示輸入:
-
掩碼解碼器模塊:
- 使用基于 Transformer 的架構(gòu):
- 對(duì)提示應(yīng)用自注意力。
- 對(duì)提示和圖像編碼器輸出應(yīng)用交叉注意力。
- 動(dòng)態(tài)掩碼預(yù)測(cè)頭輸出像素級(jí)掩碼概率和預(yù)測(cè)的 IoU(Intersection over Union)指標(biāo)。
- 使用轉(zhuǎn)置卷積對(duì)解碼器特征進(jìn)行上采樣。
- 能夠?yàn)槊總€(gè)提示輸入生成多個(gè)掩碼,默認(rèn)情況下每個(gè)提示生成三個(gè)掩碼。
- 圖像特征僅需提取一次,可在相同圖像的不同提示間重復(fù)使用,從而支持實(shí)時(shí)交互式應(yīng)用(如移動(dòng)增強(qiáng)現(xiàn)實(shí))。
- 使用基于 Transformer 的架構(gòu):
SAM 在超過(guò) 1100 萬(wàn)張圖像和 10 億掩碼的大規(guī)模數(shù)據(jù)集上訓(xùn)練,展現(xiàn)了強(qiáng)大的零樣本遷移能力。正如其名稱(chēng)所示,SAM 可以分割幾乎任何概念,包括訓(xùn)練期間從未見(jiàn)過(guò)的新物體。
最近,有幾項(xiàng)相關(guān)工作提出了解決 SAM 局限性的改進(jìn)方法:
-
RAM【59】:
- 一種基于 SAM 的創(chuàng)新圖像標(biāo)記基礎(chǔ)模型。
- 通過(guò)在大量圖像-文本對(duì)上訓(xùn)練,能夠高效識(shí)別常見(jiàn)類(lèi)別,無(wú)需手動(dòng)標(biāo)注即可獲得大量圖像標(biāo)簽。
-
SEEM【60】:
- 一種交互式分割模型,可同時(shí)在全像素和全語(yǔ)義范圍內(nèi)執(zhí)行圖像分割。
- 支持多種交互提示類(lèi)型(包括點(diǎn)擊、框、多邊形、涂鴉、文本和引用區(qū)域)。
- 在開(kāi)放詞匯分割和交互式分割任務(wù)中表現(xiàn)出色,并展現(xiàn)了對(duì)多樣化用戶需求的強(qiáng)大泛化能力。
-
SSA【61】:
- 一種新型開(kāi)放框架,將 SAM 應(yīng)用于語(yǔ)義分割任務(wù)。
- 允許用戶將現(xiàn)有語(yǔ)義分割器無(wú)縫集成到 SAM 中,而無(wú)需重新訓(xùn)練或微調(diào) SAM 的參數(shù)。
- 提升了語(yǔ)義分割任務(wù)中的泛化能力和掩碼邊界的細(xì)化效果。
2.2 總覽
我們探索了將 SAM 這一強(qiáng)大的掩碼生成器應(yīng)用于食品圖像分割。盡管 SAM 能夠高質(zhì)量地分割食品圖像,其生成的掩碼缺乏類(lèi)別語(yǔ)義信息,而標(biāo)準(zhǔn)語(yǔ)義分割方法雖然提供了類(lèi)別標(biāo)簽,但分割質(zhì)量較差。
FoodSAM 框架
- 提出了 FoodSAM,融合了 SAM 和傳統(tǒng)語(yǔ)義分割的優(yōu)點(diǎn)。
- 語(yǔ)義增強(qiáng):通過(guò)基于掩碼與類(lèi)別匹配的方式,為 SAM 的高質(zhì)量掩碼賦予語(yǔ)義標(biāo)簽。
- 實(shí)例分割:將食品食材視為獨(dú)立個(gè)體,進(jìn)行實(shí)例分割。
- 全景分割:通過(guò)引入目標(biāo)檢測(cè)器,檢測(cè)背景中的非食品物體(如餐桌、盤(pán)子、勺子等),實(shí)現(xiàn)食品圖像的高質(zhì)量全景分割。
- 可提示分割:結(jié)合 SAM 的提示學(xué)習(xí)方法,引入點(diǎn)、框和掩碼提示,支持多粒度的交互式提示分割。
2.3 FoodSAM 框架
FoodSAM 由以下三大模型組成:
- SAM (Ma):
- 提供高質(zhì)量的類(lèi)別無(wú)關(guān)掩碼。
- 語(yǔ)義分割模塊 (Ms):
- 提供類(lèi)別標(biāo)簽的分割結(jié)果。
- 目標(biāo)檢測(cè)器 (Md):
- 檢測(cè)背景中的非食品物體,并為其分配語(yǔ)義標(biāo)簽。
框架的核心創(chuàng)新包括:
- 掩碼-類(lèi)別匹配:
- 為 SAM 掩碼分配語(yǔ)義標(biāo)簽。
- 融合策略:
- 將重疊掩碼按面積排序,從大到小融合。
- 提示優(yōu)先選擇:
- 通過(guò)點(diǎn)、框和掩碼提示實(shí)現(xiàn)交互式分割。
語(yǔ)義增強(qiáng)
- 假設(shè)輸入食品圖像 I ∈ R H × W I \in R^{H \times W} I∈RH×W:
- 語(yǔ)義分割模塊生成語(yǔ)義掩碼 m s = M s ( I ) m_s = M_s(I) ms?=Ms?(I)。
- SAM 生成二值掩碼 m a ∈ R K × H × W m_a \in R^{K \times H \times W} ma?∈RK×H×W。
- 掩碼類(lèi)別匹配:
- 對(duì)于 m a m_a ma? 的第 i i i 個(gè)掩碼 m a i m^i_a mai?,通過(guò)投票選擇類(lèi)別標(biāo)簽 s i s_i si?,并根據(jù)閾值 τ \tau τ 過(guò)濾不穩(wěn)定的掩碼。
實(shí)例分割
- 將小型掩碼合并到相鄰的同類(lèi)掩碼中。
- 過(guò)濾掉與背景類(lèi)別對(duì)應(yīng)的掩碼。
全景分割
- 引入目標(biāo)檢測(cè)器 M d M_d Md?:
- 檢測(cè)非食品物體的邊界框 B d B_d Bd? 和類(lèi)別標(biāo)簽 C d C_d Cd?。
- 結(jié)合 SAM 掩碼,通過(guò) IoU 匹配為非食品物體分配類(lèi)別標(biāo)簽。
可提示分割
- 支持點(diǎn)提示、框提示和掩碼提示,通過(guò) SAM 和目標(biāo)檢測(cè)器的提示優(yōu)先選擇機(jī)制,實(shí)現(xiàn)多粒度交互分割。
最終,FoodSAM 實(shí)現(xiàn)了語(yǔ)義、實(shí)例、全景和可提示分割,為食品圖像分割設(shè)立了新的標(biāo)準(zhǔn)。
3. 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集
-
UECFoodPix Complete [15]
- 由電氣通信大學(xué)在2020年發(fā)布。
- 包含102種菜肴,共有9000張訓(xùn)練圖像和1000張測(cè)試圖像。
- 為每個(gè)食品項(xiàng)提供語(yǔ)義標(biāo)簽,共有103個(gè)類(lèi)別標(biāo)簽。
- 分割掩碼通過(guò) GrabCut 半自動(dòng)生成(基于用戶初始化的種子)【63】,然后由人工根據(jù)預(yù)定義規(guī)則進(jìn)一步精煉【64】。
-
FoodSeg103 [11]
- 最近設(shè)計(jì)的食品圖像分割數(shù)據(jù)集,共包含7118張圖像,涉及730種菜肴。
- 提供更細(xì)粒度的注釋,捕獲每道菜肴中單獨(dú)成分的特性。
- 訓(xùn)練集包含4983張圖像,提供29530個(gè)成分掩碼;測(cè)試集包含2135張圖像,提供12567個(gè)成分掩碼。
- 掩碼均通過(guò)人工注釋獲得。與 UECFoodPix Complete 相比,FoodSeg103 提供更具挑戰(zhàn)性的基準(zhǔn),并具有更細(xì)粒度的成分注釋。
3.2 實(shí)現(xiàn)細(xì)節(jié)
- 硬件:實(shí)驗(yàn)基于 NVIDIA GeForce RTX 3090 GPU 運(yùn)行。
- FoodSAM 組件:
- SAM 的圖像編碼器使用 ViT-H【56】,超參數(shù)與原論文一致。
- 目標(biāo)檢測(cè)器使用 UniDet【14】。
- 語(yǔ)義分割模塊:
- 在 FoodSeg103 上基于 SETR【37】,使用 ViT-16/B 作為編碼器,MLA 作為解碼器,使用 GitHub 提供的檢查點(diǎn)。
- 在 UECFoodPix Complete 上基于 Deeplabv3+【65】,使用與論文中相同的超參數(shù)重新訓(xùn)練檢查點(diǎn)。
3.3 評(píng)估指標(biāo)
-
mIoU (平均交并比):衡量推理結(jié)果與真實(shí)值之間的重疊和聯(lián)合。
mIoU = 1 N ∑ i = 1 N TP i TP i + FP i + FN i \text{mIoU} = \frac{1}{N} \sum_{i=1}^N \frac{\text{TP}_i}{\text{TP}_i + \text{FP}_i + \text{FN}_i} mIoU=N1?i=1∑N?TPi?+FPi?+FNi?TPi??
其中:- TP i \text{TP}_i TPi?:正確分類(lèi)為類(lèi)別 i i i 的像素?cái)?shù)。
- FP i \text{FP}_i FPi?:錯(cuò)誤分類(lèi)為類(lèi)別 i i i 的像素?cái)?shù)。
- FN i \text{FN}_i FNi?:真實(shí)值為類(lèi)別 i i i,但未正確分類(lèi)的像素?cái)?shù)。
-
mAcc (平均精度):所有類(lèi)別的平均精度。
mAcc = 1 N ∑ i = 1 N TP i TP i + FN i \text{mAcc} = \frac{1}{N} \sum_{i=1}^N \frac{\text{TP}_i}{\text{TP}_i + \text{FN}_i} mAcc=N1?i=1∑N?TPi?+FNi?TPi?? -
aAcc (總體精度):所有像素的準(zhǔn)確分類(lèi)比例。
aAcc = ∑ i = 1 N TP i ∑ i = 1 N ( TP i + FN i ) \text{aAcc} = \frac{\sum_{i=1}^N \text{TP}_i}{\sum_{i=1}^N (\text{TP}_i + \text{FN}_i)} aAcc=∑i=1N?(TPi?+FNi?)∑i=1N?TPi??
3.4 與最新方法的比較
語(yǔ)義分割評(píng)估
- FoodSeg103 上性能:
- FoodSAM 達(dá)到 46.42 mIoU, 58.27 mAcc, 84.10 aAcc。
- UECFoodPix Complete 上性能:
- FoodSAM 達(dá)到 66.14 mIoU, 78.01 mAcc, 88.47 aAcc。
- 與其他零樣本方法對(duì)比:
- FoodSAM 的 mIoU 均高于30,超越監(jiān)督方法最高 45.1 mIoU。
- 定性分析:
- FoodSAM 利用 SAM 的強(qiáng)大分割能力補(bǔ)償原始分割器的缺陷,在細(xì)粒度成分上表現(xiàn)更優(yōu)。
實(shí)例分割評(píng)估
- 無(wú)相關(guān)基準(zhǔn),定性分析表明:
- FoodSAM 能有效識(shí)別食材實(shí)例身份,并實(shí)現(xiàn)高質(zhì)量實(shí)例分割。
- 與 RAM【59】相比,FoodSAM 能更細(xì)粒度地分割草莓等復(fù)雜食材。
全景分割評(píng)估
- 在無(wú)相關(guān)數(shù)據(jù)集的情況下,與 RAM 和 SEEM 進(jìn)行定性對(duì)比:
- FoodSAM 在非食品物體(如碗、盤(pán)子)上的分割表現(xiàn)優(yōu)異。
- 能有效區(qū)分細(xì)粒度差異,如裝有食材的碗和裝牛奶的玻璃杯。
可提示分割評(píng)估
- FoodSAM 支持點(diǎn)提示、框提示和掩碼提示。
- 定性分析表明:
- FoodSAM 能識(shí)別食品成分類(lèi)別,并在背景中分割非食品物體。
3.5 FoodSAM 的改進(jìn)
融合實(shí)驗(yàn)
- 隨著合并掩碼數(shù)量的增加,性能顯著提高。
- 在 FoodSeg103 和 UECFoodPix Complete 上使用 80 個(gè)掩碼時(shí),性能達(dá)到最佳。
消融實(shí)驗(yàn)
- 在 FoodSeg103 上驗(yàn)證不同組件的功能:
- 過(guò)濾含混類(lèi)別標(biāo)簽(FCC)或未過(guò)濾。
- 使用或未使用 SAM 生成的掩碼(WSM)。
- 將面積從大到小排序融合表現(xiàn)最佳。
閾值影響
- 在 FoodSeg103 上,較高的閾值對(duì)改進(jìn)效果有限。
- 在 UECFoodPix Complete 上,混淆標(biāo)簽數(shù)量較多時(shí),改進(jìn)更顯著。
4. 結(jié)論
本文研究了 SAM 在食品圖像分割中的零樣本能力,針對(duì)其類(lèi)別信息不足的問(wèn)題,提出了 FoodSAM 框架。FoodSAM 通過(guò)結(jié)合原始語(yǔ)義掩碼與 SAM 的類(lèi)別無(wú)關(guān)掩碼,顯著提升了語(yǔ)義分割質(zhì)量。此外,FoodSAM 利用 SAM 的實(shí)例掩碼,實(shí)現(xiàn)了食品圖像的實(shí)例分割,并結(jié)合目標(biāo)檢測(cè)器完成了全景分割。
FoodSAM 還支持多種提示形式,實(shí)現(xiàn)交互式提示分割。綜合評(píng)估表明,FoodSAM 在多個(gè)數(shù)據(jù)集上超越現(xiàn)有方法,驗(yàn)證了 SAM 在食品圖像分割領(lǐng)域的潛力。
🌟 在這篇博文的旅程中,感謝您的陪伴與閱讀。如果內(nèi)容對(duì)您有所啟發(fā)或幫助,請(qǐng)不要吝嗇您的點(diǎn)贊 👍🏻,這是對(duì)我最大的鼓勵(lì)和支持。
📚 本人雖致力于提供準(zhǔn)確且深入的技術(shù)分享,但學(xué)識(shí)有限,難免會(huì)有疏漏之處。如有不足或錯(cuò)誤,懇請(qǐng)各位業(yè)界同仁在評(píng)論區(qū)留下寶貴意見(jiàn),您的批評(píng)指正是我不斷進(jìn)步的動(dòng)力!😄😄😄
💖💖💖 如果您發(fā)現(xiàn)這篇博文對(duì)您的研究或工作有所裨益,請(qǐng)不吝點(diǎn)贊、收藏,或分享給更多需要的朋友,讓知識(shí)的力量傳播得更遠(yuǎn)。
🔥🔥🔥 “Stay Hungry, Stay Foolish” —— 求知的道路永無(wú)止境,讓我們保持渴望與初心,面對(duì)挑戰(zhàn),勇往直前。無(wú)論前路多么漫長(zhǎng),只要我們堅(jiān)持不懈,終將抵達(dá)目的地。🌙🌙🌙
👋🏻 在此,我也邀請(qǐng)您加入我的技術(shù)交流社區(qū),共同探討、學(xué)習(xí)和成長(zhǎng)。讓我們攜手并進(jìn),共創(chuàng)輝煌!