榆林做網(wǎng)站多少錢網(wǎng)絡游戲推廣怎么做
【2024泰迪杯】B 題:基于多模態(tài)特征融合的圖像文本檢索20頁論文及Python代碼
相關鏈接
-
【2024泰迪杯】A 題:生產(chǎn)線的故障自動識別與人員配置 Python代碼實現(xiàn)
-
【2024泰迪杯】B 題:基于多模態(tài)特征融合的圖像文本檢索Python代碼實現(xiàn)
-
【2024泰迪杯】B 題:基于多模態(tài)特征融合的圖像文本檢索Python代碼baseline
-
【2024泰迪杯】C 題:競賽論文的輔助自動評閱 問題分析及Python 代碼實現(xiàn)
1 題目
2024 年(第 12 屆)“泰迪杯”數(shù)據(jù)挖掘挑戰(zhàn)賽—B 題:基于多模態(tài)特征融合的圖像文本檢索
一、問題背景
隨著近年來智能終端設備和多媒體社交網(wǎng)絡平臺的飛速發(fā)展,多媒體數(shù)據(jù)呈現(xiàn)海量增長的趨勢,使當今主流的社交網(wǎng)絡平臺充斥著海量的文本、圖像等多模態(tài)媒體數(shù)據(jù),也使得人們對不同模態(tài)數(shù)據(jù)之間互相檢索的需求不斷增加。有效的信息檢索和分析可以大大提高平臺多模態(tài)數(shù)據(jù)的利用率及用戶的使用體驗,而不同模態(tài)間存在顯著的語義鴻溝,大大制約了海量多模態(tài)數(shù)據(jù)的分析及有效信息挖掘。因此,在海量的數(shù)據(jù)中實現(xiàn)跨模態(tài)信息的精準檢索就成為當今學術界面臨的重要挑戰(zhàn)。圖像和文本作為信息傳遞過程中常見的兩大模態(tài),它們之間的交互檢索不僅能有效打破視覺和語言之間的語義鴻溝和分布壁壘,還能促進許多應用的發(fā)展,如跨模態(tài)檢索、圖像標注、視覺問答等。 圖像文本檢索指的是輸入某一模態(tài)的數(shù)據(jù)(例如圖像),通過訓練的模型自動檢索出與之最相關的另一模態(tài)數(shù)據(jù)(例如文本),它包括兩個方向的檢索,即基于文本的圖像檢索和基于圖像的文本檢索,如圖 1 所示。基于文本的圖像檢索的目的是從數(shù)據(jù)庫中找到與輸入句子相匹配的圖像作為輸出結(jié)果;基于圖像的文本檢索根據(jù)輸入圖片,模型從數(shù)據(jù)庫中自動檢索出能夠準確描述圖片內(nèi)容的文字。然而,來自圖像和來自文本的特征存在固有的數(shù)據(jù)分布的差異,也被稱為模態(tài)間的“異構(gòu)鴻溝”,使得度量圖像和文本之間的語義相關性困難重重。
圖 1 圖像文本檢索
二、解決問題
本賽題是利用附件 1 的數(shù)據(jù)集,選擇合適方法進行圖像和文本的特征提取,基于提取的特征數(shù)據(jù),建立適用于圖像檢索的多模態(tài)特征融合模型和算法,以及建立適用于文本檢索的多模態(tài)特征融合模型和算法。基于建立的“多模態(tài)特征融合的圖像文本檢索”模型,完成以下兩個任務,并提交相關材料。
(1) 基于圖像檢索的模型和算法,利用附件 2 中“word_test.csv”文件的文本信息, 對附件 2 的 ImageData 文件夾的圖像進行圖像檢索,并羅列檢索相似度較高的前五張圖像, 將結(jié)果存放在“result1.csv”文件中(模板文件詳見附件4 的result1.csv)。其中,ImageData文件夾中的圖像 ID 詳見附件 2 的“image_data.csv”文件。
(2) 基于文本檢索的模型和算法,利用附件 3 中“image_test.csv”文件提及的圖像
ID,對附件 3 的“word_data.csv”文件進行文本檢索,并羅列檢索相似度較高的前五條文本,將結(jié)果存放在“result2.csv”文件中(模板文件見附件 4 的 result2.csv)。其中, “image_test.csv”文件提及的圖像 id,對應的圖像數(shù)據(jù)可在附件 3 的 ImageData 文件夾中獲取。
三、附件說明
附件 1、附件 2、附件 3 和附件 4 均含 csv 文件,采用 UTF-8 編碼格式。
附件 1 : 圖像文本檢索的數(shù)據(jù)集 ,“ ImageData ” 壓縮包存儲五萬張圖像, “ImageWordData.csv”文件存儲圖像數(shù)據(jù)對應的文本信息,如表 1 所示。其中,“image_id”為圖像 ID,也是圖像的文件名,可依據(jù)圖像 ID 獲取“caption”中圖像對應的文本信息。
表 1 圖像文本檢索的數(shù)據(jù)集——CSV 文件示例內(nèi)容
image_id | caption |
---|---|
Image14001001-0000.jpg | 《綠色北京》攝影大賽胡子<人名>作品 |
Image14001001-0002.jpg | 招聘計劃學校現(xiàn)有教職工 1500 余人. |
…… | …… |
附件 2:本賽題任務(1)的數(shù)據(jù)信息,包含“word_test.csv”、“image_data.csv”兩份 CSV 文件和 ImageData 文件夾。其中,“word_test.csv”屬于測試集圖像檢索文本信息,記錄了文本 ID 和文本內(nèi)容,文件格式如表 2 所示;“image_data.csv”記錄了 ImageData 文件夾中的圖像 ID,文件格式如表 3 所示;ImageData 文件夾為任務(1)的圖像數(shù)據(jù)庫,存放了能與“image_data.csv”匹配的圖像數(shù)據(jù),如圖 2 所示。
表 2 word_test.csv 示例內(nèi)容
text_id | caption |
---|---|
Word-1000004254 | 后來美國歷史學家及情報部高官說:金無怠的的間諜活動是導致韓戰(zhàn)延遲 |
Word-1000030077 | 茶主題商業(yè)綜合體的未來當下,如果專業(yè)市場只是安于做一個收商鋪租賃 |
…… | …… |
表 3 image_data.csv 示例內(nèi)容
image_id |
---|
Image14001007-4040.jpg |
Image14001007-4041.jpg |
…… |
圖 2 附件 2 的 ImageData 文件夾內(nèi)容
附件 3:本賽題任務(2)的數(shù)據(jù)信息,包含“word_data.csv”、“image_test.csv”兩份 CSV 文件和 ImageData 文件夾。其中,“word_data.csv”屬于測試集文本檢索文本信息,記錄了文本 ID 和文本內(nèi)容,文件格式如表 4 所示;“image_test.csv”記錄了 ImageData 文件夾中的圖像 ID,文件格式如表 5 所示;ImageData 文件夾為任務(2)的圖像數(shù)據(jù)庫,存放了能與“image_test.csv”匹配的圖像數(shù)據(jù),如圖 3 所示。
表 4 word_data.csv 示例內(nèi)容
text_id | caption |
---|---|
Word-1000050001 | 洛陽樓盤 老城區(qū)樓盤 道北樓盤 保利<人名> |
Word-1000050002 | 大眾大眾(進口)途銳 2015 款 基本型 |
…… | …… |
表 5 image_test.csv 示例內(nèi)容
image_id |
---|
Image14001013-8213.jpg |
Image14001013-8214.jpg |
…… |
圖 3 附件 3 的 ImageData 文件夾內(nèi)容
附件 4:任務(1)和任務(2)結(jié)果文件的模板文件,具體字段名稱和樣例見表 6 和表7“。result1.csv”中,text_id 是附件 2“word_test.csv”文件的文本 ID,similarity_ranking是相似度排名,result_image_id 是相似度排名對應在“image_data.csv”文件的圖像 ID; “ result2.csv ”中, image_id 是附件 2 “ image_test.csv ”文件的 圖像 ID , similarity_ranking 是相似度排名,result_text_id 是相似度排名對應在“word_data.csv”文件的文本 ID。
表 6 result1.csv 示例內(nèi)容
text_id | similarity_ranking | result_image_id |
---|---|---|
Word-1000000001 | 1 | Image00010804-0898.jpg |
2 | Image00015036-0854.jpg | |
3 | Image00018364-0375.jpg | |
4 | Image00042681-0598.jpg | |
5 | Image00038751-0658.jpg | |
Word-1000000002 | 1 | Image00010804-0697.jpg |
2 | Image00015036-0158.jpg | |
3 | Image00018364-0319.jpg | |
4 | Image00042681-0135.jpg | |
5 | Image00038751-0356.jpg | |
…… | …… | …… |
表 7 result2.csv 示例內(nèi)容
image_id | similarity_ranking | result_text_id |
---|---|---|
Image00012212-0001.jpg | 1 | Word-1000001175 |
2 | Word-1000001658 | |
3 | Word-1000001574 | |
4 | Word-1000001359 | |
5 | Word-1000001514 | |
Image00012212-0002.jpg | 1 | Word-1000001124 |
2 | Word-1000001242 | |
3 | Word-1000001425 | |
4 | Word-1000001113 | |
5 | Word-1000001854 | |
…… | …… | …… |
四、評價標準
圖像文本檢索包括兩個具體的任務,即文本檢索(Image-to-Text,I2T),即針對查詢圖像找到相關句子;以及圖像檢索(Text-to-Image,T2I),即給定查詢語句檢索符合文本描述的圖像。為了與現(xiàn)有方法公平地進行比較,在文本檢索問題和圖像檢索問題中都采用了廣泛使用的評價指標:召回率 Recall at K( R@K)。 定義為查詢結(jié)果中真實結(jié)果(ground- truth)排序在前 K 的比率,通常 K 可取值為 1、5 和 10,計算公式如式(1)所示。
R @ K = M a t c h e d t o p ? K G r o u n d t r u t h t o t a l R@K = \frac{Matched_{top- K}}{Groundtruth_{total}} R@K=Groundtruthtotal?Matchedtop?K??
其中,$ Groundtruth_{total}$表示真實匹配結(jié)果出現(xiàn)的總次數(shù), M a t c h e d t o p ? K Matched_{top- K} Matchedtop?K?表示在排序前K 個輸出結(jié)果中出現(xiàn)匹配樣本的次數(shù)。R@K 反映了在圖像檢索和文本檢索中模型輸出前 K 個結(jié)果中正確結(jié)果出現(xiàn)的比例。本賽題的評價標準設定 K=5,即評價標準為 R@5。
2 論文介紹
隨著大數(shù)據(jù)時代的到來,多媒體數(shù)據(jù)的海量增長為信息檢索帶來了前所未有的挑戰(zhàn),同時也為提升用戶體驗和數(shù)據(jù)利用效率提供了新的機遇。本研究旨在通過構(gòu)建多模態(tài)特征融合模型和算法,實現(xiàn)圖像與文本之間的精準檢索,以解決模態(tài)間“異構(gòu)鴻溝”所帶來的挑戰(zhàn)。研究的核心內(nèi)容在于探索和實現(xiàn)一種有效的多模態(tài)特征融合機制,以促進圖像與文本之間的跨模態(tài)信息檢索。本研究利用特定數(shù)據(jù)集,通過特征提取和融合技術,建立適用于圖像檢索和文本檢索的多模態(tài)特征融合模型,以期達到提高檢索準確性和效率的目的。
對于問題一,即基于文本對圖像的檢索模型,首先對數(shù)據(jù)集進行深入分析和預處理,包括文本數(shù)據(jù)的清洗、分詞、填充或截斷,以及圖像數(shù)據(jù)的增強技術。隨后,構(gòu)建了三種多模態(tài)特征融合模型:OFA、BertCLIP和ChineseCLIP,這些模型綜合考慮了圖像的視覺信息和文本的語義信息,以實現(xiàn)更加精準的跨模態(tài)關聯(lián)。設計并實現(xiàn)了基于融合特征的圖像檢索算法,重點研究了如何有效地度量和比較不同模態(tài)間的語義相關性,并優(yōu)化檢索過程以提高檢索速度和準確性。
對于問題二,即基于圖像對文本的檢索模型,采用了類似的策略,但在數(shù)據(jù)預處理和模型構(gòu)建上進行了相應的調(diào)整以適應圖像到文本的檢索需求。通過對圖像和文本數(shù)據(jù)的特征提取和融合,建立了適用于文本檢索的多模態(tài)特征融合模型。此外,還實現(xiàn)了一個投票融合機制,將所有模態(tài)的預測結(jié)果進行匯總和加權(quán)投票,以優(yōu)化整體的融合效果,并選擇得票數(shù)最高的前五個候選項作為最終提交的預測結(jié)果。
實驗驗證與性能評估表明,所構(gòu)建的模型和算法在提高檢索準確性和效率方面具有顯著效果。通過在提供的數(shù)據(jù)集上進行實驗,驗證了模型的有效性,并通過比較分析,展示了與現(xiàn)有技術的競爭優(yōu)勢。實驗結(jié)果表明,OFA模型在所有任務中均表現(xiàn)最佳,無論是在zeroshot(零樣本)還是finetuning(微調(diào))的情況下,其文-圖召回率和圖-文召回率都高于其他兩個模型。特別是在文-圖召回率上,OFA模型的finetuning表現(xiàn)尤為突出,達到了95.83%,這表明OFA模型在經(jīng)過特定任務的微調(diào)后,能夠顯著提高其性能。
關鍵詞:多模態(tài)模型融合檢索;OFA(OneForAll)模型;BertCLIP 多模態(tài)模型;ChineseCLIP 多模態(tài)模型;跨模態(tài)信息檢索;投票融合算法;特征提取與融合技術