柳北網(wǎng)站制作移動(dòng)慧生活app下載
系列文章目錄
文章目錄
- 系列文章目錄
在電子商務(wù)產(chǎn)品的跨模態(tài)檢索中,電子商務(wù)圖像和電子商務(wù)語言都有許多獨(dú)特的特點(diǎn)。如圖所示,一個(gè)電子商務(wù)產(chǎn)品圖片通常只包含一個(gè)簡(jiǎn)單的場(chǎng)景,有一個(gè)或兩個(gè)前景物體和一個(gè)普通的背景。同時(shí),電子商務(wù)語言通常由一組元數(shù)據(jù)(標(biāo)簽實(shí)體)組成,包括產(chǎn)品名稱/描述、品牌、類別、成分等。之前的工作,如FashionBERT 表明,時(shí)尚領(lǐng)域的跨模態(tài)檢索需要更細(xì)粒度的特征,比如如短袖和圓領(lǐng)。
在電子商務(wù)中,單詞標(biāo)記經(jīng)常會(huì)產(chǎn)生特殊的含義,而[10,38,72]中的預(yù)訓(xùn)練語言模型部分盡管有大規(guī)模的預(yù)訓(xùn)練語料庫(kù),但仍有偏見。例如,在預(yù)訓(xùn)練的CLIP模型中,實(shí)體“diesel”與概念“fuel”緊密相關(guān),而在電子商務(wù)時(shí)尚領(lǐng)域中,“diesel”被標(biāo)記為品牌實(shí)體。其他例子包括“canada goose(品牌)“、“golden goose(品牌)”、“top(類別)"等
介紹一下因果學(xué)習(xí),和分布外的問題,根據(jù)應(yīng)用場(chǎng)景的不同Causal learning 的最終目的是不同的,其中一個(gè)比較重要的目的就是想解決Machine learning的Out-of-Distribution Generalization(OODG)的問題。假設(shè)我們想分類駱駝和奶牛的圖片, ,我們獲得的圖片中大概率是下圖的情形。
。比如我們的訓(xùn)練數(shù)據(jù)中,駱駝大多數(shù)出現(xiàn)在沙化的土地(背景偏黃),奶牛大多數(shù)出現(xiàn)在長(zhǎng)有植被的土地(背景偏綠)。這樣一來,由于背景往往占據(jù)圖片的主要內(nèi)容,我們的模型學(xué)到的很可能是背景相關(guān)的特征,比如背景顏色,然后使用背景顏色對(duì)圖片進(jìn)行分類。即使我們?cè)谟?xùn)練集上得到比較好的效果,但是如果測(cè)試集的分布和訓(xùn)練集不一樣,那就出問題了。也就是說,如果新的測(cè)試集也是駱駝大多數(shù)背景偏黃,奶牛大多數(shù)背景偏綠,那么我們的模型可能還是會(huì)有比較好的表現(xiàn)。但如果不是這種情形,而是下圖中的情形,那么模型很可能表現(xiàn)很糟糕
上圖中,我們可以看到駱駝出現(xiàn)在了綠化草地,而奶牛出現(xiàn)在了沙化草地,這種情形在現(xiàn)實(shí)生活中還是可能存在的。如果我們新的數(shù)據(jù)中這種類型的圖片較多(數(shù)據(jù)分布和之前的不同),而我們之前的模型又是根據(jù)背景色進(jìn)行預(yù)測(cè),可想而知預(yù)測(cè)結(jié)果肯定不好。更有甚者,我們可以隨意的進(jìn)行PS,把背景換成任意的形式,比如下圖中的情形。
介紹一下混雜因素,或者叫干擾因子。多模態(tài)微調(diào)中存在分布外問題,Zhang等人將圖像和語言之間的這種不受歡迎的虛假相關(guān)性表述為從預(yù)訓(xùn)練數(shù)據(jù)集學(xué)習(xí)的“混雜因素”。Zhang等人通過使用結(jié)構(gòu)因果模型(SCM)圖建模,通過后門干預(yù)進(jìn)行硬干預(yù)以消除數(shù)據(jù)集偏倚。在SCM圖中,每個(gè)節(jié)點(diǎn)代表一個(gè)變量,有向邊表示因果影響。例如,如果變量 AA 影響變量 BB,則會(huì)有一條從 AA 到 BB 的有向邊。也就是說他們通過硬干預(yù):也就是主動(dòng)改變模型中某個(gè)變量的值,以觀察其對(duì)其他變量的影響,來得出結(jié)論這個(gè)變量是不是真正的因,然后消除數(shù)據(jù)集偏倚,使得模型泛化能力強(qiáng),數(shù)據(jù)集偏差就指訓(xùn)練數(shù)據(jù)未能準(zhǔn)確代表目標(biāo)人群或模型應(yīng)用時(shí)的條件。這可能導(dǎo)致模型的泛化能力差和預(yù)測(cè)偏差。
Zhang等人的缺點(diǎn):遵循傳統(tǒng)的BERT令牌詞匯表,將每個(gè)實(shí)體視為一組(子)單詞令牌。這忽略了電子商務(wù)中大量的特殊含義實(shí)體,不可避免地使不同的實(shí)體與共享的混淆(子)單詞令牌(諸如“Canada Goose”和“Golden Goose”)相互干擾。假設(shè)我們有兩個(gè)品牌:Canada Goose:一個(gè)知名的冬季服裝品牌,以其高質(zhì)量的羽絨服著稱。Golden Goose:一個(gè)意大利品牌,以其獨(dú)特設(shè)計(jì)的運(yùn)動(dòng)鞋而聞名。在BERT模型中,這兩個(gè)品牌名可能被拆分成以下(子)詞令牌:“Canada Goose” 可能被拆分為 “Canada” 和 “Goose”?!癎olden Goose” 可能被拆分為 “Golden” 和 “Goose”。這兩個(gè)品牌都包含“Goose”這個(gè)子詞令牌。這意味著在模型的詞匯中,“Goose”可能被視為一個(gè)普通的詞匯,而不是特定于某個(gè)品牌的標(biāo)識(shí)。
共享的子詞令牌:這兩個(gè)品牌都包含“Goose”這個(gè)子詞令牌。這意味著在模型的詞匯中,“Goose”可能被視為一個(gè)普通的詞匯,而不是特定于某個(gè)品牌的標(biāo)識(shí)。
當(dāng)模型處理與“Canada Goose”相關(guān)的圖像或文本時(shí),它可能會(huì)錯(cuò)誤地將某些特征與“Golden Goose”關(guān)聯(lián)起來,因?yàn)樗鼈児蚕怼癎oose”這個(gè)子詞令牌。
Meta數(shù)據(jù)的多樣性導(dǎo)致了 動(dòng)機(jī)2:Meta數(shù)據(jù)對(duì)跨模態(tài)檢索的貢獻(xiàn)是不均勻的。具體來說,以前的方法通常將所有元數(shù)據(jù)連接在一起以形成長(zhǎng)句。然而,這種簡(jiǎn)單的解決方案平等地對(duì)待每個(gè)Meta信息是不對(duì)的,有些元數(shù)據(jù)甚至可能對(duì)檢索有害
這是文章的整體框架,相比CLIP他多了兩個(gè)模塊,EA-學(xué)習(xí)者,CE選擇者。
首先我們把CLIP放到因果觀中。最后分類分類就變成了第二個(gè)公式。
首先這個(gè)CE選擇者就是根據(jù)動(dòng)機(jī)2設(shè)計(jì),首先把品牌,季節(jié),類別等這些標(biāo)簽分別作為一個(gè)實(shí)體,我們選擇一部分實(shí)體放入模型中進(jìn)行訓(xùn)練。讓模型自己選擇哪些標(biāo)簽也就是說實(shí)體是有助于分類的。
EA學(xué)習(xí)者模塊旨在明確捕獲每個(gè)個(gè)體實(shí)體信息,而無需擔(dān)心通用和電子商務(wù)領(lǐng)域之間的模糊實(shí)體語義或由于共享(子)單詞標(biāo)記而交織的實(shí)體表示。 也就是針對(duì)之前的動(dòng)機(jī)-1,也就是將之前的那個(gè)公式,給參數(shù)化了。EjI就是圖像的特征,EiD就是文本的特征,然后EiA就是元數(shù)據(jù)、標(biāo)簽的特征,這里比如加拿大鵝兩個(gè)單詞不會(huì)再拆分而是一體的。