中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

網(wǎng)站建設(shè)南陽有沒有免費的推廣網(wǎng)站

網(wǎng)站建設(shè)南陽,有沒有免費的推廣網(wǎng)站,杭州高端模板建站,企業(yè)展廳方案CLIP簡介 CLIP(Contrastive Language–Image Pre-training)是由OpenAI在2021年提出的一種多模態(tài)機器學(xué)習(xí)模型。它旨在通過大量的文本-圖像對進(jìn)行訓(xùn)練,從而學(xué)會理解圖像內(nèi)容,并能將這些內(nèi)容與相應(yīng)的自然語言描述相匹配。CLIP的核心…

CLIP簡介

CLIP(Contrastive Language–Image Pre-training)是由OpenAI在2021年提出的一種多模態(tài)機器學(xué)習(xí)模型。它旨在通過大量的文本-圖像對進(jìn)行訓(xùn)練,從而學(xué)會理解圖像內(nèi)容,并能將這些內(nèi)容與相應(yīng)的自然語言描述相匹配。CLIP的核心思想是利用對比學(xué)習(xí)(contrastive learning),這是一種無監(jiān)督或弱監(jiān)督的學(xué)習(xí)方法,通過最小化正樣本之間的距離同時最大化負(fù)樣本之間的距離來學(xué)習(xí)表示。

  • CLIP的工作原理

  1. 數(shù)據(jù)集:CLIP使用了大規(guī)模的互聯(lián)網(wǎng)抓取數(shù)據(jù),包括圖像和它們相關(guān)的文本描述。這些數(shù)據(jù)集通常非常龐大,包含數(shù)十億的樣本,這有助于模型學(xué)習(xí)到廣泛的概念和關(guān)聯(lián)。

  1. 模型結(jié)構(gòu):CLIP實際上由兩個部分組成——一個用于處理圖像的視覺編碼器和一個用于處理文本的語言編碼器。這兩個編碼器分別將輸入的圖像和文本轉(zhuǎn)換成固定長度的向量表示,這些向量位于同一高維空間中,使得圖像和文本可以在這個空間中直接比較。

  1. 損失函數(shù):CLIP使用了一個特殊的對比損失函數(shù),該函數(shù)鼓勵當(dāng)圖像和文本描述匹配時,它們的向量表示在高維空間中的距離更近;而不匹配的圖像-文本對則距離更遠(yuǎn)。這種機制幫助模型學(xué)會了如何區(qū)分相關(guān)與不相關(guān)的圖像-文本對。

  • 應(yīng)用場景

  • 圖像分類:給定一張圖像,CLIP可以生成多個可能的標(biāo)簽,并根據(jù)與這些標(biāo)簽相關(guān)的文本描述來選擇最合適的標(biāo)簽。

  • 圖像-文本檢索:用戶可以輸入一段文字來搜索與之最匹配的圖像,或者上傳一張圖片來查找相關(guān)的文本描述。

  • 零樣本學(xué)習(xí):由于CLIP是在大量多樣化的數(shù)據(jù)上訓(xùn)練的,因此它能夠執(zhí)行那些它在訓(xùn)練過程中沒有見過的任務(wù),即實現(xiàn)零樣本學(xué)習(xí)或少樣本學(xué)習(xí)。

  • 優(yōu)勢

  • 泛化能力:CLIP能夠在未見過的數(shù)據(jù)和任務(wù)上表現(xiàn)出色,這是因為其訓(xùn)練過程涉及了大量的數(shù)據(jù)和廣泛的任務(wù)。

  • 靈活性:CLIP可以輕松地適應(yīng)多種視覺識別任務(wù),而不需要為每個特定任務(wù)重新訓(xùn)練模型。

  • 挑戰(zhàn)與限制

盡管CLIP展示了強大的性能和靈活性,但它也面臨著一些挑戰(zhàn),比如對于訓(xùn)練數(shù)據(jù)的依賴性較高,可能會反映出數(shù)據(jù)集中存在的偏見;以及模型的計算資源需求較大等。

對上面的對進(jìn)行簡單介紹:

1. 標(biāo)準(zhǔn)圖像模型

  • 聯(lián)合訓(xùn)練:標(biāo)準(zhǔn)圖像模型通常聯(lián)合訓(xùn)練一個圖像特征提取器和一個線性分類器,以預(yù)測某個標(biāo)簽。

    • 圖像特征提取器:負(fù)責(zé)從輸入圖像中提取有用的特征。

    • 線性分類器:基于提取的特征,預(yù)測圖像的標(biāo)簽。

2. CLIP模型

  • 聯(lián)合訓(xùn)練:CLIP模型聯(lián)合訓(xùn)練一個圖像編碼器和一個文本編碼器,以預(yù)測一批(圖像,文本)訓(xùn)練樣例的正確配對。

    • 圖像編碼器:負(fù)責(zé)從輸入圖像中提取特征。

    • 文本編碼器:負(fù)責(zé)從輸入文本中提取特征。

    • 目標(biāo):預(yù)測一批(圖像,文本)對中的正確配對。

3. 測試階段

  • 零樣本分類:在測試階段,CLIP的文本編碼器通過嵌入目標(biāo)數(shù)據(jù)集的類別名稱或描述,合成一個零樣本線性分類器。

    • 文本編碼器:將類別名稱或描述嵌入到一個向量表示中。

    • 零樣本線性分類器:使用這些嵌入向量作為分類器的權(quán)重,對新圖像進(jìn)行分類。

詳細(xì)解釋

1. 標(biāo)準(zhǔn)圖像模型

  • 訓(xùn)練過程

    • 輸入圖像通過圖像特征提取器,生成圖像特征向量。

    • 圖像特征向量通過線性分類器,預(yù)測圖像的標(biāo)簽。

    • 模型通過反向傳播優(yōu)化圖像特征提取器和線性分類器的參數(shù),以最小化預(yù)測標(biāo)簽與真實標(biāo)簽之間的誤差。

2. CLIP模型

  • 訓(xùn)練過程

    • 輸入圖像通過圖像編碼器,生成圖像特征向量。

    • 輸入文本通過文本編碼器,生成文本特征向量。

    • 模型通過優(yōu)化目標(biāo)函數(shù),使正確的(圖像,文本)對的特征向量在聯(lián)合嵌入空間中的相似度最大化,同時使錯誤的配對的相似度最小化。

    • 優(yōu)化過程中,圖像編碼器和文本編碼器的參數(shù)同時更新。

3. 測試階段

  • 零樣本分類

    • 對于目標(biāo)數(shù)據(jù)集的每個類別,使用文本編碼器將類別名稱或描述嵌入到一個向量表示中。

    • 這些嵌入向量可以用作零樣本線性分類器的權(quán)重。

    • 對于一個新的圖像,通過圖像編碼器生成其特征向量,然后計算該特征向量與每個類別嵌入向量的相似度,選擇相似度最高的類別作為預(yù)測結(jié)果。

示例

假設(shè)有一個目標(biāo)數(shù)據(jù)集,包含三個類別:貓、狗和鳥。

  1. 訓(xùn)練階段

    1. 輸入一批(圖像,文本)對,例如(貓的圖像,"貓"的文本)。

    2. 圖像編碼器生成貓的圖像特征向量,文本編碼器生成"貓"的文本特征向量。

    3. 模型優(yōu)化目標(biāo)函數(shù),使貓的圖像特征向量和"貓"的文本特征向量在聯(lián)合嵌入空間中的相似度最大化。

  1. 測試階段

    1. 使用文本編碼器將類別名稱"貓"、"狗"和"鳥"分別嵌入到向量表示中。

    2. 對于一個新的圖像,通過圖像編碼器生成其特征向量。

    3. 計算該特征向量與"貓"、"狗"和"鳥"的嵌入向量的相似度,選擇相似度最高的類別作為預(yù)測結(jié)果。

總結(jié)

  • 標(biāo)準(zhǔn)圖像模型:聯(lián)合訓(xùn)練圖像特征提取器和線性分類器,預(yù)測圖像標(biāo)簽。

  • CLIP模型:聯(lián)合訓(xùn)練圖像編碼器和文本編碼器,預(yù)測(圖像,文本)對的正確配對。

  • 零樣本分類:在測試階段,通過嵌入類別名稱或描述,合成零樣本線性分類器,對新圖像進(jìn)行分類。

0 Abstract

最先進(jìn)的計算機視覺系統(tǒng)通常被訓(xùn)練來預(yù)測一組預(yù)定義的對象類別。這種受限的監(jiān)督形式限制了它們的通用性和可用性,因為要指定任何其他視覺概念,就需要額外的標(biāo)注數(shù)據(jù)

比如,它們可以識別“貓”、“狗”、“汽車”等。但是,這種做法有一個明顯的局限性:如果你想讓系統(tǒng)識別一個新的類別,比如說“獨角獸”,你就必須提供大量帶有“獨角獸”標(biāo)簽的圖片來訓(xùn)練系統(tǒng)。這不僅耗時費力,而且限制了系統(tǒng)的靈活性和廣泛適用性。

直接從原始文本中學(xué)習(xí)關(guān)于圖像的信息是一種很有前途的替代方案,因為它利用了更廣泛的監(jiān)督來源。作者證明了簡單的預(yù)訓(xùn)練任務(wù)——預(yù)測哪張圖像與哪個標(biāo)題匹配——是一種高效且可擴展的方法,可以從頭開始學(xué)習(xí)最先進(jìn)的圖像表示。作者使用從互聯(lián)網(wǎng)收集的4億個(圖像,文本)對的數(shù)據(jù)集來進(jìn)行這項預(yù)訓(xùn)練。預(yù)訓(xùn)練完成后,自然語言被用來引用已學(xué)的視覺概念(或描述新的概念),從而實現(xiàn)模型向下游任務(wù)的零樣本遷移。

作者通過在30多個現(xiàn)有的計算機視覺數(shù)據(jù)集上進(jìn)行基準(zhǔn)測試,研究了這種方法的性能,這些數(shù)據(jù)集涵蓋了OCR、視頻中的動作識別、地理定位以及多種細(xì)粒度的對象分類任務(wù)。模型在大多數(shù)任務(wù)上都能非平凡地遷移,并且經(jīng)常在無需任何特定于數(shù)據(jù)集的訓(xùn)練的情況下,與完全監(jiān)督的基線模型競爭。例如,作者在ImageNet上實現(xiàn)了與原始ResNet-50相同的準(zhǔn)確性,而無需使用它所訓(xùn)練的128萬個訓(xùn)練樣本中的任何一個。

1 Introduction and Motivating Work

作者首先介紹了自然語言處理(NLP)領(lǐng)域中,直接從原始文本中學(xué)習(xí)的預(yù)訓(xùn)練方法如何在過去幾年中徹底改變了該領(lǐng)域。這些方法包括自回歸語言建模和掩蔽語言建模,它們在計算規(guī)模、模型容量和數(shù)據(jù)量方面都有了顯著的增長,從而持續(xù)提升了模型的性能。

接著,作者提到了“文本到文本”的標(biāo)準(zhǔn)化輸入輸出界面的發(fā)展,這種界面允許預(yù)訓(xùn)練模型在沒有特定數(shù)據(jù)集訓(xùn)練的情況下,直接遷移到下游任務(wù)。這意味著這些模型可以處理各種不同的任務(wù),而不需要針對特定數(shù)據(jù)集進(jìn)行定制化訓(xùn)練。GPT-3就是在許多不同的任務(wù)上都展現(xiàn)出了競爭力,而且?guī)缀醪恍枰囟〝?shù)據(jù)集的訓(xùn)練。

然后,作者轉(zhuǎn)向計算機視覺領(lǐng)域,提出了一個問題:既然在NLP領(lǐng)域中,從大規(guī)模網(wǎng)絡(luò)文本中學(xué)習(xí)的方法已經(jīng)取得了顯著的成功,那么這種方法是否也能在計算機視覺領(lǐng)域中取得類似的突破呢?作者指出,盡管在計算機視覺領(lǐng)域中,通常的做法仍然是在像ImageNet這樣的眾包數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,但這些方法可能限制了模型的通用性和適用性,因為它們需要額外的標(biāo)記數(shù)據(jù)來識別新的或不同的視覺概念。

為了探索這個問題,作者介紹了CLIP模型,這是一種通過大規(guī)模的互聯(lián)網(wǎng)上的圖像和文本對進(jìn)行預(yù)訓(xùn)練,直接從自然語言描述中學(xué)習(xí)視覺表示的方法。CLIP模型的核心是一個簡單的預(yù)訓(xùn)練任務(wù):預(yù)測給定圖像與哪個文本描述相匹配。這種方法不僅能夠?qū)W習(xí)到強大的視覺表示,而且還能夠通過自然語言的描述來實現(xiàn)對下游任務(wù)的零樣本遷移。

作者通過對30多個不同的計算機視覺數(shù)據(jù)集進(jìn)行基準(zhǔn)測試,來評估CLIP模型的性能。這些數(shù)據(jù)集涵蓋了多種任務(wù),如光學(xué)字符識別(OCR)、視頻中的動作識別、地理定位以及各種細(xì)粒度的物體分類。測試結(jié)果表明,CLIP模型在大多數(shù)任務(wù)上都能夠?qū)崿F(xiàn)非平凡的遷移,并且在很多情況下,它的表現(xiàn)與完全監(jiān)督的基線模型相當(dāng),而完全監(jiān)督的基線模型通常需要特定數(shù)據(jù)集的訓(xùn)練。

最后,作者強調(diào)了CLIP模型的潛力,并承諾將發(fā)布他們的代碼和預(yù)訓(xùn)練模型權(quán)重,以便社區(qū)可以進(jìn)一步探索和利用這一模型。

2 Approach

2.1 Natural Language Supervision

作者深入探討了利用自然語言作為監(jiān)督信號來訓(xùn)練視覺模型的潛力和實踐。這一節(jié)的關(guān)鍵在于理解自然語言如何作為一個豐富的、可擴展的資源來指導(dǎo)模型學(xué)習(xí),以及它如何與傳統(tǒng)的監(jiān)督方法相比較。

  • 核心介紹:

  1. 自然語言作為監(jiān)督信號: 作者首先強調(diào),自然語言提供了一種獨特的方式來監(jiān)督和指導(dǎo)模型的學(xué)習(xí)。與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,自然語言監(jiān)督不需要精確的標(biāo)注,而是利用語言的描述性來提供關(guān)于圖像的上下文信息。

自然語言是描述視覺世界的一種非常通用的方式。通過利用描述圖像的文本,模型能夠?qū)W習(xí)到更廣泛和多樣化的視覺概念。

  1. 易于擴展: 自然語言監(jiān)督的一個顯著優(yōu)勢是它的可擴展性。因為互聯(lián)網(wǎng)上有大量的文本數(shù)據(jù),所以可以從這些文本中學(xué)習(xí)到豐富的視覺概念,而不需要依賴于有限的、人工標(biāo)注的數(shù)據(jù)集。

與需要特定格式標(biāo)注的數(shù)據(jù)集不同,自然語言監(jiān)督可以直接利用互聯(lián)網(wǎng)上現(xiàn)有的文本,這意味著可以更容易地獲取大規(guī)模的訓(xùn)練數(shù)據(jù)。

  1. 與語言的連接: 通過自然語言學(xué)習(xí)到的視覺表示不僅能夠識別圖像,還能夠與語言建立聯(lián)系。這意味著模型可以直接使用自然語言來描述新的視覺概念,或者對已知概念進(jìn)行描述,從而實現(xiàn)零樣本遷移。

使用自然語言監(jiān)督的模型可以更容易地適應(yīng)新的任務(wù)和數(shù)據(jù)集,因為它們已經(jīng)學(xué)會了如何從文本描述中提取信息。

  1. 對比現(xiàn)有工作: 作者提到了以往的研究,這些研究通過自然語言來改善圖像檢索和分類任務(wù)。這些工作表明,自然語言可以作為一種有效的監(jiān)督信號,幫助模型學(xué)習(xí)更好的視覺表示。

作者提出,通過自然語言監(jiān)督學(xué)習(xí)到的模型不僅僅是學(xué)習(xí)表示,它們還學(xué)習(xí)了如何執(zhí)行任務(wù)。這意味著模型可以直接在新的、未見過的數(shù)據(jù)集上執(zhí)行任務(wù),而不需要額外的訓(xùn)練。

2.2 Creating a Sufficiently Large Dataset

作者討論了為了訓(xùn)練先進(jìn)的計算機視覺模型需要一個龐大且多樣的數(shù)據(jù)集,特別是當(dāng)使用自然語言作為監(jiān)督信號時。

  • 核心介紹:

  1. 數(shù)據(jù)集規(guī)模的重要性: 作者指出,為了有效地利用自然語言進(jìn)行圖像表示學(xué)習(xí),需要一個包含大量圖像和相關(guān)文本的數(shù)據(jù)集。這是因為模型需要從廣泛的實例中學(xué)習(xí),以理解和泛化各種視覺概念。

  1. 現(xiàn)有數(shù)據(jù)集的局限性: 現(xiàn)有的一些數(shù)據(jù)集,如MS-COCO和Visual Genome,雖然質(zhì)量很高,但規(guī)模有限,每組數(shù)據(jù)只有大約10萬張訓(xùn)練圖片。相比之下,其他計算機視覺系統(tǒng)可能在數(shù)十億的Instagram圖片上進(jìn)行訓(xùn)練。此外,YFCC100M雖然有1億張照片,但很多圖片的元數(shù)據(jù)是稀疏的,質(zhì)量參差不齊。

  1. 構(gòu)建新數(shù)據(jù)集: 為了克服這些限制,作者創(chuàng)建了一個新的數(shù)據(jù)集,包含4億個(圖像,文本)對。這些數(shù)據(jù)集從互聯(lián)網(wǎng)上公開可用的多種來源收集而來。為了盡可能覆蓋廣泛的視覺概念,他們在構(gòu)建過程中尋找包含一組50萬個查詢詞之一的(圖像,文本)對。

  • 具體做了哪些工作:

    • 數(shù)據(jù)集的多樣性: 為了確保數(shù)據(jù)集能夠代表各種各樣的視覺概念,作者采用了廣泛的查詢詞集合,包括常見的英文單詞和短語,以及Wikipedia中搜索量較高的所有文章的名稱。

    • 平衡數(shù)據(jù)集: 為了確保數(shù)據(jù)集中每個查詢詞都有充分的例子,他們限制了每個查詢詞可以包含的(圖像,文本)對的數(shù)量,以避免數(shù)據(jù)集中的某些概念過于集中。

    • 數(shù)據(jù)集大小: 作者認(rèn)為,為了充分利用自然語言監(jiān)督的潛力,需要一個比現(xiàn)有數(shù)據(jù)集大得多的數(shù)據(jù)集。他們通過構(gòu)建一個包含4億個實例的數(shù)據(jù)集來實現(xiàn)這一目標(biāo)。

    • 數(shù)據(jù)集的構(gòu)建過程: 數(shù)據(jù)集的構(gòu)建過程涉及到從互聯(lián)網(wǎng)上抓取圖像和文本,然后使用一組查詢詞來過濾和選擇與這些查詢詞相關(guān)的(圖像,文本)對。

    • WebImageText數(shù)據(jù)集: 作者將這個新創(chuàng)建的數(shù)據(jù)集稱為WebImageText(WIT),它旨在為模型提供足夠的語言監(jiān)督,以便在多種視覺任務(wù)上進(jìn)行有效的預(yù)訓(xùn)練。

2.3. Selecting an Efficient Pre-Training Method

在現(xiàn)代計算機視覺系統(tǒng)中,預(yù)訓(xùn)練模型通常需要大量的計算資源。例如,Mahajan等人(2018年)訓(xùn)練他們的ResNeXt101-32x48d模型花費了19個GPU年,而Xie等人(2020年)訓(xùn)練他們的Noisy Student EfficientNet-L2模型則需要33個TPUv3核心年。

考慮到這兩個系統(tǒng)都是為了預(yù)測1000個ImageNet類別而訓(xùn)練的,從自然語言中學(xué)習(xí)開放集視覺概念的任務(wù)似乎非常艱巨。在作者努力的過程中,作者發(fā)現(xiàn)訓(xùn)練效率是成功擴展自然語言監(jiān)督的關(guān)鍵,作者根據(jù)這一指標(biāo)選擇了最終的預(yù)訓(xùn)練方法。

作者最初的方法與VirTex類似,聯(lián)合訓(xùn)練一個圖像CNN和一個文本Transformer來預(yù)測圖像的標(biāo)題。然而,作者遇到了擴展這種方法的困難。在圖2中,作者展示了一個6300萬參數(shù)的Transformer語言模型,它已經(jīng)使用了比ResNet-50圖像編碼器多一倍的計算資源,但學(xué)習(xí)識別ImageNet類別的速度卻比預(yù)測相同文本的詞袋編碼的簡單基線慢三倍。

這兩種方法都有一個共同點:它們試圖預(yù)測每個圖像伴隨的確切文本。由于與圖像共同出現(xiàn)的描述、評論和相關(guān)文本的多樣性,這是一個困難的任務(wù)。最近在圖像的對比表示學(xué)習(xí)中的工作發(fā)現(xiàn),對比目標(biāo)可以比等效的預(yù)測目標(biāo)學(xué)習(xí)更好的表示(Tian等人,2019年)。其他工作發(fā)現(xiàn),盡管可以學(xué)習(xí)高質(zhì)量的圖像表示的圖像生成模型,但它們需要比具有相同性能的對比模型多一個數(shù)量級的計算資源(Chen等人,2020a)。鑒于這些發(fā)現(xiàn),作者探索了一個系統(tǒng),通過解決可能更容易的代理任務(wù)來訓(xùn)練:只預(yù)測哪段文本與哪張圖像配對,而不是文本的確切單詞。從詞袋編碼基線開始,作者將預(yù)測目標(biāo)換成了對比目標(biāo),并觀察到零樣本遷移到ImageNet的效率提高了4倍。

給定一個包含N個(圖像,文本)對的批次,CLIP被訓(xùn)練為預(yù)測在批次中可能的N×N個(圖像,文本)配對中哪些實際上是發(fā)生的。為了做到這一點,CLIP通過聯(lián)合訓(xùn)練一個圖像編碼器和文本編碼器來學(xué)習(xí)一個多模態(tài)嵌入空間,最大化批次中N個真實對的圖像和文本嵌入的余弦相似性,同時最小化N^2 - N個錯誤配對的嵌入的余弦相似性。作者優(yōu)化了這些相似分?jǐn)?shù)上的對稱交叉熵?fù)p失。在圖3中,作者包含了CLIP實現(xiàn)核心的偽代碼。據(jù)作者所知,這種批次構(gòu)建技術(shù)和目標(biāo)最初是在深度度量學(xué)習(xí)領(lǐng)域作為多類N對損失(Sohn,2016年)引入的,后來被Oord等人(2018年)作為InfoNCE損失推廣,并最近被Zhang等人(2020年)在醫(yī)學(xué)成像領(lǐng)域的對比(文本,圖像)表示學(xué)習(xí)中適應(yīng)。

由于作者的預(yù)訓(xùn)練數(shù)據(jù)集的龐大規(guī)模,過擬合并不是一個主要問題,與Zhang等人(2020年)的實現(xiàn)相比,訓(xùn)練CLIP的細(xì)節(jié)被簡化了。作者從頭開始訓(xùn)練CLIP,沒有使用ImageNet權(quán)重初始化圖像編碼器或使用預(yù)訓(xùn)練權(quán)重初始化文本編碼器。作者沒有使用非線性投影層,這是Bachman等人(2019年)引入的,并在Chen等人(2020b)中推廣的。相反,作者只使用一個線性投影將每個編碼器的表示映射到多模態(tài)嵌入空間。作者沒有注意到兩個版本之間的訓(xùn)練效率差異,并推測非線性投影可能與當(dāng)前僅圖像的自監(jiān)督表示學(xué)習(xí)方法的細(xì)節(jié)共同適應(yīng)。作者還將Zhang等人(2020年)中的文本轉(zhuǎn)換函數(shù)tu移除,該函數(shù)從文本中均勻隨機采樣一個句子,因為CLIP預(yù)訓(xùn)練數(shù)據(jù)集中的許多(圖像,文本)對只是單個句子。作者還簡化了圖像轉(zhuǎn)換函數(shù)tv。在訓(xùn)練期間,作者只使用了調(diào)整大小的圖像的隨機正方形裁剪作為數(shù)據(jù)增強。最后,控制softmax中l(wèi)ogits范圍的溫度參數(shù)τ在訓(xùn)練期間作為一個對數(shù)參數(shù)化的乘法標(biāo)量直接優(yōu)化,以避免訓(xùn)練不穩(wěn)定。

  1. 文本轉(zhuǎn)換函數(shù) t_u 的移除

    1. 在Zhang等人(2020年)的研究中,他們使用了一種文本轉(zhuǎn)換函數(shù) t_u ,該函數(shù)的作用是從一段文本中均勻隨機地采樣出一個句子。這種采樣方法適用于那些由多個句子組成的文本,可以為模型提供多樣化的文本輸入。

    2. 然而,在CLIP模型的預(yù)訓(xùn)練數(shù)據(jù)集中,許多(圖像,文本)對只包含單個句子的描述。在這種情況下,使用均勻隨機采樣的句子可能會導(dǎo)致數(shù)據(jù)的浪費,因為每個圖像只有一個相關(guān)的句子描述,沒有必要進(jìn)行采樣。

    3. 因此,作者決定移除這個文本轉(zhuǎn)換函數(shù) t_u ,直接使用完整的單個句子作為模型的輸入。這樣做可以更有效地利用數(shù)據(jù)集中的文本信息,并且簡化了模型的訓(xùn)練過程。

  1. 圖像轉(zhuǎn)換函數(shù) t_v 的簡化

    1. 圖像轉(zhuǎn)換函數(shù) t_v 通常用于對輸入的圖像進(jìn)行一定的變換,以增強模型的泛化能力。這些變換可能包括隨機裁剪、旋轉(zhuǎn)、顏色調(diào)整等。

    2. 在CLIP模型中,作者簡化了圖像轉(zhuǎn)換函數(shù),只使用了隨機裁剪這一種數(shù)據(jù)增強技術(shù)。這種簡化可能是基于實驗結(jié)果,發(fā)現(xiàn)過多的圖像變換并不總是能帶來性能的提升,或者是為了降低計算復(fù)雜度和訓(xùn)練時間。

    3. 通過簡化圖像轉(zhuǎn)換函數(shù),模型可以更專注于學(xué)習(xí)圖像和文本之間的關(guān)聯(lián)性,而不是過度適應(yīng)于特定的圖像變換。

核心結(jié)論:

  • 預(yù)訓(xùn)練的挑戰(zhàn): 作者首先指出,為了學(xué)習(xí)開放集的視覺概念,需要大量的計算資源,這使得任務(wù)顯得非常艱巨。

  • 初始方法的局限性: 他們嘗試了聯(lián)合訓(xùn)練圖像CNN和文本Transformer的方法,但這種方法難以擴展到大規(guī)模數(shù)據(jù)集。

  • 對比學(xué)習(xí)的引入: 作者發(fā)現(xiàn),使用對比學(xué)習(xí)的目標(biāo)來預(yù)測圖像和文本對的匹配,比預(yù)測文本的確切內(nèi)容更為高效。

  • 簡化模型架構(gòu): 為了提高訓(xùn)練效率,作者簡化了模型架構(gòu),去掉了非線性投影層,并采用了線性投影和基本的數(shù)據(jù)增強策略。

  • 訓(xùn)練細(xì)節(jié): CLIP模型從頭開始訓(xùn)練,沒有使用預(yù)訓(xùn)練權(quán)重。他們還優(yōu)化了溫度參數(shù),這是一個控制softmax輸出的關(guān)鍵超參數(shù)。

  • 實驗結(jié)果: 通過實驗,作者發(fā)現(xiàn)對比學(xué)習(xí)的方法在零樣本遷移學(xué)習(xí)中更為高效,這證明了他們選擇的預(yù)訓(xùn)練方法是有效的。

2.4. Choosing and Scaling a Model

在選擇和擴展模型時,作者考慮了兩種不同的圖像編碼器架構(gòu)。首先,作者使用ResNet-50作為圖像編碼器的基礎(chǔ)架構(gòu),因為它被廣泛采用并且已經(jīng)證明了其性能。作者對原始版本進(jìn)行了幾項修改,包括使用He等人(2019年)提出的ResNetD改進(jìn)和Zhang(2019年)提出的抗鋸齒rect-2模糊池化,并且作者用注意力池化機制替換了全局平均池化層。注意力池化實現(xiàn)為單層“Transformer風(fēng)格”的多頭QKV注意力,其中查詢是基于圖像的全局平均池化表示進(jìn)行條件化的。對于第二種架構(gòu),作者嘗試了最近引入的Vision Transformer(ViT)(Dosovitskiy等人,2020年)。作者緊密跟隨他們的實現(xiàn),只做了微小的修改,在Transformer之前添加了額外的層歸一化到組合的補丁和位置嵌入中,并使用了稍微不同的初始化方案。

"抗鋸齒rect-2模糊池化"(Anti-aliased rectified linear unit v2 pooling,簡稱Anti-aliased ReLU or AA ReLU)

  1. 抗鋸齒(Anti-aliasing)

    1. 抗鋸齒是一種用于減少圖像或信號中高頻部分的混疊效應(yīng)的技術(shù)。在圖像處理中,混疊效應(yīng)通常表現(xiàn)為鋸齒狀的邊緣或不清晰的紋理??逛忼X技術(shù)通過平滑這些邊緣來提高圖像質(zhì)量。

  1. ReLU(Rectified Linear Unit)

    1. ReLU是一種常用的激活函數(shù),定義為 f(x) = max(0, x) 。這意味著任何負(fù)值都會被置為零,而正值則保持不變。ReLU激活函數(shù)因其計算簡單和有效的非線性特性而被廣泛使用。

  1. 抗鋸齒ReLU(Anti-aliased ReLU)

    1. 抗鋸齒ReLU是一種改進(jìn)的激活函數(shù),它在應(yīng)用ReLU之前,先對輸入進(jìn)行平滑處理,以減少激活函數(shù)可能引入的高頻噪聲。這種平滑處理有助于減少信號中的高頻成分,從而減少混疊效應(yīng)。

  1. 抗鋸齒rect-2模糊池化(Anti-aliased rect-2 pooling)

    1. 這種池化技術(shù)結(jié)合了抗鋸齒技術(shù)和ReLU激活函數(shù)的改進(jìn)版本。在進(jìn)行池化操作(如最大池化或平均池化)之前,先對輸入特征圖進(jìn)行平滑處理,以減少由于池化操作可能引起的高頻信息丟失。這種方法有助于保留更多的圖像細(xì)節(jié),同時減少混疊效應(yīng)。

在深度學(xué)習(xí)模型中,尤其是在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,這種技術(shù)可以用于提高模型對圖像細(xì)節(jié)的捕捉能力,從而提高模型的性能。通過在池化操作前應(yīng)用抗鋸齒技術(shù),模型能夠更好地處理圖像中的高頻信息,這對于圖像識別和分類任務(wù)尤其重要。

文本編碼器是一個Transformer(Vaswani等人,2017年),其架構(gòu)修改如Radford等人(2019年)所述。作者使用了一個63M參數(shù)的12層512寬度模型,有8個注意力頭作為基礎(chǔ)大小。Transformer操作在文本的 lowercase byte pair encoding(BPE)表示上,詞匯量大小為49,152(Sennrich等人,2015年)。為了計算效率,最大序列長度被限制在76。文本序列用[SOS]和[EOS]標(biāo)記包圍,并且在[EOS]標(biāo)記處的Transformer的最高層的激活被視為文本的特征表示,該表示被層歸一化,然后線性投影到多模態(tài)嵌入空間。在文本編碼器中使用了掩蔽自注意力,以保留用預(yù)訓(xùn)練語言模型初始化或添加語言建模作為輔助目標(biāo)的能力,盡管探索這一點作為未來工作。

盡管以前的計算機視覺研究通常通過單獨增加模型的寬度(Mahajan等人,2018年)或深度(He等人,2016年)來擴展模型,但對于ResNet圖像編碼器,作者采用了Tan和Le(2019年)的方法,他們發(fā)現(xiàn)將額外的計算資源分配到寬度、深度和分辨率上,比只分配到模型的一個維度上表現(xiàn)得更好。雖然Tan和Le(2019年)為他們EfficientNet架構(gòu)調(diào)整了分配給每個維度的計算資源比例,但作者使用了簡單的基線,將額外的計算資源平均分配到增加模型的寬度、深度和分辨率上。對于文本編碼器,作者只按ResNet寬度增加的比例擴展模型的寬度,并且根本不擴展深度,因為作者發(fā)現(xiàn)CLIP的性能對文本編碼器的容量不太敏感

2.5. Training

作者訓(xùn)練了一系列的5個ResNet和3個Vision Transformer模型。

對于ResNets,作者訓(xùn)練了一個ResNet-50、一個ResNet-101,然后是另外3個遵循EfficientNet風(fēng)格的模型擴展,它們分別使用了大約4倍、16倍和64倍于ResNet-50的計算資源。它們分別被標(biāo)記為RN50x4、RN50x16和RN50x64。

對于Vision Transformers,作者訓(xùn)練了一個ViT-B/32、一個ViT-B/16和一個ViT-L/14。作者訓(xùn)練所有模型32個epoch。

作者使用了Adam優(yōu)化器(Kingma & Ba, 2014),并對所有非增益或偏置的權(quán)重應(yīng)用了分離權(quán)重衰減正則化(Loshchilov & Hutter, 2017),并使用余弦調(diào)度(Loshchilov & Hutter, 2016)衰減學(xué)習(xí)率。

初始超參數(shù)是通過在基線ResNet50模型上進(jìn)行1個epoch訓(xùn)練的網(wǎng)格搜索、隨機搜索和手動調(diào)整相結(jié)合的方式設(shè)置的。然后由于計算限制,對更大的模型進(jìn)行了啟發(fā)式調(diào)整。

可學(xué)習(xí)的_temperature參數(shù)τ初始化為(Wu等人,2018)的0.07等效值,并進(jìn)行了剪輯,以防止對數(shù)幾率放大超過100倍,作者發(fā)現(xiàn)這是防止訓(xùn)練不穩(wěn)定所必需的。作者使用了一個非常大的minibatch大小32,768。

使用了混合精度(Micikevicius等人,2017)來加速訓(xùn)練并節(jié)省內(nèi)存。為了節(jié)省額外的內(nèi)存,使用了梯度檢查點(Griewank & Walther, 2000; Chen等人,2016)、半精度Adam統(tǒng)計數(shù)據(jù)(Dhariwal等人,2020)和半精度隨機四舍五入的文本編碼器權(quán)重。計算嵌入相似度的計算也被分割,每個GPU只計算其本地批次所需的嵌入對的子集。

最大的ResNet模型,RN50x64,在592個V100 GPU上訓(xùn)練了18天,而最大的Vision Transformer在256個V100 GPU上訓(xùn)練了12天。對于ViT-L/14,作者還在一個更高的336像素分辨率下預(yù)訓(xùn)練了一個額外的epoch以提升性能,類似于FixRes(Touvron等人,2019)。作者稱這個模型為ViT-L/14@336px。除非另有說明,否則本文中報告的所有結(jié)果作為“CLIP”使用的都是這個模型,作者發(fā)現(xiàn)它的表現(xiàn)最好。

核心總結(jié):

  • 模型訓(xùn)練:作者訓(xùn)練了多個不同規(guī)模的ResNet和Vision Transformer模型,以探索不同架構(gòu)和規(guī)模對模型性能的影響。

  • 優(yōu)化器和正則化:使用了Adam優(yōu)化器,并應(yīng)用了分離權(quán)重衰減正則化來防止過擬合,同時使用余弦調(diào)度來調(diào)整學(xué)習(xí)率。

  • 超參數(shù)調(diào)整:初始超參數(shù)是通過網(wǎng)格搜索和隨機搜索確定的,然后根據(jù)模型規(guī)模進(jìn)行調(diào)整。

  • 溫度參數(shù):可學(xué)習(xí)的溫度參數(shù)τ用于控制softmax輸出的尺度,以防止訓(xùn)練過程中的不穩(wěn)定。

  • 混合精度和內(nèi)存優(yōu)化:使用混合精度和梯度檢查點等技術(shù)來加速訓(xùn)練并節(jié)省內(nèi)存。

  • 模型規(guī)模和訓(xùn)練時間:最大的ResNet模型和Vision Transformer模型分別在大量GPU上訓(xùn)練了18天和12天,顯示了大規(guī)模模型訓(xùn)練的計算密集性。

3 Experiments

3.1. Zero-Shot Transfer

  • 3.1.1. MOTIVATION

主要討論了零樣本學(xué)習(xí)在計算機視覺領(lǐng)域的應(yīng)用,特別是在評估機器學(xué)習(xí)模型的任務(wù)學(xué)習(xí)能力方面。具體來說,它指出了零樣本學(xué)習(xí)不僅限于圖像分類任務(wù)中對未見過的物體類別的識別,而是擴展到了更廣泛的未見數(shù)據(jù)集的泛化能力研究。這種泛化能力可以通過零樣本遷移來衡量,即模型在沒有針對特定任務(wù)進(jìn)行訓(xùn)練的情況下,如何執(zhí)行該任務(wù)。

文中提到了幾個關(guān)鍵點:

1. 零樣本遷移:不同于傳統(tǒng)的無監(jiān)督學(xué)習(xí),零樣本遷移關(guān)注的是機器學(xué)習(xí)系統(tǒng)在未見任務(wù)上的表現(xiàn),這包括了對新數(shù)據(jù)分布的適應(yīng)性以及跨領(lǐng)域的泛化能力。

2. 數(shù)據(jù)集的作用:許多流行的計算機視覺數(shù)據(jù)集(如CIFAR-10)主要用于指導(dǎo)通用圖像分類方法的發(fā)展,而不是專門用來衡量特定任務(wù)上的表現(xiàn)。因此,零樣本遷移在這種數(shù)據(jù)集上的評估更多反映的是模型對于分布變化的魯棒性。

3. Visual N-Grams的研究:這項工作首次以特定的方式研究了現(xiàn)有圖像分類數(shù)據(jù)集上的零樣本遷移,它通過學(xué)習(xí)大量視覺n-gram的參數(shù),并利用這些n-gram來預(yù)測圖像所屬的類別,為后續(xù)研究提供了參考。

4. 自然語言處理領(lǐng)域的啟示:在NLP領(lǐng)域,任務(wù)學(xué)習(xí)作為預(yù)訓(xùn)練模型的一個“意外副作用”被首次觀察到,這表明即使是在沒有直接針對特定任務(wù)進(jìn)行訓(xùn)練的情況下,模型也能展現(xiàn)出一定的任務(wù)解決能力。例如,GPT-1和GPT-2的研究顯示了預(yù)訓(xùn)練模型在零樣本遷移任務(wù)中的有效性,這進(jìn)一步促進(jìn)了對任務(wù)學(xué)習(xí)能力的研究。

零樣本遷移作為評估機器學(xué)習(xí)模型泛化能力和任務(wù)學(xué)習(xí)能力的重要工具,尤其是在面對未見數(shù)據(jù)或任務(wù)時。同時,它也指出了當(dāng)前數(shù)據(jù)集設(shè)計與零樣本遷移研究之間的差距,以及未來研究可以探索的方向。

  • 3.1.2. USING CLIP FOR ZERO-SHOT TRANSFER

  1. 預(yù)訓(xùn)練任務(wù):CLIP模型在訓(xùn)練階段學(xué)會了判斷一張圖片和一段文字是否匹配。換句話說,它學(xué)會了理解圖片的內(nèi)容,并將其與正確的文字描述配對。

  2. 零樣本分類:在實際使用中,作者希望CLIP能夠?qū)λ鼜奈匆娺^的圖片進(jìn)行分類。為了做到這一點,作者會利用它在預(yù)訓(xùn)練階段學(xué)到的能力。具體來說,作者會給出一系列類別名稱,CLIP需要判斷每張圖片最有可能屬于哪個類別。

  3. 特征嵌入:CLIP通過兩個編碼器來處理圖片和文字。圖像編碼器分析圖片內(nèi)容,而文本編碼器處理類別名稱的文字描述。這兩個編碼器會輸出兩種特征向量,分別代表圖片和文字。

  4. 余弦相似性和溫度參數(shù):CLIP通過計算這兩種特征向量的余弦相似性來評估它們是否匹配。這個相似度分?jǐn)?shù)會通過一個叫做“溫度參數(shù)”(τ)的標(biāo)量進(jìn)行調(diào)整,以控制預(yù)測的自信度。然后,這些調(diào)整后的分?jǐn)?shù)會通過softmax函數(shù)轉(zhuǎn)換成概率分布,這樣作者就可以知道圖片屬于每個類別的概率。

  5. 多項邏輯回歸分類器:在這個過程中,CLIP使用了一個特殊的分類器,它沒有偏置項,輸入和權(quán)重都經(jīng)過了L2規(guī)范化,并且使用了溫度縮放。這種分類器可以幫助CLIP在零樣本的情況下做出預(yù)測。

  6. 超網(wǎng)絡(luò):這里的文本編碼器被比喻為一個“超網(wǎng)絡(luò)”,因為它能夠根據(jù)類別的文本描述動態(tài)生成分類器的權(quán)重。

  7. 預(yù)訓(xùn)練的優(yōu)化:在預(yù)訓(xùn)練階段,CLIP不斷地優(yōu)化其性能,就好像它在處理一個包含32,768個類別的計算機視覺數(shù)據(jù)集一樣。

  8. 緩存零樣本分類器:為了提高效率,一旦CLIP為某個數(shù)據(jù)集生成了一個零樣本分類器,這個分類器就會被保存下來,并在之后對同一數(shù)據(jù)集的所有預(yù)測中重復(fù)使用。這樣,生成分類器的成本就可以分?jǐn)偟剿蓄A(yù)測中,提高了整體的效率。

在零樣本評估中,CLIP需要對它在預(yù)訓(xùn)練階段從未見過的類別進(jìn)行分類。這是通過使用文本編碼器來實現(xiàn)的,文本編碼器能夠根據(jù)類別的自然語言描述來生成一個分類器。

總的來說,這段內(nèi)容解釋了CLIP如何利用其在預(yù)訓(xùn)練階段學(xué)到的知識,通過比較圖片和文字的相似性,來對它從未見過的圖片進(jìn)行分類。這種方法允許CLIP在沒有直接訓(xùn)練數(shù)據(jù)的情況下,對新的類別進(jìn)行識別和分類。

  • 3.1.3. INITIAL COMPARISON TO VISUAL N-GRAMS

在表1中,作者將Visual N-Grams與CLIP進(jìn)行了比較。最好的CLIP模型將ImageNet上的準(zhǔn)確率從概念驗證的11.5%提高到76.2%,并且與原始ResNet-50的性能相匹配,盡管沒有使用該數(shù)據(jù)集可用的128萬個眾包標(biāo)記訓(xùn)練示例。

此外,CLIP模型的top-5準(zhǔn)確率明顯高于top-1,該模型具有95%的top-5準(zhǔn)確率,與Inception-V4相匹配。在零樣本設(shè)置中匹配強大、完全監(jiān)督基線的能力表明,CLIP是朝著靈活和實用的零樣本計算機視覺分類器邁出的重要一步

如上所述,與Visual N-Grams的比較旨在為CLIP的性能提供上下文,不應(yīng)解釋為CLIP和Visual N-Grams之間的直接方法比較,因為兩個系統(tǒng)之間的許多性能相關(guān)差異未得到控制。 例如,作者在一個大10倍的數(shù)據(jù)集上進(jìn)行訓(xùn)練,使用一個視覺模型,每個預(yù)測需要近100倍的計算量,可能使用了超過1000倍的訓(xùn)練計算量,并使用了一個基于Transformer的模型,該模型在Visual N-Grams發(fā)布時還不存在。

作為更接近的比較,作者在Visual N-Grams訓(xùn)練的同一個YFCC100M數(shù)據(jù)集上訓(xùn)練了一個CLIP ResNet-50,發(fā)現(xiàn)它在V100 GPU的一天內(nèi)與他們報告的ImageNet性能相匹配。 這個基線也是從頭開始訓(xùn)練的,而不是像在Visual N-Grams中那樣從預(yù)訓(xùn)練的ImageNet權(quán)重初始化

  • 3.1.4. PROMPT ENGINEERING AND ENSEMBLING

探討了在基于自然語言的零樣本遷移學(xué)習(xí)中,標(biāo)準(zhǔn)圖像分類數(shù)據(jù)集存在的挑戰(zhàn)及解決方案,特別是如何克服類別標(biāo)簽帶來的多義性問題,以提升模型的性能。

挑戰(zhàn)

  1. 多義性問題:在很多圖像分類數(shù)據(jù)集中,類別標(biāo)簽可能具有多重含義,導(dǎo)致模型在缺乏上下文的情況下難以準(zhǔn)確理解標(biāo)簽的真實意圖。例如,“crane”既可以指建筑工地上的起重機,也可以指鳥類中的鶴;“boxer”既可指拳擊手,也可指一種狗的品種。這種多義性增加了零樣本學(xué)習(xí)的難度。

  2. 類別標(biāo)簽的隨機性:數(shù)據(jù)集中的類別標(biāo)簽往往是隨機選擇的,沒有特別考慮到零樣本遷移的需求,這意味著模型可能無法獲得足夠的信息來正確分類未見過的數(shù)據(jù)。

解決方案

  1. 提示模板為了解決多義性問題,作者發(fā)現(xiàn)使用特定的提示模板非常有幫助,比如“一張照片中的{標(biāo)簽}”。這種模板明確了文本描述的是圖像的內(nèi)容,有助于減少歧義,提高模型的準(zhǔn)確性。在ImageNet數(shù)據(jù)集上,僅使用這一簡單的提示模板就能使準(zhǔn)確率提高1.3%。

  2. 提示工程:類似于自然語言處理領(lǐng)域中的“提示工程”概念,通過為每個任務(wù)定制更具體的提示文本,可以顯著提高零樣本學(xué)習(xí)的性能。例如:

    1. 在細(xì)粒度圖像分類任務(wù)中,明確指定類別(如“一只白色的暹羅貓”)。

    2. 在OCR任務(wù)中,將需要識別的文本或數(shù)字用引號括起來(如“這張圖片中有一個數(shù)字‘5’”)。

    3. 在衛(wèi)星圖像分類任務(wù)中,使用“一張衛(wèi)星照片中的{標(biāo)簽}”這樣的提示。

  3. 多提示集成:除了使用單一的最佳提示外,作者還嘗試了通過集成多個不同提示下的零樣本分類器來進(jìn)一步提高性能。這些分類器在嵌入空間而非概率空間上進(jìn)行集成,可以有效攤銷生成這些分類器的計算成本。例如,在ImageNet數(shù)據(jù)集上,通過集成80個不同的上下文提示,性能額外提高了3.5%。

性能提升

  • 綜合效果:結(jié)合提示工程和多提示集成的方法,可以在多個數(shù)據(jù)集上顯著提升零樣本學(xué)習(xí)的性能。在ImageNet數(shù)據(jù)集上,這些技術(shù)共同將準(zhǔn)確率提高了近5%。

結(jié)論

通過精心設(shè)計的提示模板和提示工程,以及多提示集成的技術(shù),可以有效克服標(biāo)準(zhǔn)圖像分類數(shù)據(jù)集中類別標(biāo)簽多義性和隨機性帶來的挑戰(zhàn),顯著提升基于自然語言的零樣本遷移學(xué)習(xí)的性能。這些方法不僅在ImageNet等大型數(shù)據(jù)集上表現(xiàn)出色,也在其他類型的圖像分類任務(wù)中顯示出強大的泛化能力。

  • 3.1.5. ANALYSIS OF ZERO-SHOT CLIP PERFORMANCE

在計算機視覺領(lǐng)域,任務(wù)無關(guān)的零樣本分類器研究相對較少。CLIP(Contrastive Language–Image Pre-training)模型提供了一個獨特的機會,可以深入了解這類模型的性能。細(xì)探討了CLIP模型在零樣本遷移學(xué)習(xí)任務(wù)中的表現(xiàn),并將其與其他方法進(jìn)行了比較。

實驗設(shè)置

  • 基線模型:作者將CLIP的零樣本分類器與一個簡單的基線模型進(jìn)行了比較,即在標(biāo)準(zhǔn)ResNet-50特征上擬合一個完全監(jiān)督的、規(guī)范化的邏輯回歸分類器。

  • 數(shù)據(jù)集:實驗涵蓋了27個不同的數(shù)據(jù)集,包括細(xì)粒度分類任務(wù)、通用對象分類任務(wù)、視頻動作識別任務(wù)等。具體數(shù)據(jù)集和設(shè)置的細(xì)節(jié)見附錄A。

主要發(fā)現(xiàn)

  1. 整體表現(xiàn)

    1. 零樣本CLIP vs. 基線:在27個數(shù)據(jù)集中,零樣本CLIP在16個數(shù)據(jù)集上表現(xiàn)優(yōu)于基線模型。這表明CLIP在許多任務(wù)上具有較好的零樣本泛化能力。

    2. 細(xì)粒度分類任務(wù):在細(xì)粒度分類任務(wù)上,零樣本CLIP的表現(xiàn)差異較大。例如,在斯坦福汽車和Food101數(shù)據(jù)集上,CLIP比基線模型高出20%以上;而在Flowers102和FGVCAircraft數(shù)據(jù)集上,CLIP的表現(xiàn)低于基線模型10%以上。作者認(rèn)為這些差異主要是由于WIT(Web Images and Text)和ImageNet之間的監(jiān)督量不同。

  1. 通用對象分類任務(wù)

    1. 在ImageNet、CIFAR10/100、STL10和PascalVOC2007等通用對象分類數(shù)據(jù)集上,零樣本CLIP的表現(xiàn)相對穩(wěn)定,略優(yōu)于基線模型。

    2. 特別是在STL10數(shù)據(jù)集上,CLIP達(dá)到了99.3%的準(zhǔn)確率,這是在不使用任何訓(xùn)練樣本的情況下取得的新最佳表現(xiàn)。

作者推測這是因為自然語言為涉及動詞的視覺概念提供了更廣泛的監(jiān)督,相比之下ImageNet中以名詞為中心的對象監(jiān)督。

  1. 視頻動作識別任務(wù)

    1. 在Kinetics700和UCF101數(shù)據(jù)集上,零樣本CLIP顯著優(yōu)于基線模型,分別高出14.5%和7.7%。作者推測這是因為自然語言為涉及動詞的視覺概念提供了更廣泛的監(jiān)督,而ImageNet主要關(guān)注名詞。

  1. 專業(yè)任務(wù)

    1. 在一些專業(yè)的、復(fù)雜的或抽象的任務(wù)上,如衛(wèi)星圖像分類(EuroSAT和RESISC45)、淋巴結(jié)腫瘤檢測(PatchCamelyon)、合成場景中的對象計數(shù)(CLEVRCounts)、自動駕駛相關(guān)任務(wù)(GTSRB和KITTI Distance),零樣本CLIP的表現(xiàn)較差。這表明CLIP在這些更復(fù)雜任務(wù)上的能力有限。

零樣本與少樣本比較

  • 與少樣本邏輯回歸的比較:作者還將零樣本CLIP與少樣本邏輯回歸進(jìn)行了比較。盡管直觀上預(yù)期零樣本表現(xiàn)不如少樣本,但實驗結(jié)果顯示,零樣本CLIP的性能與4樣本邏輯回歸相當(dāng)。這可能是因為零樣本分類器通過自然語言直接生成,而少樣本分類器需要從訓(xùn)練樣本中推斷視覺概念。

這段話的核心在于解釋傳統(tǒng)監(jiān)督學(xué)習(xí)和零樣本學(xué)習(xí)在處理視覺概念時的不同方法及其優(yōu)缺點。

傳統(tǒng)監(jiān)督學(xué)習(xí)

  1. 間接推斷概念

    1. 在傳統(tǒng)的監(jiān)督學(xué)習(xí)中,模型需要從有限的訓(xùn)練樣本中學(xué)習(xí)和推斷出概念。例如,如果訓(xùn)練集包含許多帶有標(biāo)簽“貓”的貓圖片,模型需要從這些圖片中學(xué)習(xí)“貓”的特征。

    2. 這種學(xué)習(xí)方式是間接的,因為模型并沒有直接被告知“貓”是什么,而是通過大量的例子逐漸形成對“貓”的理解。

  2. 無上下文的基于示例的學(xué)習(xí)

    1. 傳統(tǒng)監(jiān)督學(xué)習(xí)通常依賴于具體的訓(xùn)練樣本,這些樣本本身可能包含多個不同的視覺概念。例如,一張標(biāo)有“貓”的圖片中可能不僅有貓,還有家具、背景等其他元素。

    2. 由于每個樣本可能包含多個概念,模型在學(xué)習(xí)時需要做出假設(shè),這些假設(shè)可能不總是正確的。例如,模型可能會錯誤地將背景或家具的特征與“貓”聯(lián)系起來。

  3. 多假設(shè)一致性

    1. 當(dāng)訓(xùn)練樣本數(shù)量較少時(如在一個樣本的情況下),模型面臨的挑戰(zhàn)更大。因為單個樣本可能包含多個不同的視覺概念,模型很難確定哪個概念是正確的。

    2. 例如,如果只有一個標(biāo)有“貓”的樣本,模型可能會假設(shè)“貓”是圖片中的主要對象,但也可能錯誤地將背景或其他元素視為“貓”的特征。

  4. 視覺線索和啟發(fā)式方法

    1. 盡管一個有能力的學(xué)習(xí)者(如人類)可以利用視覺線索和啟發(fā)式方法來推斷正確的概念(例如,假設(shè)被演示的概念是圖像中的主要對象),但這種能力在機器學(xué)習(xí)模型中并不總是可靠。

    2. 例如,模型可能會錯誤地將圖像中的次要對象或背景視為主要對象,從而導(dǎo)致學(xué)習(xí)錯誤的概念。

零樣本學(xué)習(xí)

  1. 直接指定概念

    1. 零樣本學(xué)習(xí)通過自然語言直接指定概念。例如,CLIP模型可以直接使用文本描述“貓”來生成相應(yīng)的視覺特征,而不需要依賴大量的訓(xùn)練樣本。

    2. 這種方法減少了對訓(xùn)練樣本的依賴,避免了從有限樣本中推斷概念的不確定性。

  2. 減少假設(shè)的一致性問題

    1. 由于零樣本學(xué)習(xí)直接使用自然語言描述,模型可以更準(zhǔn)確地理解概念,減少了因樣本多樣性帶來的假設(shè)一致性問題。

    2. 例如,CLIP模型可以理解“貓”是指一種特定的動物,而不會錯誤地將背景或家具的特征與“貓”聯(lián)系起來。

總結(jié)

  • 傳統(tǒng)監(jiān)督學(xué)習(xí):依賴于訓(xùn)練樣本,需要從樣本中推斷概念,容易受到樣本多樣性和假設(shè)一致性問題的影響。

  • 零樣本學(xué)習(xí):通過自然語言直接指定概念,減少了對訓(xùn)練樣本的依賴,提高了概念理解的準(zhǔn)確性。

零樣本&少樣本如何結(jié)合?

1. 結(jié)合零樣本和少樣本學(xué)習(xí)

  • 零樣本學(xué)習(xí):零樣本學(xué)習(xí)是指模型在沒有見過特定類別的訓(xùn)練數(shù)據(jù)的情況下,能夠?qū)@些類別進(jìn)行分類。CLIP模型通過自然語言描述來生成類別特征,從而實現(xiàn)零樣本分類。

  • 少樣本學(xué)習(xí):少樣本學(xué)習(xí)是指模型在只有少量標(biāo)注數(shù)據(jù)的情況下進(jìn)行學(xué)習(xí)。這種情況下,模型需要高效地利用這些少量樣本,以提高分類性能。

2. 使用零樣本分類器作為先驗

  • 潛在方法:一種潛在的方法是將零樣本分類器的權(quán)重作為少樣本分類器的先驗。這意味著在少樣本學(xué)習(xí)過程中,初始權(quán)重可以基于零樣本分類器的權(quán)重,這樣可以利用零樣本分類器已經(jīng)學(xué)到的知識。

  • L2懲罰:為了防止過擬合,可以向生成的權(quán)重添加L2懲罰(即正則化項)。L2懲罰通過懲罰較大的權(quán)重值,鼓勵模型權(quán)重保持較小,從而減少過擬合的風(fēng)險。

3. 當(dāng)前方法的局限性

  • 超參數(shù)優(yōu)化問題:在實際應(yīng)用中,超參數(shù)優(yōu)化(如選擇合適的正則化強度)通常會選擇一個很大的L2懲罰值。這導(dǎo)致生成的少樣本分類器的權(quán)重幾乎完全由零樣本分類器的權(quán)重決定,幾乎沒有從少量標(biāo)注數(shù)據(jù)中學(xué)習(xí)到新的信息。

  • “僅僅”是零樣本分類器:最終生成的少樣本分類器與零樣本分類器非常相似,沒有充分利用少量標(biāo)注數(shù)據(jù)提供的額外信息。

4. 未來研究方向

  • 結(jié)合零樣本遷移的強度與少樣本學(xué)習(xí)的靈活性:當(dāng)前的方法雖然利用了零樣本分類器的知識,但在少樣本學(xué)習(xí)中沒有充分發(fā)揮少量標(biāo)注數(shù)據(jù)的潛力。未來的研究應(yīng)該探索更好的方法,能夠在利用零樣本分類器的強遷移能力的同時,有效利用少量標(biāo)注數(shù)據(jù)的靈活性。

  • 有希望的方向:這可能包括開發(fā)新的正則化技術(shù)、優(yōu)化算法或其他方法,使得少樣本分類器能夠在零樣本分類器的基礎(chǔ)上,進(jìn)一步從少量標(biāo)注數(shù)據(jù)中學(xué)習(xí)到更有用的信息。

總結(jié)

雖然將零樣本分類器的權(quán)重作為少樣本分類器的先驗是一種有潛力的方法,但當(dāng)前的方法存在局限性,特別是超參數(shù)優(yōu)化傾向于選擇過大的正則化強度,導(dǎo)致少樣本分類器幾乎等同于零樣本分類器。未來的研究應(yīng)探索更好的方法,將零樣本遷移的強度與少樣本學(xué)習(xí)的靈活性結(jié)合起來,以充分利用少量標(biāo)注數(shù)據(jù),提高模型的性能。

  • 數(shù)據(jù)效率作者估計了邏輯回歸分類器需要多少標(biāo)記樣本才能匹配零樣本CLIP的性能。結(jié)果表明,零樣本遷移的效率因數(shù)據(jù)集而異,從每類不到1個樣本到184個樣本不等。在ImageNet上,零樣本CLIP的表現(xiàn)與16樣本線性分類器相當(dāng)。

結(jié)論

  • 零樣本CLIP的優(yōu)勢:CLIP在多種任務(wù)上表現(xiàn)出色,尤其是在通用對象分類和視頻動作識別任務(wù)上。

  • 改進(jìn)空間:在一些專業(yè)和復(fù)雜的任務(wù)上,CLIP的表現(xiàn)仍有待提高。這為未來的研究提供了方向,尤其是如何結(jié)合零樣本遷移的強度與少樣本學(xué)習(xí)的靈活性。

  • 數(shù)據(jù)效率:零樣本CLIP在某些數(shù)據(jù)集上展現(xiàn)了較高的數(shù)據(jù)效率,但在其他數(shù)據(jù)集上仍需大量標(biāo)記樣本才能達(dá)到相同性能。

如果作者假設(shè)評估數(shù)據(jù)集足夠大,以至于在它們上訓(xùn)練的線性分類器的參數(shù)被很好地估計,那么,因為CLIP的零樣本分類器也是一個線性分類器,完全監(jiān)督分類器的性能大致設(shè)定了零樣本遷移能夠達(dá)到的上限。

在圖8中,作者比較了CLIP的零樣本性能與跨數(shù)據(jù)集的完全監(jiān)督線性分類器的性能。虛線y = x代表了一種“最優(yōu)”的零樣本分類器,它與其完全監(jiān)督的等價物表現(xiàn)相匹配。對于大多數(shù)數(shù)據(jù)集,零樣本分類器的性能仍然比完全監(jiān)督分類器低10%到25%,這表明提高CLIP的任務(wù)學(xué)習(xí)和零樣本遷移能力仍有相當(dāng)大的提升空間。

零樣本性能與完全監(jiān)督性能之間存在0.82的正相關(guān)性(p值<10^-6),這表明CLIP在將底層表示和任務(wù)學(xué)習(xí)連接到零樣本遷移方面相對一致。

這表明CLIP在將底層表示和任務(wù)學(xué)習(xí)連接到零樣本遷移方面相對一致。換句話說,CLIP在那些完全監(jiān)督性能較高的任務(wù)上,零樣本性能也往往較高。

然而,零樣本CLIP只在5個數(shù)據(jù)集上接近完全監(jiān)督的性能:STL10、CIFAR10、Food101、OxfordPets和Caltech101。在這5個數(shù)據(jù)集上,零樣本準(zhǔn)確率和完全監(jiān)督準(zhǔn)確率都超過90%。這表明CLIP在底層表示質(zhì)量高的任務(wù)上可能更有效地進(jìn)行零樣本遷移

預(yù)測零樣本性能作為完全監(jiān)督性能函數(shù)的線性回歸模型估計,對于完全監(jiān)督性能的每一個百分點提高,零樣本性能提高1.28%。然而,95%的置信區(qū)間仍然包括小于1的值(0.93-1.79)。

雖然線性回歸模型顯示完全監(jiān)督性能每提高1個百分點,零樣本性能提高1.28%,但置信區(qū)間包括小于1的值,這表明這種關(guān)系雖然顯著,但并不是絕對的線性關(guān)系。

如果作者假設(shè)評估數(shù)據(jù)集足夠大,以至于在它們上訓(xùn)練的線性分類器的參數(shù)被很好地估計,那么,因為CLIP的零樣本分類器也是一個線性分類器,完全監(jiān)督分類器的性能大致設(shè)定了零樣本遷移能夠達(dá)到的上限。在圖8中,作者比較了CLIP的零樣本性能與跨數(shù)據(jù)集的完全監(jiān)督線性分類器的性能。虛線y = x代表了一種“最優(yōu)”的零樣本分類器,它與其完全監(jiān)督的等價物表現(xiàn)相匹配。對于大多數(shù)數(shù)據(jù)集,零樣本分類器的性能仍然比完全監(jiān)督分類器低10%到25%,這表明提高CLIP的任務(wù)學(xué)習(xí)和零樣本遷移能力仍有相當(dāng)大的提升空間。

零樣本性能與完全監(jiān)督性能之間存在0.82的正相關(guān)性(p值<10^-6),這表明CLIP在將底層表示和任務(wù)學(xué)習(xí)連接到零樣本遷移方面相對一致。然而,零樣本CLIP只在5個數(shù)據(jù)集上接近完全監(jiān)督的性能:STL10、CIFAR10、Food101、OxfordPets和Caltech101。在這5個數(shù)據(jù)集上,零樣本準(zhǔn)確率和完全監(jiān)督準(zhǔn)確率都超過90%。這表明CLIP在底層表示質(zhì)量高的任務(wù)上可能更有效地進(jìn)行零樣本遷移。預(yù)測零樣本性能作為完全監(jiān)督性能函數(shù)的線性回歸模型估計,對于完全監(jiān)督性能的每一個百分點提高,零樣本性能提高1.28%。然而,95%的置信區(qū)間仍然包括小于1的值(0.93-1.79)。

在過去幾年中,對深度學(xué)習(xí)系統(tǒng)的實證研究已經(jīng)記錄了性能是可以預(yù)測的,作為訓(xùn)練計算量和數(shù)據(jù)集大小等重要量函數(shù)的表現(xiàn)(Hestness等人,2017年;Kaplan等人,2020年)。到目前為止,GPT系列模型已經(jīng)在訓(xùn)練計算量增加1000倍的情況下展示了零樣本性能的持續(xù)改進(jìn)。

在圖9中,作者檢查CLIP的零樣本性能是否遵循類似的擴展模式。作者在36個不同數(shù)據(jù)集上對5個ResNet CLIP模型進(jìn)行了39次評估,并繪制了平均錯誤率,發(fā)現(xiàn)CLIP在模型計算量增加44倍的情況下也遵循類似的對數(shù)線性擴展趨勢。雖然總體趨勢是平滑的,作者發(fā)現(xiàn)個別評估的性能可能更加嘈雜。作者不確定這是由于個別子任務(wù)訓(xùn)練運行之間的高方差(如D’Amour等人,2020年所記錄)掩蓋了穩(wěn)步改善的趨勢,還是由于某些任務(wù)上的性能實際上隨著計算量的增加是非單調(diào)的。

3.2. Representation Learning

表示學(xué)習(xí)是指模型從數(shù)據(jù)中自動提取特征的能力,這些特征有助于后續(xù)的任務(wù),如分類或預(yù)測。這與任務(wù)學(xué)習(xí)能力不同,后者關(guān)注的是模型在特定任務(wù)上的表現(xiàn)。

  • 評估表示質(zhì)量的方法

    • 常見的評估方法是在模型提取的特征上訓(xùn)練一個線性分類器,并在多個數(shù)據(jù)集上測試其性能。這種方法簡單且直觀,可以快速評估特征的泛化能力。

    • 另一種方法是對模型進(jìn)行端到端的微調(diào),這種方法更靈活,可以根據(jù)每個數(shù)據(jù)集的特點調(diào)整模型,從而提高性能。

  • 為什么選擇線性分類器評估

    • 盡管微調(diào)可以提高模型在特定任務(wù)上的性能,但它可能會掩蓋模型在預(yù)訓(xùn)練階段學(xué)習(xí)通用和穩(wěn)健特征的不足。線性分類器由于其簡單性,更能暴露出這些不足,為模型開發(fā)提供更清晰的反饋。

    • 對于CLIP模型,使用線性分類器進(jìn)行評估還有一個額外好處,即它與零樣本分類器的方法非常相似,這使得可以直接比較和分析模型在零樣本遷移任務(wù)上的表現(xiàn)。

  • 評估的復(fù)雜性和成本

    • 在大規(guī)模的實證研究中,對多個模型進(jìn)行微調(diào)需要調(diào)整大量的超參數(shù),這不僅增加了設(shè)計的復(fù)雜性,也增加了計算成本。相比之下,線性分類器的評估過程更加標(biāo)準(zhǔn)化,需要調(diào)整的超參數(shù)更少,更容易實現(xiàn)和評估。

  • 評估的公平性和比較

    • 作者的目標(biāo)是將CLIP模型與現(xiàn)有的多種模型在多個任務(wù)上進(jìn)行比較。由于微調(diào)會為每個數(shù)據(jù)集定制模型,這使得不同模型之間的比較變得不公平。而線性分類器提供了一個更公平的比較平臺,因為它對所有模型都是相同的。

為了評估CLIP模型的性能,作者首先使用了一組包含12個數(shù)據(jù)集的評估套件,這組套件之前由Kornblith等人在2019年提出。

  • 比較了不同規(guī)模的CLIP模型(如ResNet-50和ResNet-101)與其他在ImageNet數(shù)據(jù)集上訓(xùn)練的ResNet模型(如BiT-S和BiT-M)的性能。

  • 發(fā)現(xiàn)小型CLIP模型雖然超過了在ImageNet-1K上訓(xùn)練的ResNet模型,但不如在ImageNet-21K上訓(xùn)練的ResNet模型(BiT-M)。

  • CLIP模型也不如計算需求相似的EfficientNet家族模型。

  • 模型擴展性

    • 當(dāng)模型規(guī)模增加時,CLIP模型的性能提升顯著。特別是最大的CLIP模型(ResNet-50x64)在總體得分和計算效率上略高于之前表現(xiàn)最好的模型(Noisy Student EfficientNet-L2)。

  • 視覺變換器的優(yōu)勢

    • CLIP視覺變換器(ViT)比CLIP ResNets的計算效率大約高出3倍,這意味著在相同的計算資源下,視覺變換器可以達(dá)到更高的性能。

  • 微調(diào)的影響

    • 作者還發(fā)現(xiàn),對CLIP模型進(jìn)行微調(diào)(特別是ViT-L/14模型,在更高分辨率的圖像上進(jìn)行額外的訓(xùn)練)可以進(jìn)一步提高模型的平均性能,超過了現(xiàn)有最好模型2.6%。

CLIP模型被證明能夠?qū)W習(xí)執(zhí)行多種不同的視覺任務(wù),這些任務(wù)超出了傳統(tǒng)計算機視覺模型的能力。這包括地理定位(確定照片的拍攝地點)、光學(xué)字符識別(識別圖像中的文字)、面部情感識別(判斷面部表情所表達(dá)的情感)和動作識別(識別視頻中的動作)。

  • 現(xiàn)有評估套件的局限性

    • 作者指出,Kornblith等人(2019年)的研究中使用的評估套件可能存在選擇偏差,因為它主要關(guān)注與ImageNet數(shù)據(jù)集重疊的任務(wù)。ImageNet是一個大型的圖像識別數(shù)據(jù)集,主要包含物體識別任務(wù)。

  • 更廣泛的評估套件

    • 為了提供一個更全面的模型性能評估,作者擴展了評估套件,包括了27個不同的數(shù)據(jù)集。這個新的評估套件不僅包括了上述的多種視覺任務(wù),還涵蓋了更廣泛的應(yīng)用場景,如德國交通標(biāo)志識別基準(zhǔn)和其他從VTAB(視覺任務(wù)適應(yīng)性基準(zhǔn))適應(yīng)過來的數(shù)據(jù)集

  • 評估套件的組成

    • 新的評估套件包含了多個數(shù)據(jù)集,這些數(shù)據(jù)集代表了不同的視覺識別任務(wù),使得評估結(jié)果能夠更全面地反映模型的性能。

  • 評估結(jié)果的意義

    • 通過在更廣泛的任務(wù)和數(shù)據(jù)集上評估CLIP模型,作者能夠更準(zhǔn)確地衡量模型的表示學(xué)習(xí)能力,以及它在多種實際應(yīng)用中的適用性和泛化能力。

作者發(fā)現(xiàn),CLIP模型在多個數(shù)據(jù)集上的表現(xiàn)優(yōu)于其他評估的系統(tǒng)。特別是,他們訓(xùn)練的最大模型(ResNet-50x64)在總體得分和計算效率上略微超過了之前表現(xiàn)最好的模型(Noisy Student EfficientNet-L2)。

研究還發(fā)現(xiàn),自監(jiān)督系統(tǒng)在更廣泛的評估套件上表現(xiàn)更好。例如,SimCLRv2在Kornblith等人(2019年)的12個數(shù)據(jù)集上的平均表現(xiàn)雖然低于BiT-M,但在更廣泛的27個數(shù)據(jù)集評估套件上,SimCLRv2的表現(xiàn)超過了BiT-M。

  • 任務(wù)多樣性和覆蓋范圍

    • 作者強調(diào)了擴大任務(wù)多樣性和覆蓋范圍的重要性,以便更全面地理解系統(tǒng)的通用性能。他們認(rèn)為,進(jìn)一步的評估工作,如VTAB(視覺任務(wù)適應(yīng)性基準(zhǔn)),將有助于這一目標(biāo)。

CLIP模型在多個數(shù)據(jù)集上展示了其優(yōu)越的計算效率,這表明它能夠處理各種不同的視覺任務(wù),而不僅僅是在特定類型的數(shù)據(jù)集上表現(xiàn)良好。

  • 自監(jiān)督系統(tǒng)的優(yōu)勢

    • 自監(jiān)督學(xué)習(xí)系統(tǒng),如CLIP,能夠在沒有大量標(biāo)注數(shù)據(jù)的情況下學(xué)習(xí)有效的特征表示。這在更廣泛的評估套件上表現(xiàn)得尤為明顯,例如SimCLRv2在更廣泛的數(shù)據(jù)集上的表現(xiàn)超過了BiT-M模型。

  • 任務(wù)多樣性和覆蓋范圍的重要性

    • 為了全面評估一個模型的性能,需要在多種不同的任務(wù)和數(shù)據(jù)集上進(jìn)行測試。這有助于發(fā)現(xiàn)模型在特定領(lǐng)域可能存在的局限性,從而推動模型的進(jìn)一步改進(jìn)。

  • CLIP在細(xì)粒度識別任務(wù)上的表現(xiàn)

    • CLIP在細(xì)粒度的汽車和交通標(biāo)志識別任務(wù)上表現(xiàn)突出,這可能是因為它能夠捕捉到更豐富的特征表示,從而提高了識別的準(zhǔn)確性。

  • ImageNet數(shù)據(jù)集的局限性

    • ImageNet數(shù)據(jù)集可能過于狹窄,因為它對交通和街道標(biāo)志只有一個單一的標(biāo)簽,這可能導(dǎo)致模型在這些類別上的表示不夠細(xì)致。CLIP在GTSRB數(shù)據(jù)集上的改進(jìn)表明,更多樣化的訓(xùn)練數(shù)據(jù)可能有助于提高模型在細(xì)粒度任務(wù)上的性能。

  • EfficientNet模型的表現(xiàn)

    • EfficientNet模型在它所訓(xùn)練的ImageNet數(shù)據(jù)集上表現(xiàn)最好,這可能是因為它專門針對這個數(shù)據(jù)集進(jìn)行了優(yōu)化。此外,EfficientNet在低分辨率數(shù)據(jù)集上的表現(xiàn)也略好于CLIP,這可能與CLIP缺乏基于尺度的數(shù)據(jù)增強有關(guān)。

  • 數(shù)據(jù)增強的重要性

    • 數(shù)據(jù)增強是一種提高模型泛化能力的技術(shù),它通過創(chuàng)建圖像的變體來模擬訓(xùn)練數(shù)據(jù)的多樣性。CLIP可能需要更多的數(shù)據(jù)增強策略來提高其在不同分辨率和條件下的性能。

3.3. Robustness to Natural Distribution Shift

在2015年,有一項宣布稱深度學(xué)習(xí)模型在ImageNet測試集上的表現(xiàn)超過了人類(He et al., 2015)。然而,隨后幾年的研究發(fā)現(xiàn),這些模型仍然會犯很多簡單的錯誤(Dodge & Karam, 2017; Geirhos et al., 2018; Alcorn et al., 2019),并且在新的基準(zhǔn)測試中,這些系統(tǒng)的性能通常遠(yuǎn)低于它們在ImageNet上的準(zhǔn)確率和人類的準(zhǔn)確率(Recht et al., 2019; Barbu et al., 2019)。這種差異的原因是什么?已經(jīng)有人提出了各種想法并進(jìn)行了研究(Ilyas et al., 2019; Geirhos et al., 2020)。一個常見的解釋主題是,深度學(xué)習(xí)模型非常擅長發(fā)現(xiàn)在訓(xùn)練數(shù)據(jù)集中成立的相關(guān)性和模式,從而提高在分布內(nèi)的性能。然而,這些相關(guān)性和模式實際上是虛假的,并不適用于其他分布,導(dǎo)致在其他數(shù)據(jù)集上的性能大幅下降。

這種差異可能由幾個因素解釋。首先,深度學(xué)習(xí)模型可能過度擬合了訓(xùn)練數(shù)據(jù)中的特定特征,而沒有捕捉到更廣泛的、泛化的模式。其次,這些模型可能對訓(xùn)練數(shù)據(jù)中的噪聲和異常值過于敏感,導(dǎo)致在面對新的、未見過的數(shù)據(jù)時表現(xiàn)不佳。此外,ImageNet數(shù)據(jù)集本身可能存在偏差,導(dǎo)致模型在特定類型的圖像上表現(xiàn)良好,但在其他類型的圖像上則不盡如人意。

為了解決這個問題,研究人員正在探索各種方法來提高模型的泛化能力和魯棒性。這包括使用更多樣化的訓(xùn)練數(shù)據(jù)、引入正則化技術(shù)來減少過擬合、以及開發(fā)新的模型架構(gòu)來更好地捕捉數(shù)據(jù)的潛在結(jié)構(gòu)。此外,一些作者也在探索如何通過對抗性訓(xùn)練來提高模型對輸入變化的魯棒性,例如通過向訓(xùn)練數(shù)據(jù)中添加微小的擾動來迫使模型學(xué)習(xí)更加魯棒的特征表示。

總的來說,盡管深度學(xué)習(xí)模型在某些任務(wù)上取得了令人印象深刻的成果,但它們在面對分布外的數(shù)據(jù)時仍然存在挑戰(zhàn)。這提示了未來研究需要更多地關(guān)注模型的泛化能力和魯棒性,而不僅僅是在特定數(shù)據(jù)集上的性能

值得注意的是,大多數(shù)這些研究都僅限于在ImageNet上訓(xùn)練的模型。這可能過于泛化,忽略了這些初步發(fā)現(xiàn)。這些模型的失敗在多大程度上可以歸因于深度學(xué)習(xí)本身、ImageNet數(shù)據(jù)集,或者兩者的某種結(jié)合?CLIP模型提供了一個從不同角度研究這個問題的機會。CLIP通過自然語言監(jiān)督在非常大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并且能夠?qū)崿F(xiàn)高零樣本性能。這表明,通過自然語言監(jiān)督訓(xùn)練的模型可能在面對分布偏移時具有更高的魯棒性,因為它們沒有被訓(xùn)練數(shù)據(jù)集中的特定分布所限制。

在Taori等人2020年的研究中,他們專注于分析和理解在ImageNet數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型在面對自然分布偏移時的性能變化。這里的“自然分布偏移”指的是模型在實際應(yīng)用中可能遇到的與訓(xùn)練數(shù)據(jù)分布不同的數(shù)據(jù)。這項研究的重要性在于,盡管模型在ImageNet測試集上可能表現(xiàn)得很好,但在真實世界的數(shù)據(jù)上可能會遇到性能顯著下降的問題。

  1. 自然分布偏移的數(shù)據(jù)集

    1. 作者選擇了7個不同的數(shù)據(jù)集來模擬自然分布偏移,這些數(shù)據(jù)集包含了從各種來源收集的新圖像,例如ImageNetV2、ImageNet Sketch等。這些數(shù)據(jù)集與合成分布偏移(如通過添加噪聲或?qū)剐怨粜薷牡膱D像)不同,因為它們更接近現(xiàn)實世界中的分布變化。

  2. 模型性能的下降

    1. 研究發(fā)現(xiàn),即使是在ImageNet上表現(xiàn)良好的模型,如ResNet-101,在這些自然分布偏移的數(shù)據(jù)集上也會犯更多的錯誤,其性能顯著下降。這表明模型對于訓(xùn)練時未見過的分布變化可能非常敏感。

  3. 魯棒性的度量

    1. 作者提出了有效魯棒性和相對魯棒性的概念,以區(qū)分模型在分布偏移下的性能提升。有效魯棒性指的是模型在分布偏移下的性能提升超過了基于其在原始分布上的性能所能預(yù)測的提升。相對魯棒性則是指模型在分布偏移下的性能有任何提升。

  4. 提高魯棒性的方法

    1. 研究表明,盡管有一些技術(shù)可以提高模型在合成分布偏移下的性能,但這些技術(shù)往往不能有效地提高模型在自然分布偏移下的性能。作者發(fā)現(xiàn),使用更大和更多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練是提高模型魯棒性的主要方法,盡管這還遠(yuǎn)遠(yuǎn)不足以彌補性能差距。

  5. 對未來研究的啟示

    1. 這項研究強調(diào)了在真實世界的分布變化下提高模型魯棒性是一個開放的研究問題,需要更多的研究來開發(fā)能夠在各種分布變化下保持穩(wěn)定性能的模型。

自然分布偏移指的是模型在實際應(yīng)用中遇到的數(shù)據(jù)分析,可能與訓(xùn)練時使用的數(shù)據(jù)分布存在差異。這種差異可能是由于數(shù)據(jù)收集、處理或環(huán)境變化等因素引起的。當(dāng)這些在ImageNet數(shù)據(jù)集上訓(xùn)練的模型被應(yīng)用于其他自然分布的數(shù)據(jù)集時,它們的性能(以準(zhǔn)確率衡量)通常會顯著下降。這意味著模型對于訓(xùn)練數(shù)據(jù)集中未包含的分布變化不夠魯棒。

有效魯棒性(Effective Robustness)和相對魯棒性(Relative Robustness)是評估機器學(xué)習(xí)模型在面對數(shù)據(jù)分布變化時性能保持能力的兩個概念。以下是對這兩個概念的舉例說明:

  1. 有效魯棒性(Effective Robustness)

    1. 假設(shè)作者有一個在ImageNet數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型,該模型在ImageNet驗證集上的準(zhǔn)確率為90%。現(xiàn)在,作者希望評估這個模型在一個新的、自然分布偏移的數(shù)據(jù)集上的性能,比如ImageNet-V2,這個數(shù)據(jù)集包含了與ImageNet不同的圖像分布。如果作者發(fā)現(xiàn)模型在ImageNet-V2上的準(zhǔn)確率為80%,那么這個模型的有效魯棒性就是它在新分布上的性能與作者根據(jù)原始分布性能預(yù)測的新分布性能之間的差異。如果根據(jù)以往的研究,作者預(yù)測模型在類似分布偏移上的準(zhǔn)確率應(yīng)該下降到70%,那么有效魯棒性就是80% - 70% = 10%。這表明模型在面對新的分布時,保持了比預(yù)期更好的性能。

  1. 相對魯棒性(Relative Robustness)

    1. 相對魯棒性關(guān)注的是模型在分布偏移數(shù)據(jù)集上的性能是否有所提高,而不考慮這種提高是否超過了基于原始分布性能的預(yù)期。繼續(xù)上面的例子,如果模型在ImageNet-V2上的準(zhǔn)確率為80%,即使這個準(zhǔn)確率低于它在原始ImageNet分布上的90%,但只要它在ImageNet-V2上的表現(xiàn)比一個隨機猜測的基線模型(比如準(zhǔn)確率為50%)要好,作者就可以說這個模型具有相對魯棒性。在這種情況下,相對魯棒性是80% - 50% = 30%。

為了評估模型在這些自然分布偏移數(shù)據(jù)集上的性能,作者計算了模型在所有7個這類數(shù)據(jù)集上的平均準(zhǔn)確率。這提供了一個綜合指標(biāo),用于衡量模型在多樣化分布上的泛化能力。ImageNet驗證集是模型在訓(xùn)練過程中用于評估性能的一個數(shù)據(jù)集。這個數(shù)據(jù)集的準(zhǔn)確率通常被視為模型性能的一個基準(zhǔn)。然而,當(dāng)模型應(yīng)用于其他數(shù)據(jù)集時,其準(zhǔn)確率往往低于這個基準(zhǔn)。

Youtube-BB和ImageNet-Vid是兩個具有不同評估設(shè)置的數(shù)據(jù)集。例如,它們可能包括不同的測試條件或難度級別。為了公平比較,作者取這兩個數(shù)據(jù)集在不同設(shè)置下的準(zhǔn)確率的平均值。

在Taori等人2020年的研究中,他們對ImageNet模型在自然分布偏移下的魯棒性進(jìn)行了全面研究。他們發(fā)現(xiàn),與ImageNet驗證集相比,ResNet-101模型在自然分布偏移上的錯誤率是其5倍。盡管如此,他們發(fā)現(xiàn)在分布偏移下的準(zhǔn)確率與ImageNet準(zhǔn)確率可以預(yù)測地提高,并且與logit轉(zhuǎn)換后的準(zhǔn)確率呈線性關(guān)系?;谶@一發(fā)現(xiàn),Taori等人提出了在魯棒性分析中應(yīng)該區(qū)分有效魯棒性和相對魯棒性。有效魯棒性衡量的是在分布偏移下的準(zhǔn)確率提升,這一提升超過了基于已有的分布內(nèi)和分布外準(zhǔn)確率關(guān)系所預(yù)測的提升。相對魯棒性則捕捉了在分布外準(zhǔn)確率的任何提升。Taori等人認(rèn)為,魯棒性技術(shù)應(yīng)該旨在同時提高有效魯棒性和相對魯棒性。

雖然這些結(jié)果表明零樣本模型可以更加魯棒,但它們并不一定意味著在ImageNet上進(jìn)行監(jiān)督學(xué)習(xí)會導(dǎo)致魯棒性差距。CLIP的其他細(xì)節(jié),比如其龐大且多樣化的預(yù)訓(xùn)練數(shù)據(jù)集或使用自然語言監(jiān)督,可能也會導(dǎo)致無論它們是零樣本還是微調(diào)的模型都更加魯棒。為了開始縮小這一差距,作者還測量了CLIP模型在適應(yīng)ImageNet分布后的性能變化,這是通過一個L2正則化的邏輯回歸分類器完成的,該分類器擬合了ImageNet訓(xùn)練集上CLIP特征。作者在圖14中可視化了從零樣本分類器的性能變化。盡管將CLIP適應(yīng)ImageNet分布將其ImageNet準(zhǔn)確率提高了9.2%,達(dá)到85.4%,與Mahajan等人(2018年)的2018 SOTA準(zhǔn)確率相當(dāng),但在分布偏移下的平均準(zhǔn)確率略有下降。

1. 準(zhǔn)確率提升與分布偏移:

- 作者觀察到,盡管在ImageNet數(shù)據(jù)集上,通過監(jiān)督學(xué)習(xí)的方式對模型(如CLIP)進(jìn)行微調(diào)可以使模型的準(zhǔn)確率提高9.2%,這個提升相當(dāng)于過去三年來的最佳性能(State of The Art, SOTA)的進(jìn)步,但這種提升并沒有在模型面對數(shù)據(jù)分布偏移時轉(zhuǎn)化為性能的提升。數(shù)據(jù)分布偏移是指模型在實際應(yīng)用中遇到的數(shù)據(jù)與訓(xùn)練時使用的數(shù)據(jù)分布不一致的情況。

2. 不同數(shù)據(jù)集上的性能變化:

- 作者進(jìn)一步分析了零樣本學(xué)習(xí)(zero-shot learning)和線性分類器在不同數(shù)據(jù)集上的性能差異。他們發(fā)現(xiàn),在ImageNetV2數(shù)據(jù)集上,模型的性能有所提升。ImageNetV2是遵循原始ImageNet數(shù)據(jù)集創(chuàng)建過程構(gòu)建的,這表明通過監(jiān)督學(xué)習(xí)獲得的準(zhǔn)確率提升主要發(fā)生在與ImageNet分布相似的數(shù)據(jù)上。

- 然而,在其他幾個數(shù)據(jù)集上,如ImageNet-R、ObjectNet、ImageNet Sketch和ImageNet-A,模型的性能卻有所下降。這表明模型在面對與ImageNet分布不同的數(shù)據(jù)時,其性能可能會降低。

3. 性能變化的顯著性:

- 對于Youtube-BB和ImageNet Vid這兩個數(shù)據(jù)集,模型性能的變化并不顯著。這意味著在這些數(shù)據(jù)集上,模型的微調(diào)對性能的提升或降低影響不大。

總的來說,這段內(nèi)容強調(diào)了在評估深度學(xué)習(xí)模型的性能時,需要考慮模型在不同數(shù)據(jù)分布下的表現(xiàn)。僅僅在某個特定的數(shù)據(jù)集(如ImageNet)上獲得高準(zhǔn)確率,并不能保證模型在面對更廣泛或不同的數(shù)據(jù)分布時同樣有效。這也提示了作者和開發(fā)者在設(shè)計和評估模型時,需要考慮模型的泛化能力和對不同數(shù)據(jù)分布的適應(yīng)性。

在ImageNet數(shù)據(jù)集上,如何可能在幾乎沒有增加分布偏移下的準(zhǔn)確性的情況下提高9.2%的準(zhǔn)確性?這種增益主要是從“利用虛假相關(guān)性”中獲得的嗎?這種行為是特定于某些組合的CLIP、ImageNet數(shù)據(jù)集和研究的分布偏移的獨特現(xiàn)象,還是更普遍的現(xiàn)象?它是否適用于端到端的微調(diào)和線性分類器?目前作者對這些問題沒有確切的答案。

文章提到了之前的一些研究(如Mahajan等人的工作),這些研究通常是在ImageNet以外的數(shù)據(jù)集上預(yù)訓(xùn)練模型,然后在ImageNet上進(jìn)行微調(diào)。為了更好地理解預(yù)訓(xùn)練的零樣本模型是否普遍具有比微調(diào)模型更強的有效魯棒性,文章呼吁這些先前研究的作者也探索他們自己模型在未經(jīng)微調(diào)情況下的表現(xiàn)。

如何利用靈活的零樣本自然語言基礎(chǔ)圖像分類器(例如CLIP)來改進(jìn)圖像分類任務(wù),特別是在那些目標(biāo)類別與ImageNet預(yù)定義類別不完全匹配的數(shù)據(jù)集上?

  1. 背景:ImageNet是一個大型圖像數(shù)據(jù)庫,用于訓(xùn)練機器學(xué)習(xí)模型,特別是卷積神經(jīng)網(wǎng)絡(luò)。它包含超過1400萬個圖像,這些圖像被標(biāo)記為大約22000個不同的類別。然而,許多實際應(yīng)用中的數(shù)據(jù)集可能包含與ImageNet不完全一致的類別,這給直接應(yīng)用基于ImageNet訓(xùn)練的模型帶來了挑戰(zhàn)。

  2. 問題:當(dāng)目標(biāo)數(shù)據(jù)集(如Youtube-BB和ImageNet-Vid)包含ImageNet中的超類別時,使用ImageNet預(yù)訓(xùn)練模型的固定1000種類別分類器進(jìn)行預(yù)測變得復(fù)雜。這是因為某些目標(biāo)類可能對應(yīng)于多個ImageNet類別,或者根本不在ImageNet的1000個類別之內(nèi)。

  3. 解決方法:Taori等人提出了一種解決方案,即根據(jù)ImageNet的類別層次結(jié)構(gòu)對相關(guān)子類別的預(yù)測結(jié)果進(jìn)行最大池化(max-pooling)。例如,在處理Youtube-BB數(shù)據(jù)集中的“人物”類別時,可以通過匯總ImageNet中與人相關(guān)的多個細(xì)分類別(如“棒球運動員”、“新郎”和“潛水員”)的預(yù)測值來實現(xiàn)。

  4. CLIP的優(yōu)勢:CLIP是一種能夠理解文本和圖像之間關(guān)系的多模態(tài)模型。它能夠直接根據(jù)每個數(shù)據(jù)集的具體類別名稱生成定制的零樣本分類器,這意味著無需預(yù)先訓(xùn)練特定的數(shù)據(jù)集標(biāo)簽,模型就能根據(jù)給定的類別名稱進(jìn)行分類。這種方法不僅簡化了適應(yīng)新數(shù)據(jù)集的過程,而且在一些數(shù)據(jù)集上提高了分類的準(zhǔn)確性。

  5. 實驗結(jié)果:使用CLIP生成的定制零樣本分類器在多個數(shù)據(jù)集上平均提高了5%的有效魯棒性,尤其是對于某些特定的數(shù)據(jù)集。即使是在設(shè)計上與ImageNet類別緊密重疊的ObjectNet數(shù)據(jù)集上,使用CLIP也提高了2.3%的準(zhǔn)確率。這表明,即使目標(biāo)類別與ImageNet類別相似或相同,使用更具體、更針對性的類別名稱也能帶來性能上的提升。

綜上所述,利用像CLIP這樣的零樣本學(xué)習(xí)技術(shù),可以有效地應(yīng)對不同數(shù)據(jù)集之間的類別不匹配問題,從而提高模型的泛化能力和魯棒性。

作者探討了零樣本學(xué)習(xí)(zero-shot learning)與完全監(jiān)督學(xué)習(xí)(fully supervised learning)在模型魯棒性方面的差異,特別是使用CLIP模型作為案例的研究結(jié)果。

  • 背景

    • 零樣本學(xué)習(xí):指模型能夠在沒有見過特定類別的訓(xùn)練數(shù)據(jù)的情況下,對這些類別進(jìn)行分類。CLIP是一個典型的零樣本學(xué)習(xí)模型,它通過結(jié)合文本和圖像信息,能夠識別新的類別。

    • 完全監(jiān)督學(xué)習(xí):指模型在大量標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,以達(dá)到最佳的分類性能。

  • 主要發(fā)現(xiàn)

    • 零樣本CLIP的優(yōu)勢

      1. 在零樣本設(shè)置下,CLIP模型展示了較高的有效魯棒性,即在面對未見過的數(shù)據(jù)時,模型依然能保持較好的性能。

      2. 這種優(yōu)勢在圖14中得到了驗證,顯示零樣本CLIP在多個數(shù)據(jù)集上提高了平均有效魯棒性5%。

    • 監(jiān)督程度的影響

      1. 為了更好地理解從零樣本到完全監(jiān)督學(xué)習(xí)過程中魯棒性的變化,研究人員在圖15中繪制了不同監(jiān)督程度下的模型性能曲線。這些監(jiān)督程度包括0樣本、1樣本、2樣本、4樣本……直到128樣本,以及完全監(jiān)督的邏輯回歸分類器。

      2. 少樣本模型:即使在少量樣本的情況下(如1樣本、2樣本等),CLIP模型依然表現(xiàn)出比現(xiàn)有模型更高的有效魯棒性。

      3. 分布內(nèi)性能:隨著訓(xùn)練數(shù)據(jù)的增加,模型在分布內(nèi)(即訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自相同分布)的性能顯著提高。然而,這種性能的提高導(dǎo)致了魯棒性優(yōu)勢的逐漸消失。

      4. 完全監(jiān)督模型:在完全監(jiān)督的設(shè)置下,盡管模型的整體性能達(dá)到了最優(yōu),但零樣本CLIP帶來的魯棒性優(yōu)勢幾乎完全消失,盡管并未完全消失。

    • 魯棒性對比

      1. 盡管在完全監(jiān)督的設(shè)置下,零樣本CLIP的魯棒性優(yōu)勢減弱,但在零樣本和少樣本設(shè)置下,CLIP模型的魯棒性明顯優(yōu)于具有相當(dāng)ImageNet性能的其他少樣本模型。

  • 結(jié)論

    • 零樣本CLIP的魯棒性:在缺乏訓(xùn)練數(shù)據(jù)的情況下,CLIP模型能夠提供更好的魯棒性,這是其主要優(yōu)勢之一。

    • 監(jiān)督數(shù)據(jù)的影響:隨著監(jiān)督數(shù)據(jù)的增加,模型的分布內(nèi)性能顯著提升,但這種提升也削弱了零樣本CLIP的魯棒性優(yōu)勢。

    • 綜合性能:在實際應(yīng)用中,選擇模型時需要權(quán)衡魯棒性和分布內(nèi)性能。在數(shù)據(jù)有限的情況下,零樣本或少樣本CLIP模型可能是更好的選擇;而在數(shù)據(jù)充足的情況下,完全監(jiān)督模型可能更優(yōu)。

綜合結(jié)論

  • 跨領(lǐng)域的趨勢:大規(guī)模預(yù)訓(xùn)練模型在計算機視覺領(lǐng)域展示了顯著的魯棒性提升,尤其是在零樣本和少樣本設(shè)置下。這一趨勢表明,向大規(guī)模任務(wù)和數(shù)據(jù)集不可知的預(yù)訓(xùn)練轉(zhuǎn)變,有助于開發(fā)更魯棒的系統(tǒng)。

  • NLP領(lǐng)域的差異:雖然在情感分析任務(wù)上,預(yù)訓(xùn)練模型提高了魯棒性,但在問答模型的自然分布偏移測試中,魯棒性提升并不明顯。這表明NLP領(lǐng)域的魯棒性提升可能需要更多的研究和不同的方法。

  • 未來研究方向:未來的研究可以進(jìn)一步探索如何在NLP領(lǐng)域中實現(xiàn)類似的魯棒性提升,特別是在零樣本和少樣本設(shè)置下。此外,還需要開發(fā)更廣泛的評估套件,以更全面地評估模型在不同任務(wù)和數(shù)據(jù)分布下的表現(xiàn)。

4 Comparison to Human Performance

CLIP與人類表現(xiàn)和人類學(xué)習(xí)相比如何?為了更好地理解人類在類似CLIP的評估設(shè)置中的表現(xiàn),作者在其中一項任務(wù)上對人類進(jìn)行了評估。作者想要了解人類在這些任務(wù)中的零樣本表現(xiàn)有多強,以及如果向他們展示一兩個圖像樣本,人類的表現(xiàn)會有多大提升。這可以幫助作者比較人類和CLIP在任務(wù)難度上的差異,并識別它們之間的相關(guān)性和差異。

評估人類在不同條件下的圖像分類能力,特別是在零樣本、單樣本和雙樣本設(shè)置下。實驗使用的數(shù)據(jù)集是牛津IIT寵物數(shù)據(jù)集(由Parkhi等人在2012年發(fā)布),該數(shù)據(jù)集包含3669張貓和狗的圖片,涉及37種不同的品種。以下是詳細(xì)的設(shè)計原則:

實驗設(shè)計

  1. 數(shù)據(jù)集

    1. 牛津IIT寵物數(shù)據(jù)集:這個數(shù)據(jù)集包含3669張貓和狗的圖片,涵蓋了37種不同的品種。

    2. 測試分割:實驗使用的是數(shù)據(jù)集的測試部分,確保參與者沒有見過這些圖片。

  2. 參與者

    1. 五位不同的人:實驗邀請了五位不同的參與者進(jìn)行圖像分類任務(wù)。

  3. 任務(wù)

    1. 選擇品種:參與者需要從37種貓或狗的品種中選擇最符合每張圖片的品種。

    2. 不確定選項:如果參與者完全不確定,可以選擇“我不知道”。

實驗條件

  1. 零樣本設(shè)置

    1. 無示例:參與者沒有任何品種的示例圖片。

    2. 不允許搜索:參與者不能進(jìn)行網(wǎng)絡(luò)搜索,只能根據(jù)自己的知識和經(jīng)驗進(jìn)行判斷。

  2. 單樣本設(shè)置

    1. 一個示例:參與者每種品種都看到了一個示例圖片。

    2. 幫助記憶:這些示例圖片可以幫助參與者更好地記住和識別不同品種的特征。

  3. 雙樣本設(shè)置

    1. 兩個示例:參與者每種品種都看到了兩個示例圖片。

    2. 更多參考:與單樣本設(shè)置相比,雙樣本提供了更多的參考,有助于更準(zhǔn)確地識別品種。

實驗?zāi)康?/strong>

  • 評估人類的分類能力:通過比較不同設(shè)置下的分類結(jié)果,評估人類在零樣本、單樣本和雙樣本條件下的圖像分類能力。

  • 零樣本學(xué)習(xí):特別關(guān)注在沒有示例的情況下,人類如何利用已有的知識和經(jīng)驗進(jìn)行分類。

  • 樣本數(shù)量的影響:研究提供不同數(shù)量的示例圖片對分類性能的影響。

實驗過程

  1. 零樣本實驗

    1. 參與者僅憑自己的知識和經(jīng)驗對每張圖片進(jìn)行分類。

    2. 如果不確定,可以選擇“我不知道”。

  2. 單樣本實驗

    1. 參與者先看每種品種的一個示例圖片,然后對測試圖片進(jìn)行分類。

    2. 如果不確定,可以選擇“我不知道”。

  3. 雙樣本實驗

    1. 參與者先看每種品種的兩個示例圖片,然后對測試圖片進(jìn)行分類。

    2. 如果不確定,可以選擇“我不知道”。

預(yù)期結(jié)果

  • 零樣本設(shè)置:由于沒有示例圖片,參與者的分類準(zhǔn)確率可能會較低,依賴于他們對不同品種的已有知識。

  • 單樣本設(shè)置:提供一個示例圖片后,參與者的分類準(zhǔn)確率可能會有所提高,因為有了具體的參考。

  • 雙樣本設(shè)置:提供兩個示例圖片后,參與者的分類準(zhǔn)確率可能會進(jìn)一步提高,因為有更多的參考信息。

討論了在零樣本任務(wù)中,人類工作者的動機和表現(xiàn)可能存在的擔(dān)憂,并通過引用具體的數(shù)據(jù)來增強對人類工作者的信任。

背景

  • 零樣本任務(wù):在這種任務(wù)中,人類工作者在沒有見過特定類別示例的情況下,需要對圖片進(jìn)行分類。這與機器學(xué)習(xí)中的零樣本學(xué)習(xí)類似。

  • 動機問題:一個潛在的擔(dān)憂是,人類工作者在零樣本任務(wù)中可能缺乏足夠的動機,導(dǎo)致表現(xiàn)不佳。

具體數(shù)據(jù)

  1. STL-10 數(shù)據(jù)集

    1. 數(shù)據(jù)集介紹:STL-10 是一個用于無監(jiān)督學(xué)習(xí)和圖像分類的數(shù)據(jù)集,由 Coates 等人在 2011 年發(fā)布。它包含 10 個類別的圖像,每個類別有 500 張訓(xùn)練圖像和 800 張測試圖像。

    2. 人類表現(xiàn):人類在 STL-10 數(shù)據(jù)集上的準(zhǔn)確率高達(dá) 94%。這表明即使在零樣本任務(wù)中,人類仍然能夠表現(xiàn)出很高的分類準(zhǔn)確率。

  2. 注意力檢查圖片子集

    1. 數(shù)據(jù)集介紹:這部分?jǐn)?shù)據(jù)集包含了一些用于檢查人類工作者注意力的圖片子集。

    2. 人類表現(xiàn):在這些注意力檢查圖片子集上,人類的準(zhǔn)確率達(dá)到了 97-100%。這進(jìn)一步證明了人類工作者在認(rèn)真對待任務(wù)時,能夠達(dá)到非常高的準(zhǔn)確率。

增強信任

  • 動機問題的緩解:盡管存在對人類工作者動機的擔(dān)憂,但上述數(shù)據(jù)顯示,人類在零樣本任務(wù)中仍然能夠表現(xiàn)出色。這表明人類工作者在適當(dāng)?shù)臈l件下是有足夠動機和能力完成任務(wù)的。

  • 信任增強:這些高準(zhǔn)確率的數(shù)據(jù)增加了對人類工作者的信任,表明他們在零樣本任務(wù)中也可以提供可靠的結(jié)果。

深入探討了人類和機器在零樣本和少樣本學(xué)習(xí)中的表現(xiàn)差異,特別是通過實驗結(jié)果來說明人類在少量示例下的學(xué)習(xí)能力。

背景

  • 零樣本學(xué)習(xí):在這種任務(wù)中,模型或人類在沒有見過特定類別示例的情況下進(jìn)行分類。

  • 少樣本學(xué)習(xí):在這種任務(wù)中,模型或人類只有一兩個示例來學(xué)習(xí)特定類別。

實驗結(jié)果

  1. 人類的性能提升

    1. 零樣本到單樣本:人類在零樣本任務(wù)中的初始準(zhǔn)確率為54%。當(dāng)提供每個類別一個訓(xùn)練樣本后,準(zhǔn)確率提高到了76%。這意味著僅通過一個示例,人類的性能提升了22個百分點。

    2. 額外樣本的邊際收益:提供更多的訓(xùn)練樣本(如兩個或更多)對性能的提升效果非常有限,邊際收益很小。

  2. 不確定圖像的改善

    1. 不確定圖像的識別:人類在零樣本任務(wù)中對某些圖像表示不確定(選擇“我不知道”)。當(dāng)提供一個訓(xùn)練樣本后,這些不確定的圖像的分類準(zhǔn)確率顯著提高。

    2. 自我認(rèn)知:這表明人類能夠“知道自己不知道什么”,并且能夠根據(jù)單個示例有效地更新他們的先驗知識,特別是對于那些最初不確定的圖像。

人類與機器的對比

  1. CLIP模型

    1. 零樣本性能:CLIP模型在零樣本任務(wù)中表現(xiàn)出色,圖5顯示了其在零樣本設(shè)置下的高性能。

    2. 自然分布偏移:CLIP在自然分布偏移的測試中表現(xiàn)良好,圖13展示了這一點。

  1. 人類的學(xué)習(xí)方式

    1. 快速學(xué)習(xí):人類能夠通過少量示例迅速提高分類準(zhǔn)確率,特別是對那些最初不確定的圖像。

    2. 差異性:盡管CLIP在零樣本任務(wù)中表現(xiàn)出色,但人類從少數(shù)示例中學(xué)習(xí)的方式與現(xiàn)有的少樣本方法存在顯著差異。人類的學(xué)習(xí)方式更加高效,能夠在看到極少量示例后迅速更新知識。

結(jié)論

  • 人類的自我認(rèn)知:人類能夠識別自己在哪些方面不確定,并且能夠通過少量示例迅速更新這些不確定的知識。這表明人類在少樣本學(xué)習(xí)中具有強大的適應(yīng)能力。

  • 機器學(xué)習(xí)的局限:盡管CLIP等模型在零樣本任務(wù)中表現(xiàn)出色,但它們在從少量示例中學(xué)習(xí)方面與人類存在差距。這提示作者需要進(jìn)一步研究如何使機器學(xué)習(xí)模型在少樣本學(xué)習(xí)中更加高效。

  • 未來研究方向:未來的研究可以探索如何將人類的學(xué)習(xí)機制融入機器學(xué)習(xí)模型中,以提高模型在少樣本任務(wù)中的表現(xiàn)。

總結(jié)

通過實驗結(jié)果展示了人類在零樣本和少樣本學(xué)習(xí)中的獨特優(yōu)勢,特別是人類能夠通過少量示例迅速提高分類準(zhǔn)確率,特別是在那些最初不確定的圖像上。這與CLIP等機器學(xué)習(xí)模型在零樣本任務(wù)中的表現(xiàn)形成了對比,突顯了人類學(xué)習(xí)機制的高效性。

如何通過改進(jìn)算法來縮小機器和人類在少樣本學(xué)習(xí)(few-shot learning)中的樣本效率差距。以下是針對這些問題的思考:

背景

  • 少樣本學(xué)習(xí):在少樣本學(xué)習(xí)任務(wù)中,模型或人類只需要很少的示例(如1個或2個)來學(xué)習(xí)并分類新的類別。

  • 樣本效率:樣本效率指的是模型或人類在學(xué)習(xí)新任務(wù)時所需的數(shù)據(jù)量。人類通常在少樣本學(xué)習(xí)中表現(xiàn)出更高的樣本效率。

機器與人類的差距

  1. 人類的優(yōu)勢

    1. 先驗知識的利用:人類能夠利用已有的先驗知識,即使在只有少量示例的情況下,也能迅速提高分類準(zhǔn)確率。例如,人類在零樣本到單樣本的設(shè)置中,準(zhǔn)確率從54%提高到76%,這主要是因為人類能夠識別自己不確定的圖像,并根據(jù)單個示例更新這些圖像的先驗知識。

    2. 自我認(rèn)知:人類能夠“知道自己不知道什么”,并在看到少量示例后迅速更新這些不確定的知識。

  2. 機器的局限

    1. CLIP模型:盡管CLIP在零樣本任務(wù)中表現(xiàn)出色,但在少樣本學(xué)習(xí)中,它并沒有有效地利用先驗知識。這表明現(xiàn)有的少樣本學(xué)習(xí)算法在利用先驗知識方面存在不足。

    2. 線性分類器:目前,使用線性分類器結(jié)合高質(zhì)量預(yù)訓(xùn)練模型的特征是少樣本學(xué)習(xí)領(lǐng)域接近最先進(jìn)水平的方法(Tian et al., 2020)。這表明,盡管這些方法在某些任務(wù)上表現(xiàn)良好,但與人類的少樣本學(xué)習(xí)能力相比,仍有明顯的差距。

改進(jìn)方向

  1. 整合先驗知識

    1. 作者觀點:作者認(rèn)為,找到一種方法將先驗知識適當(dāng)?shù)卣系缴贅颖緦W(xué)習(xí)中,是改進(jìn)CLIP算法的重要一步。這可以通過以下幾種方式實現(xiàn):

      • 知識蒸餾:將已有的知識從一個大模型轉(zhuǎn)移到一個小模型中,使小模型能夠利用這些知識。

      • 元學(xué)習(xí):通過元學(xué)習(xí)(meta-learning)方法,使模型能夠在少量示例中快速適應(yīng)新任務(wù)。

      • 混合模型:結(jié)合人類的先驗知識和機器學(xué)習(xí)模型的優(yōu)點,開發(fā)混合模型,以提高樣本效率。

  2. 現(xiàn)有方法的局限

    1. 線性分類器:盡管線性分類器結(jié)合高質(zhì)量預(yù)訓(xùn)練模型的特征在少樣本學(xué)習(xí)中表現(xiàn)良好,但它仍然無法完全模擬人類在少樣本學(xué)習(xí)中的高效性。這表明,現(xiàn)有的方法在利用先驗知識方面還有很大的改進(jìn)空間。

結(jié)論

  • 差距的存在:在最佳的少樣本機器學(xué)習(xí)方法和人類的少樣本學(xué)習(xí)之間存在明顯的差距。人類能夠高效地利用先驗知識,而現(xiàn)有的機器學(xué)習(xí)方法在這方面表現(xiàn)不足。

  • 改進(jìn)方向:為了縮小這一差距,作者建議將先驗知識適當(dāng)?shù)卣系缴贅颖緦W(xué)習(xí)算法中。這可以通過知識蒸餾、元學(xué)習(xí)和混合模型等方法來實現(xiàn)。

  • 未來研究:未來的研究需要進(jìn)一步探索如何將人類的高效學(xué)習(xí)機制融入機器學(xué)習(xí)模型中,以提高少樣本學(xué)習(xí)的樣本效率。

作者討論了人類和CLIP模型在圖像分類任務(wù)中的表現(xiàn)對比,并分析了兩者在錯誤一致情況下的原因。以下是對這段內(nèi)容的詳細(xì)解釋:

背景

  • 人類和CLIP模型:人類和CLIP模型在圖像分類任務(wù)中的表現(xiàn)有所不同,但也有一定的相似性。

  • 零樣本學(xué)習(xí):CLIP模型在零樣本任務(wù)中表現(xiàn)出色,但仍然存在一些困難。

對比圖(圖16)

  • 人類準(zhǔn)確率 vs. CLIP零樣本準(zhǔn)確率:圖16展示了人類和CLIP模型在同一個數(shù)據(jù)集上的分類準(zhǔn)確率。從圖中可以看出,對于CLIP來說最難的問題對人類來說也很難。這意味著人類和CLIP在某些圖像上的分類錯誤是一致的。

錯誤一致的原因

  1. 數(shù)據(jù)集中的噪聲

    1. 錯誤標(biāo)記的圖像:數(shù)據(jù)集中可能存在一些錯誤標(biāo)記的圖像,這些錯誤標(biāo)記的圖像會導(dǎo)致人類和模型在分類時都出錯。例如,一張被錯誤地標(biāo)記為“金毛尋回犬”的拉布拉多犬圖片,無論人類還是CLIP模型都可能將其錯誤分類。

    2. 模糊或低質(zhì)量圖像:數(shù)據(jù)集中的一些圖像可能是模糊的、低質(zhì)量的或拍攝角度不佳,這使得即使是人類也難以正確分類。

  2. 分布外圖像

    1. 罕見或異常圖像:有些圖像可能屬于數(shù)據(jù)集中未見過的類別或具有罕見的特征,這些圖像對人類和模型來說都難以處理。例如,一張包含罕見品種的貓或狗的圖片,可能既不在訓(xùn)練集中也不在常見的知識范圍內(nèi)。

    2. 復(fù)雜背景或干擾:圖像中的復(fù)雜背景或干擾因素(如遮擋、光照變化等)可能使得圖像的分類變得更加困難,無論是人類還是模型都可能因此出錯。

假設(shè)

  • 共同的困難:人類和CLIP模型在某些圖像上的一致錯誤表明,這些圖像本身具有一定的難度,而不是某個特定模型的缺陷。這至少是由兩個因素造成的:

    • 數(shù)據(jù)集中的噪聲:包括錯誤標(biāo)記的圖像和低質(zhì)量的圖像。

    • 分布外圖像:這些圖像可能包含罕見的特征或復(fù)雜的背景,使得分類變得困難。

結(jié)論

  • 共同的挑戰(zhàn):人類和CLIP模型在某些圖像上的分類錯誤一致,表明這些圖像本身具有一定的難度,而不是某個特定模型的問題。

  • 改進(jìn)方向:為了提高分類的準(zhǔn)確率,需要在以下幾個方面進(jìn)行改進(jìn):

    • 數(shù)據(jù)清洗:減少數(shù)據(jù)集中的噪聲,糾正錯誤標(biāo)記的圖像,提高圖像質(zhì)量。

    • 增強魯棒性:開發(fā)更魯棒的模型,能夠處理復(fù)雜背景和罕見特征的圖像。

    • 多模態(tài)信息:結(jié)合多種信息源(如文本描述、用戶反饋等),以提高分類的準(zhǔn)確性。

5 Data Overlap Analysis

在使用大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練時的一個重要問題:預(yù)訓(xùn)練數(shù)據(jù)集與下游評估任務(wù)數(shù)據(jù)集之間的潛在重疊。這種重疊可能導(dǎo)致評估結(jié)果不能真實反映模型的泛化能力。

背景

  • 大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)集:現(xiàn)代深度學(xué)習(xí)模型通常在非常大的互聯(lián)網(wǎng)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,以獲得強大的特征提取能力。

  • 下游評估任務(wù):預(yù)訓(xùn)練后的模型會在特定的下游任務(wù)上進(jìn)行微調(diào)和評估,以驗證其性能。

擔(dān)憂

  • 數(shù)據(jù)重疊:一個主要的擔(dān)憂是,預(yù)訓(xùn)練數(shù)據(jù)集和下游評估任務(wù)的數(shù)據(jù)集之間可能存在重疊。這種重疊可能導(dǎo)致模型在評估時表現(xiàn)得過于樂觀,因為模型已經(jīng)“見過”部分評估數(shù)據(jù)。

  • 最壞情況:在最壞的情況下,評估數(shù)據(jù)集的一個完整副本可能泄露到預(yù)訓(xùn)練數(shù)據(jù)集中。這將使評估失去意義,因為模型已經(jīng)在這些數(shù)據(jù)上進(jìn)行了訓(xùn)練,無法真正反映其泛化能力。

防止重疊的方法

  • 識別并刪除重復(fù)項:在訓(xùn)練模型之前,可以嘗試識別并刪除預(yù)訓(xùn)練數(shù)據(jù)集中與評估數(shù)據(jù)集重疊的部分。

    • 優(yōu)點:這種方法可以確保報告的性能是真實的,反映了模型在未見過的數(shù)據(jù)上的表現(xiàn)。

    • 缺點

      • 限制基準(zhǔn)測試和分析范圍:需要事先知道模型可能被評估的所有數(shù)據(jù)集,這限制了基準(zhǔn)測試和分析的范圍。

      • 昂貴的重新訓(xùn)練:每增加一個新的評估任務(wù),都需要重新訓(xùn)練模型,以確保沒有數(shù)據(jù)重疊。這不僅耗時耗力,還可能導(dǎo)致資源浪費。

      • 無法量化的好處:如果不重新訓(xùn)練,直接使用現(xiàn)有的預(yù)訓(xùn)練模型進(jìn)行評估,可能會報告由于數(shù)據(jù)重疊而產(chǎn)生的無法量化的性能提升。

影響

  • 評估的有效性:數(shù)據(jù)重疊會嚴(yán)重影響評估的有效性,使得評估結(jié)果不能真實反映模型的泛化能力。

  • 研究的可信度:如果評估結(jié)果不可靠,會影響研究的可信度和可重復(fù)性。

結(jié)論

  • 平衡考慮:在防止數(shù)據(jù)重疊和保持評估有效性之間需要找到一個平衡點。完全避免數(shù)據(jù)重疊可能需要大量的額外工作和資源,但如果不采取措施,評估結(jié)果可能會失去意義。

  • 透明性和報告:在研究中透明地報告數(shù)據(jù)處理方法和評估過程,可以幫助其他研究人員更好地理解和驗證結(jié)果。

相反,作者記錄了重疊發(fā)生的程度以及由于這些重疊導(dǎo)致的性能變化。為了做到這一點,作者采用了以下程序:

程序概述

1. 重復(fù)項檢測和子集劃分

  1. 重復(fù)項檢測

    1. 工具:使用一個重復(fù)項檢測器(見附錄C)來檢測評估數(shù)據(jù)集中的樣本。

    2. 手動檢查:手動檢查找到的最近鄰,以確保檢測的準(zhǔn)確性。

    3. 閾值設(shè)置:為每個數(shù)據(jù)集設(shè)置一個閾值,以在保持高精確度的同時最大化召回率。

  2. 子集創(chuàng)建

    1. 重疊子集(Overlap):包含所有與訓(xùn)練樣本相似度高于閾值的示例。

    2. 清潔子集(Clean):包含所有相似度低于閾值的示例。

    3. 參考子集(All):未修改的完整數(shù)據(jù)集,作為參考。

  3. 數(shù)據(jù)污染程度記錄

    1. 比例計算:記錄重疊子集中示例的數(shù)量與完整數(shù)據(jù)集(All)的大小之比,以評估數(shù)據(jù)污染的程度。

2. 零樣本準(zhǔn)確率計算

  1. 準(zhǔn)確率計算

    1. 三個分割:計算CLIP RN50x64在三個分割(All、Clean、Overlap)上的零樣本準(zhǔn)確率。

    2. 主要指標(biāo):使用All - Clean作為主要指標(biāo)報告。這個指標(biāo)反映了由于數(shù)據(jù)污染導(dǎo)致的準(zhǔn)確率差異。

    3. 正數(shù)解釋:如果這個差異為正數(shù),表示由于過度擬合重疊數(shù)據(jù),整體報告的準(zhǔn)確率被高估了。

3. 統(tǒng)計顯著性檢驗

  1. 二項式顯著性檢驗

    1. 零假設(shè):使用Clean上的準(zhǔn)確率作為零假設(shè)。

    2. 單尾p值:計算重疊子集的單尾(更大)p值,以檢驗重疊子集的準(zhǔn)確率是否顯著高于Clean子集的準(zhǔn)確率。

  2. 置信區(qū)間計算

    1. Clopper-Pearson置信區(qū)間:計算Dirty子集的99.5% Clopper-Pearson置信區(qū)間,作為另一項檢查。

結(jié)論

  • 數(shù)據(jù)污染評估:通過上述步驟,作者能夠評估數(shù)據(jù)污染的程度,并確定這種污染對模型性能評估的影響。

  • 統(tǒng)計顯著性:通過二項式顯著性檢驗和置信區(qū)間的計算,進(jìn)一步驗證了重疊子集的性能提升是否具有統(tǒng)計顯著性。

  • 透明性和可靠性:這些步驟確保了研究結(jié)果的透明性和可靠性,幫助其他研究人員更好地理解和驗證模型的性能。

圖17中提出了這次分析的總結(jié)。在作者研究的35個數(shù)據(jù)集中,有9個數(shù)據(jù)集完全沒有檢測到重疊。這些數(shù)據(jù)集大多是合成的或?qū)I(yè)的,使得它們不太可能被作為普通圖片發(fā)布在互聯(lián)網(wǎng)上(例如MNIST、CLEVR和GTSRB),或者由于包含作者數(shù)據(jù)集創(chuàng)建日期之后的新數(shù)據(jù),因此保證沒有重疊(如ObjectNet和Hateful Memes)。這表明作者的檢測器有很低的誤報率,這很重要,因為誤報會低估作者分析中污染效應(yīng)。

重疊的中位數(shù)是2.2%,平均值是3.2%。由于重疊數(shù)量很少,整體準(zhǔn)確率很少被改變超過0.1%,只有7個數(shù)據(jù)集超過了這個閾值。其中,只有2個在Bonferroni校正后具有統(tǒng)計學(xué)意義。最大檢測到的改進(jìn)僅為0.6%,這是在Birdsnap上,它的重疊是第二大的,為12.1%。最大的重疊是在Country211上,為21.5%。

這是因為它是由YFCC100M構(gòu)建的,而作者的預(yù)訓(xùn)練數(shù)據(jù)集包含了YFCC100M的一個過濾子集。盡管有這么大的重疊,Country211的準(zhǔn)確率僅提高了0.2%。這可能是因為訓(xùn)練文本伴隨的示例通常與下游評估衡量的具體任務(wù)無關(guān)。Country211衡量的是地理定位能力,但檢查這些重復(fù)項的訓(xùn)練文本表明,它們通常不提及圖像的位置。

在評估大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)集預(yù)訓(xùn)練與下游評估任務(wù)之間潛在重疊時,作者遇到的兩個潛在問題。這些問題可能影響分析的準(zhǔn)確性和可靠性。

潛在問題一:檢測器的不完美

  1. 檢測器的性能

    1. 代理訓(xùn)練任務(wù):檢測器在代理訓(xùn)練任務(wù)上達(dá)到了接近100%的準(zhǔn)確率。

    2. 手動檢查和閾值調(diào)整:通過手動檢查和閾值調(diào)整,檢測器在發(fā)現(xiàn)的最近鄰中具有非常高的精確度和良好的召回率。

  2. 召回率的不確定性

    1. 大規(guī)模數(shù)據(jù)集:由于預(yù)訓(xùn)練數(shù)據(jù)集包含4億個示例,作者無法對其進(jìn)行全面的召回率檢查。

    2. 潛在漏檢:盡管檢測器在已檢查的樣本中表現(xiàn)良好,但仍可能存在漏檢的情況,特別是在如此大規(guī)模的數(shù)據(jù)集中。

潛在問題二:數(shù)據(jù)分布的偏移

  1. 數(shù)據(jù)分布偏移

    1. 重疊和清潔子集:重疊子集和清潔子集之間的數(shù)據(jù)分布可能存在偏移,這可能影響模型的性能評估。

    2. 具體例子

      • Kinetics-700:在Kinetics-700數(shù)據(jù)集上,許多“重疊”實際上是全黑的過渡幀。這解釋了為什么在重疊子集上的準(zhǔn)確率出現(xiàn)了明顯的20%下降。

      • CIFAR-100:在CIFAR-100數(shù)據(jù)集上,由于圖像分辨率非常低,許多重復(fù)項是小鳥或飛機等小物體的誤報。這可能導(dǎo)致準(zhǔn)確率的變化,而不是因為過度擬合。

  2. 分布和難度的偏移

    1. 類別分布變化:重疊子集和清潔子集之間的類別分布可能不同,這會影響模型的性能。

    2. 難度變化:重疊子集中的圖像可能更容易或更難分類,這也會影響模型的性能。

    3. 掩蓋過度擬合:這些分布和難度的偏移可能掩蓋了過度擬合的效果,使得評估結(jié)果不準(zhǔn)確。

結(jié)論

  • 檢測器的局限性:盡管檢測器在已檢查的樣本中表現(xiàn)良好,但由于數(shù)據(jù)集規(guī)模巨大,無法進(jìn)行全面的召回率檢查,可能存在漏檢的情況。

  • 數(shù)據(jù)分布偏移的影響:重疊子集和清潔子集之間的數(shù)據(jù)分布偏移可能影響模型的性能評估。這些偏移可能是由于類別分布的變化或圖像難度的變化,甚至可能掩蓋過度擬合的效果。

  • 未來研究方向:為了提高評估的準(zhǔn)確性和可靠性,需要進(jìn)一步研究如何更好地檢測和處理數(shù)據(jù)分布偏移,以及如何在大規(guī)模數(shù)據(jù)集中提高檢測器的召回率。

作者討論了當(dāng)前研究結(jié)果與其他先前研究在大規(guī)模預(yù)訓(xùn)練工作中進(jìn)行的重復(fù)項分析結(jié)果的相關(guān)性:

背景

  • 大規(guī)模預(yù)訓(xùn)練:現(xiàn)代深度學(xué)習(xí)模型通常在大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,以獲得強大的特征提取能力。

  • 重復(fù)項分析:為了評估預(yù)訓(xùn)練數(shù)據(jù)集與下游評估任務(wù)數(shù)據(jù)集之間的潛在重疊,作者進(jìn)行了重復(fù)項分析。

當(dāng)前研究結(jié)果

  • 重疊檢測:當(dāng)前作者使用了重復(fù)項檢測器來檢測評估數(shù)據(jù)集中的樣本,并創(chuàng)建了重疊子集(Overlap)和清潔子集(Clean)。

  • 性能變化:計算了CLIP RN50x64在All、Clean和Overlap三個子集上的零樣本準(zhǔn)確率,并報告了由于數(shù)據(jù)污染導(dǎo)致的準(zhǔn)確率差異。

與先前研究的對比

  1. Mahajan等人(2018年)

    1. 重疊率:Mahajan等人在他們的大規(guī)模預(yù)訓(xùn)練工作中也檢測到了類似的重疊率。

    2. 性能變化:他們發(fā)現(xiàn)整體性能的變化很小,這與當(dāng)前研究的結(jié)果一致。

  2. Kolesnikov等人(2019年)

    1. 重疊率:Kolesnikov等人也檢測到了類似的重疊率。

    2. 性能變化:他們發(fā)現(xiàn)整體性能的變化很小,進(jìn)一步支持了當(dāng)前研究的結(jié)果。

    3. 去重策略:Kolesnikov等人還比較了不同的去重策略,包括本節(jié)開頭討論的替代去重策略和當(dāng)前研究最終采用的方法。

    4. 方法差異:他們觀察到這兩種方法之間的差異很小,這表明當(dāng)前研究采用的去重方法是合理且有效的。

重要性

  • 結(jié)果的一致性:當(dāng)前研究的結(jié)果與先前研究的結(jié)果高度一致,這增加了結(jié)果的可信度。

  • 去重策略的有效性:Kolesnikov等人對不同去重策略的比較表明,當(dāng)前研究采用的去重方法是有效的,兩種方法之間的差異很小。

結(jié)論

  • 驗證和確認(rèn):當(dāng)前研究的結(jié)果與先前研究的結(jié)果高度一致,驗證了大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集與下游評估任務(wù)數(shù)據(jù)集之間存在重疊,但這種重疊對整體性能的影響較小。

  • 方法的合理性:Kolesnikov等人對不同去重策略的比較進(jìn)一步確認(rèn)了當(dāng)前研究采用的去重方法的有效性,兩種方法之間的差異很小。

6 Limitations

CLIP仍然存在許多限制。雖然其中一些限制在各個部分的分析中有所討論,但作者在這里總結(jié)并收集它們。

  1. CLIP與ResNet-50的比較

    1. 在使用訓(xùn)練集分割的數(shù)據(jù)集上,零樣本CLIP的性能平均來說與基于ResNet-50特征的簡單監(jiān)督學(xué)習(xí)基線(即線性分類器)相當(dāng)。

    2. 這意味著,在沒有針對特定任務(wù)進(jìn)行額外訓(xùn)練的情況下,CLIP能夠達(dá)到與經(jīng)過專門訓(xùn)練的線性分類器相似的性能水平。

  2. 與最先進(jìn)水平的差距

    1. 然而,這種性能水平在大多數(shù)數(shù)據(jù)集上仍遠(yuǎn)低于當(dāng)前的整體最先進(jìn)水平。

    2. 最先進(jìn)的模型通常是通過大量標(biāo)注數(shù)據(jù)和復(fù)雜的訓(xùn)練過程來實現(xiàn)高性能的。

  3. 提升CLIP性能的挑戰(zhàn)

    1. 為了使CLIP在任務(wù)學(xué)習(xí)和遷移能力方面得到顯著提升,還需要大量的研究工作。

    2. 盡管增加模型規(guī)模和訓(xùn)練數(shù)據(jù)量可以逐步提高性能,但要讓零樣本CLIP達(dá)到最先進(jìn)水平,可能需要大約1000倍的計算資源提升。

    3. 這樣的計算需求在現(xiàn)有的硬件條件下是難以實現(xiàn)的,因為目前的技術(shù)水平無法支持如此大規(guī)模的計算資源投入。

第3.1節(jié)的分析發(fā)現(xiàn),CLIP在幾種類型的任務(wù)上的零樣本性能仍然相當(dāng)弱。與特定任務(wù)的模型相比,CLIP在幾種細(xì)粒度分類任務(wù)上的表現(xiàn)不佳,例如區(qū)分不同型號的汽車、不同種類的花卉和不同型號的飛機。CLIP在更抽象和系統(tǒng)的任務(wù)上也存在困難,比如計算圖像中物體的數(shù)量。最后,對于不太可能包含在CLIP預(yù)訓(xùn)練數(shù)據(jù)集中的新穎任務(wù),例如在照片中分類最近汽車的距離,CLIP的表現(xiàn)可能接近隨機。作者相信,仍然有很多任務(wù),CLIP的零樣本性能接近偶然水平。

雖然如第3.3節(jié)所研究的,零樣本CLIP對許多自然圖像分布泛化得很好,但作者觀察到零樣本CLIP對真正超出其分布范圍的數(shù)據(jù)泛化仍然很差。一個說明性的例子出現(xiàn)在OCR任務(wù)中,如附錄E中所報告的。

CLIP模型在處理不同類型圖像時的表現(xiàn)差異,特別是它在處理手寫數(shù)字(如MNIST數(shù)據(jù)集)時的局限性。

  1. CLIP在數(shù)字化渲染文本上的表現(xiàn)

    1. CLIP通過預(yù)訓(xùn)練學(xué)習(xí)到了高質(zhì)量的語義表示,尤其在處理數(shù)字化渲染的文本時表現(xiàn)出色。

    2. 這一點在Rendered SST2數(shù)據(jù)集上的高準(zhǔn)確率得到了驗證。Rendered SST2是一個包含數(shù)字化渲染文本的數(shù)據(jù)集,與CLIP的預(yù)訓(xùn)練數(shù)據(jù)集非常相似。

  2. CLIP在手寫數(shù)字上的表現(xiàn)

    1. 然而,當(dāng)CLIP應(yīng)用于MNIST數(shù)據(jù)集(包含手寫數(shù)字)時,其準(zhǔn)確率僅為88%。

    2. 更令人尷尬的是,一個簡單的基于原始像素的邏輯回歸模型在MNIST上的表現(xiàn)甚至超過了零樣本CLIP。

  3. 原因分析

    1. 語義和近鄰重復(fù)檢索的結(jié)果表明,CLIP的預(yù)訓(xùn)練數(shù)據(jù)集中幾乎沒有類似于MNIST手寫數(shù)字的圖像。

    2. 這意味著CLIP在處理手寫數(shù)字時缺乏足夠的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)有效的表示。

  4. CLIP的泛化能力

    1. 這一現(xiàn)象揭示了CLIP在解決深度學(xué)習(xí)模型的脆弱泛化問題上做得很少。

    2. 深度學(xué)習(xí)模型通常在訓(xùn)練數(shù)據(jù)分布內(nèi)的任務(wù)上表現(xiàn)良好,但在遇到與訓(xùn)練數(shù)據(jù)分布不同的新數(shù)據(jù)時,性能會顯著下降。

    3. CLIP試圖通過在龐大且多樣化的數(shù)據(jù)集上進(jìn)行訓(xùn)練,使得所有數(shù)據(jù)都有效地處于分布內(nèi),從而避免泛化問題。然而,這種方法在面對完全不同的數(shù)據(jù)類型(如手寫數(shù)字)時顯得不足。

CLIP模型在生成零樣本分類器方面的靈活性及其局限性,并提出了幾種可能的改進(jìn)方法。以下是詳細(xì)的解釋:

1. CLIP的零樣本分類器靈活性

  • 優(yōu)點:CLIP能夠為各種任務(wù)和數(shù)據(jù)集生成零樣本分類器,這意味著它可以不需要額外的訓(xùn)練就能處理新的任務(wù)。

  • 局限性:CLIP的零樣本分類器只能從給定的概念中選擇,而不能生成新穎的輸出。例如,CLIP可以識別已知的類別,但無法創(chuàng)造新的描述或解釋。

2. 與生成模型的對比

  • 生成模型的靈活性:與CLIP不同,生成模型(如圖像描述模型)能夠生成新穎的輸出,例如對圖像進(jìn)行詳細(xì)的描述。這種靈活性使得生成模型在某些任務(wù)上更有優(yōu)勢。

  • 計算效率:然而,生成模型的計算效率遠(yuǎn)低于CLIP。這意味著在實際應(yīng)用中,生成模型可能需要更多的計算資源和時間。

3. 改進(jìn)方法

聯(lián)合訓(xùn)練對比性和生成性目標(biāo)

  • 思路:通過聯(lián)合訓(xùn)練對比性和生成性目標(biāo),希望能夠結(jié)合CLIP的高效性和生成模型的靈活性。

  • 目標(biāo):這樣的聯(lián)合訓(xùn)練可能會使模型在保持高效的同時,具備生成新穎輸出的能力。

在推理時進(jìn)行自然語言搜索

  • 思路:在推理階段,可以通過搜索多個自然語言解釋來解釋給定的圖像。

  • 方法:類似于Andreas等人在2017年提出的“Learning with Latent Language”方法,該方法通過在推理時搜索多個潛在的自然語言解釋,來生成更豐富的圖像描述。

  • 優(yōu)勢:這種方法可以在不顯著增加計算成本的情況下,提高模型的靈活性和表達(dá)能力。

詳細(xì)討論了CLIP模型的優(yōu)勢、局限性以及潛在的改進(jìn)方向。以下是具體解釋:

1. CLIP的零樣本分類器靈活性

  • 優(yōu)點:CLIP能夠為各種任務(wù)和數(shù)據(jù)集生成零樣本分類器,這意味著它可以在沒有額外訓(xùn)練的情況下處理新的任務(wù)。

  • 局限性:CLIP的零樣本分類器只能從給定的概念中選擇,而不能生成新穎的輸出。例如,CLIP可以識別已知的類別,但無法創(chuàng)造新的描述或解釋。

  • 對比:與能夠生成新穎輸出的生成模型(如圖像描述模型)相比,這是一個重大限制。生成模型可以提供更豐富的、創(chuàng)造性的輸出,但計算效率較低。

2. 改進(jìn)方法

聯(lián)合訓(xùn)練對比和生成目標(biāo)

  • 思路:通過聯(lián)合訓(xùn)練對比性和生成性目標(biāo),希望能夠結(jié)合CLIP的高效性和生成模型的靈活性。

  • 目標(biāo):這樣的聯(lián)合訓(xùn)練可能會使模型在保持高效的同時,具備生成新穎輸出的能力。

在推理時進(jìn)行自然語言搜索

  • 思路:在推理階段,可以通過搜索多個自然語言解釋來解釋給定的圖像。

  • 方法:類似于Andreas等人在2017年提出的“Learning with Latent Language”方法,該方法通過在推理時搜索多個潛在的自然語言解釋,來生成更豐富的圖像描述。

  • 優(yōu)勢:這種方法可以在不顯著增加計算成本的情況下,提高模型的靈活性和表達(dá)能力。

3. 數(shù)據(jù)效率問題

  • CLIP的數(shù)據(jù)效率:CLIP并沒有解決深度學(xué)習(xí)數(shù)據(jù)效率低下的問題。相反,它通過使用大量標(biāo)注數(shù)據(jù)(數(shù)億個訓(xùn)練示例)來補償這一不足。

  • 數(shù)據(jù)規(guī)模:如果在CLIP模型訓(xùn)練期間看到的每張圖像都以每秒一張的速度呈現(xiàn),則需要405年才能迭代32個訓(xùn)練周期中看到的128億張圖像。這表明CLIP依賴于大規(guī)模的數(shù)據(jù)集來提高性能。

4. 結(jié)合自我監(jiān)督和自我訓(xùn)練方法

  • 自我監(jiān)督方法:Henaff (2020) 和 Chen et al. (2020c) 提出的自我監(jiān)督方法已經(jīng)證明了在減少數(shù)據(jù)需求方面的能力。這些方法通過從無標(biāo)簽數(shù)據(jù)中學(xué)習(xí)有用的表示,提高了模型的數(shù)據(jù)效率。

  • 自我訓(xùn)練方法:Lee 和 Xie et al. (2020) 提出的自我訓(xùn)練方法也展示了提高數(shù)據(jù)效率的潛力。這些方法通過利用模型自身的預(yù)測來生成偽標(biāo)簽,從而增強訓(xùn)練數(shù)據(jù)。

  • 前景:將CLIP與這些自我監(jiān)督和自我訓(xùn)練方法相結(jié)合,是一個很有前途的方向,因為它們可以顯著提高數(shù)據(jù)效率,減少對大規(guī)模標(biāo)注數(shù)據(jù)的依賴。

在開發(fā)和評估CLIP模型過程中存在的幾個重大局限性,以及提出了解決這些問題的建議。以下是詳細(xì)的解釋:

1. 零樣本遷移的驗證集問題

  • 局限性:盡管CLIP的目標(biāo)是實現(xiàn)零樣本遷移,但在開發(fā)過程中,研究人員反復(fù)查詢了完整的驗證集來指導(dǎo)模型的開發(fā)。

  • 不現(xiàn)實性:這些驗證集通常包含成千上萬的示例,這在真實的零樣本場景中是不現(xiàn)實的。在真正的零樣本場景中,模型應(yīng)該能夠在沒有任何特定任務(wù)的訓(xùn)練數(shù)據(jù)的情況下進(jìn)行推理。

  • 類似問題:在半監(jiān)督學(xué)習(xí)領(lǐng)域,Oliver等人(2018)也提出了類似的擔(dān)憂,即使用大量驗證數(shù)據(jù)來指導(dǎo)模型開發(fā)不符合零樣本學(xué)習(xí)的實際需求。

2. 評估數(shù)據(jù)集的選擇問題

  • 標(biāo)準(zhǔn)化評估:雖然作者報告了在Kornbluth等人(2019)的12個數(shù)據(jù)集評估套件上的結(jié)果,這些數(shù)據(jù)集作為一個標(biāo)準(zhǔn)化的集合被廣泛接受。

  • 隨意組裝的數(shù)據(jù)集:然而,主要結(jié)果是基于一組有些隨意組裝的27個數(shù)據(jù)集。這組數(shù)據(jù)集無疑是在CLIP的開發(fā)和能力共同適應(yīng)的過程中選擇的,因此可能存在偏差。

  • 適應(yīng)性問題:這種選擇方式可能導(dǎo)致模型在這些特定數(shù)據(jù)集上表現(xiàn)良好,但未必能泛化到其他未見過的數(shù)據(jù)集。

3. 解決方案

  • 新的基準(zhǔn)測試:為了更真實地評估CLIP的零樣本遷移能力,建議創(chuàng)建一個新的基準(zhǔn)測試。這個基準(zhǔn)測試應(yīng)專門設(shè)計用于評估廣泛的零樣本遷移能力,而不是簡單地重復(fù)使用現(xiàn)有的監(jiān)督數(shù)據(jù)集。

  • 獨立性:新的基準(zhǔn)測試應(yīng)確保數(shù)據(jù)集的選擇是獨立于模型的開發(fā)過程,以減少偏差并提高評估的公正性和可靠性。

  • 多樣性:新的基準(zhǔn)測試應(yīng)涵蓋多種任務(wù)和數(shù)據(jù)類型,以全面評估模型的泛化能力和適應(yīng)性。

總結(jié)

  • 驗證集問題:CLIP在開發(fā)過程中依賴于大量的驗證數(shù)據(jù),這不符合零樣本學(xué)習(xí)的實際需求。

  • 評估數(shù)據(jù)集選擇問題:主要結(jié)果基于一組隨意組裝的數(shù)據(jù)集,這些數(shù)據(jù)集可能與CLIP的開發(fā)過程存在適應(yīng)性偏差。

  • 解決方案:創(chuàng)建一個新的、獨立于模型開發(fā)過程的基準(zhǔn)測試,專門設(shè)計用于評估廣泛的零樣本遷移能力,以提高評估的公正性和可靠性。

CLIP在互聯(lián)網(wǎng)上與圖像配對的文本進(jìn)行訓(xùn)練。這些圖像-文本對未經(jīng)過濾和未經(jīng)策劃,導(dǎo)致CLIP模型學(xué)習(xí)了許多社會偏見。這一點在之前的圖像標(biāo)題模型中已經(jīng)得到證明(Bhargava & Forsyth, 2019)。建議讀者參考第7節(jié),以便詳細(xì)分析和量化CLIP的這些行為,并討論潛在的緩解策略。

雖然作者在整個工作中強調(diào)了通過自然語言指定圖像分類器是一個靈活且通用的界面,但它也有自己的局限性。許多復(fù)雜的任務(wù)和視覺概念可能很難僅通過文本來指定。實際的訓(xùn)練樣本無疑是有用的,但CLIP并不直接優(yōu)化少樣本性能。在作者的工作中,作者退回到在CLIP的特征之上擬合線性分類器。這導(dǎo)致從零樣本到少樣本設(shè)置的過渡中出現(xiàn)了違反直覺的性能下降。如第4節(jié)所討論的,這與人類的表現(xiàn)明顯不同,人類的表現(xiàn)從零樣本到一次樣本設(shè)置中顯示出大幅度的提高。未來的工作需要開發(fā)方法,將CLIP強大的零樣本性能與高效的少樣本學(xué)習(xí)結(jié)合起來。

7 Broader Impacts

CLIP能夠執(zhí)行任意圖像分類任務(wù),無論是常見的任務(wù)(如分類貓和狗的圖片)還是更復(fù)雜的社會任務(wù)(如在百貨商店拍攝的圖片中識別扒手)。

CLIP的靈活性在于它可以在不需要重新訓(xùn)練的情況下,輕松創(chuàng)建新的分類類別。這種“打造你自己的分類器”的能力使得CLIP在多種應(yīng)用場景中具有廣泛的應(yīng)用潛力。

CLIP的能力在某些情況下可能具有重大社會影響。例如,用于識別扒手的任務(wù)可能涉及隱私和倫理問題,需要謹(jǐn)慎評估。

像任何圖像分類系統(tǒng)一樣,CLIP的性能和適用性需要在具體情境中進(jìn)行評估,以確保其在實際應(yīng)用中的可靠性和公平性。

CLIP的零樣本泛化能力意味著它可以在沒有額外訓(xùn)練的情況下處理新的任務(wù)。這種能力類似于大規(guī)模生成模型(如GPT-3)所表現(xiàn)出的非平凡零樣本泛化能力。

由于CLIP的廣泛能力,其中許多能力可能只有在實際測試后才會變得明顯。這引入了新的挑戰(zhàn),需要在部署前進(jìn)行全面評估。

CLIP在圖像檢索和搜索任務(wù)上顯示出顯著的潛力。它可以基于文本找到相關(guān)的圖片,也可以基于圖片找到相關(guān)的文本。

通過少量或不需要額外數(shù)據(jù)或訓(xùn)練,CLIP可以輕松地被引導(dǎo)至定制應(yīng)用。這種能力可能會解鎖各種新穎的應(yīng)用,這些應(yīng)用可能是作者目前難以想象的。

這種情況類似于過去幾年大型語言模型(如GPT-3)的發(fā)展,這些模型在多種自然語言處理任務(wù)中展現(xiàn)出強大的能力,并催生了許多創(chuàng)新應(yīng)用。

7.1. Bias

社會偏見的來源:算法決策、訓(xùn)練數(shù)據(jù)的選擇,以及對類別的定義和分類(稱為“類別設(shè)計”)都可能促成并放大由人工智能系統(tǒng)的使用所導(dǎo)致的社會偏見和不平等。

類別設(shè)計的重要性:對于像CLIP這樣的模型,類別設(shè)計尤為重要,因為任何開發(fā)人員都可以定義一個類別,而模型將提供相應(yīng)的結(jié)果。這可能導(dǎo)致無意的偏見和不公平。

  • 偏見探測工具

    • 靈感來源:本節(jié)使用了受Buolamwini & Gebru (2018)和K?rkk?inen & Joo (2019)啟發(fā)的偏見探測工具,對CLIP中的一些偏見進(jìn)行初步分析。

    • 探索性研究:還進(jìn)行了探索性偏見研究,旨在找到模型中偏見的具體例子,類似于Solaiman et al. (2019)所進(jìn)行的研究。

  • 初步偏見分析

    • 數(shù)據(jù)集選擇:研究人員首先使用了人臉圖像數(shù)據(jù)集FairFace來分析零樣本CLIP的性能,作為初始偏見探測。

    • 模型版本:評估了兩個版本的CLIP:

      • 零樣本CLIP模型(ZS CLIP):直接使用CLIP模型進(jìn)行零樣本分類。

      • 邏輯回歸分類器(LR CLIP):在CLIP特征之上擬合了一個邏輯回歸分類器,專門針對FairFace數(shù)據(jù)集進(jìn)行訓(xùn)練。

  • 性能比較

    • 準(zhǔn)確性:LR CLIP在FairFace數(shù)據(jù)集上的準(zhǔn)確性高于ResNext-101 32x48d Instagram模型(“Linear Probe nstagram”)和FairFace自己的模型在大多數(shù)分類測試中的表現(xiàn)。

    • ZS CLIP的性能:ZS CLIP的性能因類別而異。在某些類別上,ZS CLIP的表現(xiàn)優(yōu)于FairFace的模型,而在其他類別上則較差(見表3和表4)。

  • 跨種族和性別類別的性能

    • 性別分類:研究人員測試了LR CLIP和ZS CLIP模型在FairFace數(shù)據(jù)集中定義的跨種族和性別類別的性能。

    • 結(jié)果:模型在所有種族類別中的性別分類性能均高于95%。表5總結(jié)了這些結(jié)果。

  • LR CLIP的準(zhǔn)確性:LR CLIP在FairFace基準(zhǔn)數(shù)據(jù)集上實現(xiàn)了比Linear Probe Instagram模型更高的準(zhǔn)確性,用于按交叉類別對圖像進(jìn)行性別、種族和年齡分類。

  • 基準(zhǔn)的局限性:基準(zhǔn)的準(zhǔn)確性僅提供算法公平性的一種近似,如Raji等人(2020)已經(jīng)指出的,但往往不能作為現(xiàn)實世界環(huán)境中有意義的公平衡量標(biāo)準(zhǔn)。

  • 性能差異與影響差異:即使一個模型在不同子組上具有更高的準(zhǔn)確性和更低的性能差異,這并不意味著它的影響差異會更小(Scheuerman等人,2019年)。例如,一家公司可能會利用在代表性不足的群體中表現(xiàn)更好的模型來證明他們使用面部識別的合理性,然后以不成比例地影響某些人口統(tǒng)計群體的方式部署它。

  • 探索潛在的誹謗危害

    • 實驗設(shè)計:研究人員使用了極有可能造成代表性傷害的分類術(shù)語來探索模型,特別關(guān)注誹謗傷害(Crawford,2017)。

    • 實驗方法:進(jìn)行了一項實驗,其中需要ZS CLIP模型對FairFace數(shù)據(jù)集中的10,000張圖像進(jìn)行分類。除了FairFace類之外,還添加了以下類:“動物”、“大猩猩”、“黑猩猩”、“猩猩”、“小偷”、“罪犯”和“可疑人員”。

    • 實驗?zāi)康?/strong>:這個實驗的目的是檢查誹謗的危害是否不成比例地影響某些人口統(tǒng)計亞群。

  • 實驗結(jié)果和意義

    • 結(jié)果:通過這個實驗,研究人員可以評估CLIP模型是否會在某些群體中產(chǎn)生不成比例的負(fù)面標(biāo)簽,從而導(dǎo)致誹謗傷害。

    • 意義:這項實驗強調(diào)了在使用面部分類基準(zhǔn)來探測偏差時,需要考慮潛在的社會影響。即使模型在基準(zhǔn)測試中表現(xiàn)良好,也不意味著它在實際應(yīng)用中不會造成不公平或傷害。

  • 總結(jié)

    • 交叉種族和性別類別的性能:CLIP模型在所有種族類別中的性別分類性能均高于95%。

    • 基準(zhǔn)準(zhǔn)確性與算法公平性:基準(zhǔn)的準(zhǔn)確性僅提供算法公平性的一種近似,不能作為現(xiàn)實世界環(huán)境中有意義的公平衡量標(biāo)準(zhǔn)。

    • 探索潛在的誹謗危害:通過添加可能造成代表性傷害的分類術(shù)語,研究人員評估了CLIP模型在不同群體中的表現(xiàn),以檢查是否存在不成比例的負(fù)面標(biāo)簽和誹謗傷害。

討論了CLIP模型在FairFace數(shù)據(jù)集上的誤分類情況,特別是關(guān)于非人類類別和與犯罪相關(guān)的類別,以及通過增加“兒童”類別來改善模型行為的實驗結(jié)果。:

1. 非人類類別的誤分類

  • 總體誤分類率:在FairFace數(shù)據(jù)集中,有4.9%的圖像被錯誤分類為非人類類別,包括“動物”、“黑猩猩”、“大猩猩”和“猩猩”。置信區(qū)間在4.6%到5.4%之間。

  • 種族差異:在這些誤分類中,“黑人”圖像的誤分類率最高,約為14%,置信區(qū)間在12.6%到16.4%之間。其他種族的誤分類率都低于8%。

  • 年齡差異:0到20歲的人群中,有14%的圖像被歸入非人類類別,比例最高。

2. 與犯罪相關(guān)的類別的誤分類

  • 總體誤分類率:16.5%的男性圖像被錯誤分類為與犯罪相關(guān)的類別,如“小偷”、“可疑人員”和“罪犯”,而女性圖像的這一比例為9.8%。

  • 年齡差異:0到20歲的人在這些與犯罪相關(guān)的類別中的比例最高,約為18%,相比之下,20到60歲的人群這一比例約為12%,而70歲以上的人群則為0%。

  • 種族差異:在與犯罪相關(guān)的術(shù)語的種族分類中,存在顯著差異,這一點在表6中得到了體現(xiàn)。

3. 增加“兒童”類別的實驗

  • 實驗?zāi)康?/strong>:為了減少20歲以下人群的圖像被歸類為與犯罪相關(guān)類別或非人類動物類別的數(shù)量,研究人員在分類中增加了額外的“兒童”類別。

  • 實驗結(jié)果:增加“兒童”類別顯著減少了20歲以下人群的圖像被歸類為與犯罪相關(guān)類別或非人類動物類別的數(shù)量,如表7所示。

  • 意義:這一發(fā)現(xiàn)指出了類別設(shè)計可能成為決定模型性能和模型可能表現(xiàn)出的不良偏見或行為的關(guān)鍵因素。

4. 討論

  • 類別設(shè)計的重要性:類別設(shè)計在決定模型性能和潛在偏見方面起著關(guān)鍵作用。通過增加“兒童”類別,研究人員顯著減少了對年輕人群的誤分類,這表明合理的設(shè)計可以減輕模型的不良行為。

  • 更廣泛的問題:這一發(fā)現(xiàn)提出了關(guān)于使用面部圖像自動對人進(jìn)行分類的更廣泛問題。自動分類系統(tǒng)可能會無意中放大社會偏見和不平等,特別是在涉及敏感類別(如種族、年齡和性別)時。

  • 倫理和社會影響:在實際應(yīng)用中,需要特別關(guān)注這些潛在的倫理和社會影響,確保模型的公平性和透明性。

  • 不同閾值下的標(biāo)簽分配:CLIP在不同閾值下的標(biāo)簽分配顯示了明顯的性別偏見,特別是在與頭發(fā)和外觀相關(guān)的標(biāo)簽以及職業(yè)導(dǎo)向的標(biāo)簽上。

  • 設(shè)計決策的影響:模型的每個階段的設(shè)計決策都會影響偏見的表現(xiàn)方式,尤其是類設(shè)計和閾值的選擇。

  • 倫理和社會影響:這些發(fā)現(xiàn)強調(diào)了在部署面部分類系統(tǒng)時需要特別關(guān)注倫理和社會影響,確保模型的公平性和透明性。

這些實驗旨在激發(fā)進(jìn)一步的研究,以更全面地理解偏見的來源和影響,并開發(fā)方法來減少這些偏見。

7.2. Surveillance

討論了CLIP模型在監(jiān)控任務(wù)中的表現(xiàn),特別是其在低分辨率圖像分類和零樣本名人識別方面的性能。

  • 監(jiān)控任務(wù)的重要性

    • 社會敏感性:監(jiān)控任務(wù)具有顯著的社會敏感性,因此對這些任務(wù)的分析不僅有助于評估模型的性能,還可以幫助研究社區(qū)了解通用計算機視覺模型對未來的潛在影響。

    • 目的:包含監(jiān)控任務(wù)的目的并不是表示對這個領(lǐng)域的熱情,而是認(rèn)為鑒于其社會影響,監(jiān)控是一個重要的領(lǐng)域,需要對其進(jìn)行深入研究和預(yù)測(Zuboff, 2015; Browne, 2015)。

  • 測試數(shù)據(jù)集

    • VIRAT數(shù)據(jù)集:研究人員使用了VIRAT數(shù)據(jù)集(Oh et al., 2011),該數(shù)據(jù)集包含從監(jiān)控攝像頭(如CCTV攝像頭)捕獲的低分辨率圖像,由非演員的真實戶外場景組成。

    • Varadarajan & Odobez數(shù)據(jù)集:還使用了Varadarajan & Odobez(2009)捕獲的數(shù)據(jù),這些數(shù)據(jù)同樣由非演員的真實戶外場景組成。

  • 測試內(nèi)容

    • 粗粒度分類:研究人員測試了CLIP模型在從12個不同視頻序列捕獲的515個監(jiān)控圖像上的性能。粗粒度分類要求模型正確識別圖像的主要主題,例如判斷圖像是否是空停車場、學(xué)校校園等的圖片。

    • 細(xì)粒度分類:對于細(xì)粒度分類,模型必須在兩個選項之間進(jìn)行選擇,以確定模型是否能夠識別圖像中是否存在較小的特征,例如站在角落的人。

  • 測試方法

    • 類別構(gòu)建:鑒于CLIP靈活的類別構(gòu)建能力,研究人員構(gòu)建了自定義的粗粒度和細(xì)粒度分類任務(wù)。

    • 粗粒度分類:測試模型是否能夠正確識別圖像的主要主題。模型總是至少有6個選項可供選擇。

    • 細(xì)粒度分類:測試模型是否能夠識別圖像中的較小特征,例如特定位置的人或物體。

    • 壓力測試:類別集包括至少一個與圖像“接近”的描述(例如,“帶有白色汽車的停車場”與“帶有紅色汽車的停車場”)。這種測試旨在評估模型在面對相似選項時的表現(xiàn)。

  • 實驗結(jié)果

    • 粗粒度分類

      • Top-1準(zhǔn)確率:模型在CCTV圖像上的Top-1準(zhǔn)確率為91.8%。

      • 壓力測試:在第二次評估中,準(zhǔn)確率顯著下降至51.1%,模型錯誤選擇“接近”答案的比例為40.7%。

    • 細(xì)粒度分類

      • 零樣本模型表現(xiàn):模型在細(xì)粒度檢測任務(wù)中的表現(xiàn)很差,結(jié)果接近隨機。這個實驗只針對檢測圖像序列中的小物體的存在或缺失。

    • 零樣本名人識別

      • CelebA數(shù)據(jù)集:使用CelebA數(shù)據(jù)集測試了CLIP的零樣本“野外”身份檢測性能。

      • 8k名人圖像:模型在“野外”8k名人圖像的100個可能類別中有59.2%的Top-1準(zhǔn)確率。

      • 1k名人名稱:當(dāng)類別規(guī)模增加到1k名人名稱時,這一性能下降到43.3%。

      • 與生產(chǎn)級模型的比較:與Google的名人識別等生產(chǎn)級模型相比,這一性能并不具競爭力。然而,這些結(jié)果值得注意的是,這項分析僅使用了基于從預(yù)訓(xùn)練數(shù)據(jù)推斷的名稱的零樣本識別能力,沒有使用任何額外的特定于任務(wù)的數(shù)據(jù)集。

  • 討論

    • 模型性能:CLIP模型在粗粒度分類任務(wù)中表現(xiàn)良好,但在細(xì)粒度分類任務(wù)中表現(xiàn)較差。零樣本名人識別任務(wù)中的表現(xiàn)也較為有限,但仍然展示了其在某些任務(wù)中的潛力。

    • 社會影響:隨著模型變得越來越強大,它們在監(jiān)控任務(wù)中的應(yīng)用可能引發(fā)顯著的社會影響,例如隱私和倫理問題(Garvie, 2019)。

    • 與現(xiàn)有模型的比較:對于高需求的監(jiān)控任務(wù),如面部識別,已經(jīng)存在大型數(shù)據(jù)集和高性能的監(jiān)督模型。因此,CLIP在這類任務(wù)中的相對吸引力較低。

    • 定制和小眾用例:CLIP的零樣本能力使其在定制的、小眾的監(jiān)控用例中具有顯著優(yōu)勢,這些用例可能不存在量身定制的模型或數(shù)據(jù)集,降低了構(gòu)建此類應(yīng)用程序的技能要求。

  • 總結(jié)

    • 監(jiān)控任務(wù)的重要性:監(jiān)控任務(wù)具有顯著的社會敏感性,需要深入研究和預(yù)測。

    • 測試數(shù)據(jù)集:使用了VIRAT和Varadarajan & Odobez數(shù)據(jù)集,這些數(shù)據(jù)集包含真實的低分辨率監(jiān)控圖像。

    • 測試內(nèi)容:測試了CLIP模型在粗粒度和細(xì)粒度分類任務(wù)中的表現(xiàn),以及零樣本名人識別任務(wù)中的表現(xiàn)。

    • 實驗結(jié)果:展示了CLIP模型在粗粒度分類任務(wù)中的良好表現(xiàn),但在細(xì)粒度分類和零樣本名人識別任務(wù)中的表現(xiàn)有限。

    • 社會影響:強調(diào)了在部署監(jiān)控系統(tǒng)時需要特別關(guān)注倫理和社會影響,確保模型的公平性和透明性。

    • 未來研究:這些實驗旨在幫助研究社區(qū)更好地理解通用計算機視覺模型的潛在影響,并推動圍繞這些系統(tǒng)開發(fā)規(guī)范和檢查。

7.3. Future Work

1. 初步分析的目的

  • 說明挑戰(zhàn):這項初步分析旨在說明通用計算機視覺模型(如CLIP)所帶來的一些挑戰(zhàn),并窺見它們的偏見和影響。

  • 激發(fā)未來研究:希望這項工作能激發(fā)對未來研究的動機,以更全面地表征這類模型的能力和不足,以及它們的偏見。

2. 與研究社區(qū)的交流

  • 社區(qū)合作:作者希望與研究社區(qū)就這些問題進(jìn)行交流,共同推進(jìn)對通用計算機視覺模型的理解和改進(jìn)。

3. 未來研究的方向

  • 進(jìn)一步表征模型能力:向前邁進(jìn)的一個好步驟是社區(qū)探索,進(jìn)一步表征像CLIP這樣的模型的能力。這包括確定它們表現(xiàn)出有希望的性能的應(yīng)用領(lǐng)域,以及它們可能表現(xiàn)不佳的領(lǐng)域。

4. 表征過程的好處

  • 確定有益的下游用途:在研究過程的早期確定模型可能有益的下游用途,使其他研究人員能夠思考應(yīng)用。

  • 揭示敏感任務(wù):揭示具有重大敏感性和社會利益相關(guān)者眾多的任務(wù),這可能需要政策制定者進(jìn)行干預(yù)。

  • 表征偏見:更好地表征模型中的偏見,提醒其他研究人員關(guān)注領(lǐng)域和干預(yù)領(lǐng)域。

  • 創(chuàng)建測試套件:創(chuàng)建測試套件來評估像CLIP這樣的系統(tǒng),以便在開發(fā)周期的早期更好地表征模型能力。

  • 識別故障模式:識別潛在的故障模式和需要進(jìn)一步工作的領(lǐng)域。

5. 作者的計劃

  • 貢獻(xiàn)研究:作者計劃為這項工作做出貢獻(xiàn),并希望這項分析能為后續(xù)研究提供一些激勵性的例子。

6. 總結(jié)

  • 初步分析的目的:這項初步分析旨在說明通用計算機視覺模型(如CLIP)所帶來的一些挑戰(zhàn),并窺見它們的偏見和影響。

  • 未來研究的方向:未來研究應(yīng)進(jìn)一步表征模型的能力和不足,確定其有益的應(yīng)用領(lǐng)域和潛在的故障模式。

  • 社區(qū)合作:作者希望與研究社區(qū)合作,共同推進(jìn)對通用計算機視覺模型的理解和改進(jìn)。

  • 表征過程的好處:通過早期確定模型的有益用途、揭示敏感任務(wù)、表征偏見、創(chuàng)建測試套件和識別故障模式,可以增加模型被有益使用的可能性。

8 Related Work

1. 自然語言監(jiān)督的廣泛定義

  • 定義:任何將書面、口頭、手語或任何其他形式的人類語言作為其訓(xùn)練信號一部分的模型,可以說都是在使用自然語言作為監(jiān)督的來源。

  • 涵蓋領(lǐng)域:這包括分布語義學(xué)領(lǐng)域的大部分工作,如主題模型(Blei et al., 2003)、單詞、句子和段落向量(Mikolov et al., 2013; Kiros et al., 2015; Le & Mikolov, 2014)以及語言模型(Bengio et al., 2003)。

  • 自然語言處理(NLP):NLP領(lǐng)域涉及以某種方式預(yù)測或建模自然語言序列,包括利用自然語言監(jiān)督的形式,如解釋、反饋、指令和建議,用于分類等任務(wù)。

2. 自然語言監(jiān)督在不同領(lǐng)域的應(yīng)用

  • 基于對話的學(xué)習(xí):Weston (2016)、Li et al. (2016) 和 Hancock et al. (2019) 開發(fā)了從對話中的交互式自然語言反饋中學(xué)習(xí)的技術(shù)。

  • 語義解析:Srivastava et al. (2017) 利用語義解析將自然語言解釋轉(zhuǎn)換為特征或額外的訓(xùn)練標(biāo)簽(Hancock et al., 2018)。

  • 關(guān)系提取:ExpBERT (Murty et al., 2020) 使用由深度上下文語言模型在自然語言解釋和描述關(guān)系上的條件化產(chǎn)生的特性表示,以提高關(guān)系提取任務(wù)的性能。

3. CLIP模型的背景

  • 自然語言監(jiān)督:CLIP是一個使用自然語言作為訓(xùn)練信號來學(xué)習(xí)語言領(lǐng)域之外的領(lǐng)域的例子。

  • 早期工作:Ramanathan等人(2013)的研究是最早使用“自然語言監(jiān)督”這個術(shù)語的工作,表明自然語言描述可以與其他監(jiān)督來源一起使用,以提高視頻事件理解任務(wù)的性能。

  • 早期應(yīng)用:自然語言描述在計算機視覺中的使用方法遠(yuǎn)早于這個特定術(shù)語的使用,特別是用于圖像檢索(Mori et al., 1999)和對象分類(Wang et al., 2009)。

4. 文本-圖像檢索的歷史

  • 早期工作:Mori等人(1999)是早期工作的代表,主要集中在預(yù)測目標(biāo)上。

  • 聯(lián)合多模態(tài)嵌入:隨著時間的推移,研究轉(zhuǎn)向了學(xué)習(xí)聯(lián)合多模態(tài)嵌入空間,技術(shù)如核典型相關(guān)分析和各種排名目標(biāo)(Weston et al., 2010; Socher & Fei-Fei, 2010; Hodosh et al., 2013)。

  • 性能提升:隨著時間的推移,工作探索了許多訓(xùn)練目標(biāo)、轉(zhuǎn)移和更具表現(xiàn)力的模型的組合,并穩(wěn)步提高了性能(Frome et al., 2013; Socher et al., 2014; Karpathy et al., 2014; Kiros et al., 2014; Faghri et al., 2017)。

5. 自然語言監(jiān)督在其他領(lǐng)域的應(yīng)用

  • 視頻處理:Stroud等人(2020)通過訓(xùn)練系統(tǒng)將描述性文本與視頻而不是圖像配對,探索了大規(guī)模表示學(xué)習(xí)。Miech等人(2019; 2020b)探索了使用密集的口頭自然語言監(jiān)督進(jìn)行視頻處理。

  • 多模態(tài)學(xué)習(xí):Alayrac等人(2020)通過將原始音頻作為額外的監(jiān)督來源,將這條工作線擴展到另一個模態(tài),并展示了結(jié)合所有三種監(jiān)督來源的好處。

6. 圖像-文本對數(shù)據(jù)集

  • 早期數(shù)據(jù)集:現(xiàn)代關(guān)于圖像-文本檢索的工作依賴于一組眾包句子級別的圖像字幕評估數(shù)據(jù)集,如Pascal1K(Rashtchian et al., 2010)、Flickr8K(Hodosh et al., 2013)和Flickr30K(Young et al., 2014)。

  • 大規(guī)模數(shù)據(jù)集:已經(jīng)提出了幾種方法來自動創(chuàng)建更大的數(shù)據(jù)集,如Conceptual Captions(Sharma et al., 2018)、LAIT(Qi et al., 2020)和OCR-CC(Yang et al., 2020)。

  • WIT數(shù)據(jù)集:CLIP構(gòu)建了一個新的圖像-文本對數(shù)據(jù)集WIT,有100萬到1000萬個訓(xùn)練樣本,顯著大于其他數(shù)據(jù)集。

7. 網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)

  • 圖像搜索引擎:這條工作線通過查詢圖像搜索引擎來構(gòu)建圖像數(shù)據(jù)集,通過查詢術(shù)語并使用查詢作為返回圖像的標(biāo)簽(Fergus et al., 2005)。

  • 性能提升:在這些大但嘈雜的標(biāo)記數(shù)據(jù)集上訓(xùn)練的分類器可以與在較小的精心標(biāo)記的數(shù)據(jù)集上訓(xùn)練的分類器相媲美。

  • CLIP的數(shù)據(jù)集創(chuàng)建:CLIP在數(shù)據(jù)集創(chuàng)建過程中也使用搜索查詢,但只使用與圖像共同出現(xiàn)的完整文本序列作為監(jiān)督,而不是僅使用查詢。

8. CLIP與聯(lián)合模型的關(guān)系

  • 聯(lián)合模型:CLIP與最近關(guān)于學(xué)習(xí)視覺和語言聯(lián)合模型的一系列活動有關(guān)(Lu et al., 2019; Tan & Bansal, 2019; Chen et al., 2019; Li et al., 2020b; Yu et al., 2020)。

  • 任務(wù):這些模型專注于豐富地連接視覺和語言,以解決復(fù)雜的下游任務(wù),如視覺問題回答、視覺常識推理或多模態(tài)蘊含。

  • CLIP的特點:CLIP則專注于通過自然語言監(jiān)督從頭開始學(xué)習(xí)視覺模型,并不通過聯(lián)合注意力模型密集地連接這兩個領(lǐng)域。在CLIP模型中,圖像和文本領(lǐng)域之間的唯一交互是在學(xué)到的聯(lián)合嵌入空間中的一個點積。

9. 總結(jié)

  • 自然語言監(jiān)督:自然語言監(jiān)督在各種機器學(xué)習(xí)和計算機視覺任務(wù)中廣泛應(yīng)用,包括圖像檢索、對象分類、視頻處理和多模態(tài)學(xué)習(xí)。

  • CLIP模型:CLIP通過使用自然語言作為訓(xùn)練信號,從頭開始學(xué)習(xí)視覺模型,構(gòu)建了一個大規(guī)模的圖像-文本對數(shù)據(jù)集WIT,展示了在文本-圖像檢索任務(wù)中的出色性能。

  • 未來研究:CLIP與聯(lián)合模型的研究線密切相關(guān),未來的研究可以進(jìn)一步探索如何結(jié)合這些方法,以提高模型的性能和泛化能力。

9 小結(jié)

舉例說明CLIP具體訓(xùn)練過程:

CLIP(Contrastive Language–Image Pretraining)是一種多模態(tài)模型,通過聯(lián)合訓(xùn)練圖像編碼器和文本編碼器,學(xué)習(xí)圖像和文本之間的對應(yīng)關(guān)系。在訓(xùn)練過程中,CLIP學(xué)習(xí)將圖像和文本映射到同一個高維嵌入空間中,使得正確的(圖像,文本)對在該空間中的距離更近,而錯誤的對距離更遠(yuǎn)。在測試階段,CLIP可以利用這種學(xué)習(xí)到的嵌入空間進(jìn)行零樣本分類。

1. 訓(xùn)練過程

1.1 數(shù)據(jù)準(zhǔn)備

  • 數(shù)據(jù)集:CLIP使用大量的(圖像,文本)對進(jìn)行訓(xùn)練。這些對可以從互聯(lián)網(wǎng)上抓取,例如從網(wǎng)頁中提取圖像和相關(guān)的描述文本。

  • 示例數(shù)據(jù):假設(shè)我們有一批(圖像,文本)對,如下所示:

    • (圖像1,"一只貓坐在沙發(fā)上")

    • (圖像2,"一輛紅色的跑車")

    • (圖像3,"一群人在公園里散步")

1.2 模型結(jié)構(gòu)

  • 圖像編碼器:負(fù)責(zé)將圖像轉(zhuǎn)換為固定長度的向量表示。常用的圖像編碼器包括ResNet、ViT等。

  • 文本編碼器:負(fù)責(zé)將文本轉(zhuǎn)換為固定長度的向量表示。常用的文本編碼器包括Transformer等。

1.3 訓(xùn)練目標(biāo)

  • 對比損失:CLIP使用對比損失函數(shù)來優(yōu)化模型。具體來說,對于一批(圖像,文本)對,模型的目標(biāo)是最大化正確配對的相似度,同時最小化錯誤配對的相似度。

  • 相似度計算:使用點積或余弦相似度來計算圖像和文本嵌入向量之間的相似度。

1.4 訓(xùn)練步驟

  1. 輸入數(shù)據(jù):將一批(圖像,文本)對輸入模型。

  2. 編碼:圖像編碼器將圖像轉(zhuǎn)換為圖像嵌入向量,文本編碼器將文本轉(zhuǎn)換為文本嵌入向量。

  3. 相似度計算:計算每對圖像和文本嵌入向量之間的相似度。

  4. 損失計算:使用對比損失函數(shù)計算損失。

  5. 反向傳播:通過反向傳播更新圖像編碼器和文本編碼器的參數(shù),以最小化損失。

2. 測試階段

2.1 零樣本分類

  • 目標(biāo):在測試階段,CLIP可以利用學(xué)習(xí)到的嵌入空間進(jìn)行零樣本分類,即在沒有額外訓(xùn)練的情況下對新類別進(jìn)行分類。

2.2 具體步驟

  1. 類別嵌入:使用文本編碼器將目標(biāo)數(shù)據(jù)集的類別名稱或描述嵌入到向量表示中。例如,對于一個包含“貓”、“狗”和“鳥”三個類別的數(shù)據(jù)集,將“貓”、“狗”和“鳥”分別嵌入到向量表示中。

  2. 圖像嵌入:將待分類的新圖像輸入圖像編碼器,生成圖像嵌入向量。

  3. 相似度計算:計算圖像嵌入向量與每個類別嵌入向量之間的相似度。

  4. 分類:選擇相似度最高的類別作為預(yù)測結(jié)果。

2.3 示例

假設(shè)我們有一個新的圖像,需要判斷它是“貓”、“狗”還是“鳥”。

  1. 類別嵌入

    1. “貓” → [0.1, 0.2, 0.3, ...]

    2. “狗” → [0.4, 0.5, 0.6, ...]

    3. “鳥” → [0.7, 0.8, 0.9, ...]

  1. 圖像嵌入

    1. 新圖像 → [0.2, 0.3, 0.4, ...]

  1. 相似度計算

    1. 新圖像與“貓”的相似度:0.85

    2. 新圖像與“狗”的相似度:0.65

    3. 新圖像與“鳥”的相似度:0.70

  1. 分類

    1. 選擇相似度最高的類別作為預(yù)測結(jié)果:新圖像是“貓”。

3. 應(yīng)用實例

3.1 圖像檢索

  • 任務(wù):給定一個查詢文本,找到與之最相關(guān)的圖像。

  • 步驟

    • 使用文本編碼器將查詢文本嵌入到向量表示中。

    • 計算查詢文本嵌入向量與數(shù)據(jù)庫中每個圖像嵌入向量之間的相似度。

    • 選擇相似度最高的圖像作為檢索結(jié)果。

3.2 零樣本分類

  • 任務(wù):對新類別進(jìn)行分類。

  • 步驟

    • 使用文本編碼器將目標(biāo)數(shù)據(jù)集的類別名稱或描述嵌入到向量表示中。

    • 將待分類的新圖像輸入圖像編碼器,生成圖像嵌入向量。

    • 計算圖像嵌入向量與每個類別嵌入向量之間的相似度。

    • 選擇相似度最高的類別作為預(yù)測結(jié)果。

4. 優(yōu)點和挑戰(zhàn)

4.1 優(yōu)點

  • 零樣本學(xué)習(xí):能夠在沒有額外訓(xùn)練的情況下對新類別進(jìn)行分類。

  • 多模態(tài)能力:能夠處理圖像和文本兩種模態(tài)的數(shù)據(jù)。

  • 大規(guī)模數(shù)據(jù):可以利用互聯(lián)網(wǎng)上的大量數(shù)據(jù)進(jìn)行訓(xùn)練,提高模型的泛化能力。

4.2 挑戰(zhàn)

  • 偏見和公平性:模型可能繼承訓(xùn)練數(shù)據(jù)中的偏見,需要仔細(xì)評估和管理。

  • 計算資源:訓(xùn)練和推理需要大量的計算資源。

  • 應(yīng)用場景:在某些高需求的監(jiān)控任務(wù)中,現(xiàn)有的專用模型可能表現(xiàn)更好。

圖像嵌入向量 & 文本嵌入向量 具體如何計算?

在CLIP模型中,圖像嵌入向量和文本嵌入向量進(jìn)入相同空間的過程是通過聯(lián)合訓(xùn)練圖像編碼器和文本編碼器來實現(xiàn)的。具體來說,這兩個編碼器將圖像和文本分別映射到一個共享的高維嵌入空間中,使得正確的(圖像,文本)對在該空間中的距離更近,而錯誤的對距離更遠(yuǎn)。以下是詳細(xì)的步驟和機制:

1. 編碼器結(jié)構(gòu)

1.1 圖像編碼器

  • 結(jié)構(gòu):圖像編碼器通常是一個深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),如ResNet或Vision Transformer(ViT)。

  • 功能:將輸入圖像轉(zhuǎn)換為固定長度的向量表示,即圖像嵌入向量。

1.2 文本編碼器

  • 結(jié)構(gòu):文本編碼器通常是一個基于Transformer的模型,如BERT或GPT。

  • 功能:將輸入文本轉(zhuǎn)換為固定長度的向量表示,即文本嵌入向量。

2. 聯(lián)合訓(xùn)練

2.1 數(shù)據(jù)準(zhǔn)備

  • 數(shù)據(jù)集:CLIP使用大量的(圖像,文本)對進(jìn)行訓(xùn)練。這些對可以從互聯(lián)網(wǎng)上抓取,例如從網(wǎng)頁中提取圖像和相關(guān)的描述文本。

  • 示例數(shù)據(jù):假設(shè)我們有一批(圖像,文本)對,如下所示:

    • (圖像1,"一只貓坐在沙發(fā)上")

    • (圖像2,"一輛紅色的跑車")

    • (圖像3,"一群人在公園里散步")

2.2 編碼

  • 圖像編碼:將圖像輸入圖像編碼器,生成圖像嵌入向量。

    • 例如,圖像1 → [0.1, 0.2, 0.3, ...]

  • 文本編碼:將文本輸入文本編碼器,生成文本嵌入向量。

    • 例如,"一只貓坐在沙發(fā)上" → [0.4, 0.5, 0.6, ...]

2.3 相似度計算

  • 相似度度量:使用點積或余弦相似度來計算圖像嵌入向量和文本嵌入向量之間的相似度。

    • 例如,計算圖像1和"一只貓坐在沙發(fā)上"的相似度:點積(圖像1, "一只貓坐在沙發(fā)上") = 0.1 * 0.4 + 0.2 * 0.5 + 0.3 * 0.6 + ...

2.4 對比損失

  • 對比損失函數(shù):CLIP使用對比損失函數(shù)來優(yōu)化模型。具體來說,對于一批(圖像,文本)對,模型的目標(biāo)是最大化正確配對的相似度,同時最小化錯誤配對的相似度。

    • 例如,假設(shè)我們有一批(圖像,文本)對,包括(圖像1,"一只貓坐在沙發(fā)上")、(圖像2,"一輛紅色的跑車")、(圖像3,"一群人在公園里散步")。

    • 模型需要最大化(圖像1,"一只貓坐在沙發(fā)上")的相似度,同時最小化(圖像1,"一輛紅色的跑車")和(圖像1,"一群人在公園里散步")的相似度。

3. 優(yōu)化過程

3.1 反向傳播

  • 梯度計算:通過計算損失函數(shù)的梯度,更新圖像編碼器和文本編碼器的參數(shù)。

  • 參數(shù)更新:使用優(yōu)化算法(如Adam)更新圖像編碼器和文本編碼器的參數(shù),以最小化損失函數(shù)。

4. 測試階段

4.1 零樣本分類

  • 類別嵌入:使用文本編碼器將目標(biāo)數(shù)據(jù)集的類別名稱或描述嵌入到向量表示中。

    • 例如,對于一個包含“貓”、“狗”和“鳥”三個類別的數(shù)據(jù)集,將“貓”、“狗”和“鳥”分別嵌入到向量表示中。

      • “貓” → [0.1, 0.2, 0.3, ...]

      • “狗” → [0.4, 0.5, 0.6, ...]

      • “鳥” → [0.7, 0.8, 0.9, ...]

4.2 圖像嵌入

  • 新圖像嵌入:將待分類的新圖像輸入圖像編碼器,生成圖像嵌入向量。

    • 例如,新圖像 → [0.2, 0.3, 0.4, ...]

4.3 相似度計算

  • 相似度計算:計算圖像嵌入向量與每個類別嵌入向量之間的相似度。

    • 例如,計算新圖像與“貓”的相似度:點積(新圖像, “貓”) = 0.2 * 0.1 + 0.3 * 0.2 + 0.4 * 0.3 + ...

    • 計算新圖像與“狗”的相似度:點積(新圖像, “狗”) = 0.2 * 0.4 + 0.3 * 0.5 + 0.4 * 0.6 + ...

    • 計算新圖像與“鳥”的相似度:點積(新圖像, “鳥”) = 0.2 * 0.7 + 0.3 * 0.8 + 0.4 * 0.9 + ...

4.4 分類

  • 選擇相似度最高的類別:選擇相似度最高的類別作為預(yù)測結(jié)果。

    • 例如,假設(shè)新圖像與“貓”的相似度最高,那么預(yù)測結(jié)果是“貓”。

5. 機制總結(jié)

  • 圖像編碼器:將圖像轉(zhuǎn)換為圖像嵌入向量。

  • 文本編碼器:將文本轉(zhuǎn)換為文本嵌入向量。

  • 聯(lián)合訓(xùn)練:通過對比損失函數(shù),使正確的(圖像,文本)對在嵌入空間中的距離更近,錯誤的對距離更遠(yuǎn)。

  • 測試階段:利用學(xué)習(xí)到的嵌入空間進(jìn)行零樣本分類,通過計算圖像嵌入向量與類別嵌入向量之間的相似度,選擇相似度最高的類別作為預(yù)測結(jié)果。

圖像和文本分別映射到一個共享的高維嵌入空間中,是如何做到的?

通過設(shè)計和訓(xùn)練兩個獨立但又相互關(guān)聯(lián)的編碼器來實現(xiàn)的。這兩個編碼器分別是圖像編碼器和文本編碼器。下面詳細(xì)介紹這一過程的具體實現(xiàn)方法:

1. 圖像編碼器

1.1 結(jié)構(gòu)

  • 卷積神經(jīng)網(wǎng)絡(luò) (CNN):傳統(tǒng)的圖像編碼器通?;诰矸e神經(jīng)網(wǎng)絡(luò),如ResNet。CNN能夠提取圖像的局部特征,并通過多層處理逐步形成全局特征。

  • Vision Transformer (ViT):近年來,基于Transformer的模型也被廣泛應(yīng)用于圖像編碼,如ViT。ViT將圖像分割成多個patch,然后通過自注意力機制捕捉patch之間的關(guān)系。

1.2 嵌入過程

  • 特征提取:輸入圖像經(jīng)過多層卷積或自注意力機制后,得到一個高維特征圖。

  • 池化操作:通常會進(jìn)行全局平均池化或最大池化操作,將高維特征圖壓縮為一個固定長度的向量。

  • 規(guī)范化:為了確保嵌入向量的尺度一致,通常會對向量進(jìn)行L2規(guī)范化。

2. 文本編碼器

2.1 結(jié)構(gòu)

  • Transformer:文本編碼器通?;赥ransformer模型,如BERT或GPT。Transformer通過自注意力機制能夠捕捉文本中的長依賴關(guān)系。

  • 詞嵌入:將輸入文本中的每個詞轉(zhuǎn)換為詞嵌入向量。

2.2 嵌入過程

  • 詞嵌入:將文本中的每個詞轉(zhuǎn)換為詞嵌入向量。

  • 位置編碼:添加位置編碼以保留詞序信息。

  • 多頭自注意力:通過多頭自注意力機制捕捉詞與詞之間的關(guān)系。

  • 前饋網(wǎng)絡(luò):通過前饋網(wǎng)絡(luò)進(jìn)一步處理特征。

  • 規(guī)范化:最終輸出的向量通常也會進(jìn)行L2規(guī)范化。

3. 共享嵌入空間

3.1 維度對齊

  • 維度匹配:確保圖像編碼器和文本編碼器的輸出向量具有相同的維度。例如,都輸出1024維的向量。

3.2 對比學(xué)習(xí)

  • 對比損失:通過對比損失函數(shù)來優(yōu)化模型,使得正確的(圖像,文本)對在嵌入空間中的距離更近,錯誤的對距離更遠(yuǎn)。

  • 正樣本和負(fù)樣本:在一個批次中,每張圖像都有一個對應(yīng)的正確文本描述(正樣本),以及其他圖像的文本描述(負(fù)樣本)。

  • 損失函數(shù):常用的對比損失函數(shù)有InfoNCE損失函數(shù),其形式如下:

其中,I 表示圖像嵌入向量,T 表示正確的文本嵌入向量,T' 表示其他文本嵌入向量,sim 表示相似度度量(如點積或余弦相似度),t 是溫度超參數(shù)。

4. 訓(xùn)練過程

4.1 前向傳播

  • 編碼:將圖像和文本分別輸入圖像編碼器和文本編碼器,得到圖像嵌入向量和文本嵌入向量。

  • 相似度計算:計算每對(圖像,文本)嵌入向量的相似度。

4.2 反向傳播

  • 損失計算:使用對比損失函數(shù)計算損失。

  • 梯度計算:通過反向傳播計算損失函數(shù)關(guān)于圖像編碼器和文本編碼器參數(shù)的梯度。

  • 參數(shù)更新:使用優(yōu)化算法(如Adam)更新參數(shù),以最小化損失函數(shù)。

http://www.risenshineclean.com/news/6290.html

相關(guān)文章:

  • wordpress常見的15個問題鄭州seo優(yōu)化外包公司
  • 蘇州公司做網(wǎng)站qq關(guān)鍵詞排名優(yōu)化
  • 山東一建建設(shè)有限公司網(wǎng)站什么是企業(yè)營銷型網(wǎng)站
  • 呼和浩特市建設(shè)委員會官方網(wǎng)站網(wǎng)站建設(shè)需求模板
  • 如何注冊騰訊企業(yè)郵箱店鋪seo是什么意思
  • 下沙網(wǎng)站建設(shè)谷歌優(yōu)化seo
  • 網(wǎng)站建設(shè)合約網(wǎng)上學(xué)電腦培訓(xùn)中心
  • 江西住房和城鄉(xiāng)建設(shè)廳網(wǎng)站windows優(yōu)化大師免費
  • 為什么做金融網(wǎng)站犯法seo是指搜索引擎營銷
  • 導(dǎo)航網(wǎng)站怎么做seo霸屏推廣
  • 做網(wǎng)站軟件j短視頻營銷成功的案例
  • 自助手機建站網(wǎng)站站點
  • 安徽專業(yè)網(wǎng)站建設(shè)大全推薦新網(wǎng)站推廣方法
  • 做網(wǎng)站商城必須要買空間嗎app運營方案
  • 怎么查看網(wǎng)站的dns武漢網(wǎng)站運營專業(yè)樂云seo
  • 哈爾濱 做網(wǎng)站白度指數(shù)
  • wordpress 微博】蘇州網(wǎng)站建設(shè)優(yōu)化
  • seo是怎么優(yōu)化的寧波優(yōu)化系統(tǒng)
  • 工商局網(wǎng)站官網(wǎng)平臺推廣是什么
  • 描述建設(shè)一個網(wǎng)站的基本步驟網(wǎng)站建設(shè)企業(yè)
  • 如何在網(wǎng)站發(fā)廣告做seo推廣一年大概的費用
  • 網(wǎng)站怎樣維護(hù)seo入門培訓(xùn)
  • 網(wǎng)站的優(yōu)化與網(wǎng)站建設(shè)有關(guān)嗎如何制作自己的鏈接
  • 男做直播網(wǎng)站的磁力搜索引擎
  • 長沙網(wǎng)站建設(shè)專家遼寧好的百度seo公司
  • 國外做外掛的網(wǎng)站中國免費廣告網(wǎng)
  • 鄭州做品牌網(wǎng)站的公司免費網(wǎng)站 推廣網(wǎng)站
  • 網(wǎng)站密碼如何找回密碼百度企業(yè)官網(wǎng)
  • asp與java做網(wǎng)站效果百度seo優(yōu)化軟件
  • ui設(shè)計是什么專業(yè)的鄭州seo