中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

哈爾濱做設(shè)計和網(wǎng)站的公司嗎電話營銷外包公司

哈爾濱做設(shè)計和網(wǎng)站的公司嗎,電話營銷外包公司,怎么自定義wordpress登錄頁面,火車頭發(fā)布到wordpress由于clip論文過長,一直無法完整的閱讀該論文,故而抽取論文中的關(guān)鍵信息進(jìn)行記錄。主要記錄clip是如何實現(xiàn)的的(提出背景、訓(xùn)練數(shù)據(jù)、設(shè)計模式、訓(xùn)練超參數(shù)、prompt的作用),clip的能力(clip的模型版本、clip…

由于clip論文過長,一直無法完整的閱讀該論文,故而抽取論文中的關(guān)鍵信息進(jìn)行記錄。主要記錄clip是如何實現(xiàn)的的(提出背景、訓(xùn)練數(shù)據(jù)、設(shè)計模式、訓(xùn)練超參數(shù)、prompt的作用),clip的能力(clip的模型版本、clip的泛化能力)。

提出背景

1、text-to-text的訓(xùn)練方式徹底改變了NLP,其倡導(dǎo)使用任務(wù)不相干的數(shù)據(jù)訓(xùn)練模型,是的模型在計算量、數(shù)據(jù)規(guī)模、模型精度上不斷提升。大數(shù)據(jù)下訓(xùn)練的模型具備極強的zero-shot能力

2、ImageNet是圖像領(lǐng)域的基礎(chǔ)大數(shù)據(jù),其表明在大規(guī)模數(shù)據(jù)集訓(xùn)練后模型具備極強可擴展能力。NLP也可以采用這種模式進(jìn)行研究

3、目前使用自然語言監(jiān)督進(jìn)行圖像表示學(xué)習(xí)仍然很少,該類方法的精度遠(yuǎn)低于若干年前的計算機視覺方法

訓(xùn)練數(shù)據(jù)

構(gòu)建了一個新的數(shù)據(jù)集,其中包括4億對(圖像,文本),這些數(shù)據(jù)集從互聯(lián)網(wǎng)上的各種公開來源中收集起來。為了盡可能廣泛地覆蓋一組視覺概念,我們搜索(圖像、文本)對作為構(gòu)建過程的一部分,其文本包含50萬個查詢中的一個。我們大概通過每個查詢包含多達(dá)20,000對(圖像、文本)來平衡結(jié)果。所得到的數(shù)據(jù)集與用于訓(xùn)練GPT-2的WebText數(shù)據(jù)集具有相似的總字?jǐn)?shù)。我們將這個數(shù)據(jù)集稱為“智慧的網(wǎng)絡(luò)圖像文本”。

在論文附錄的表9中提供了多個公開數(shù)據(jù)集的數(shù)量量與類別數(shù),可以做一個額外知識了解一下。
在這里插入圖片描述

clip模式設(shè)計的由來

現(xiàn)有的圖像分類模型只能預(yù)測1000個ImageNet類時,從自然語言中學(xué)習(xí)一組開放的視覺概念的任務(wù)似乎很艱巨。在我們的努力過程中,我們發(fā)現(xiàn)訓(xùn)練效率是成功擴展自然語言監(jiān)督的關(guān)鍵,因此我們基于這個指標(biāo)選擇了最終的訓(xùn)練方法。

論文最初的方法,類似于VirTex,從頭開始聯(lián)合訓(xùn)練了一個圖像CNN和文本Transformer來預(yù)測一個圖像的標(biāo)題。這里可以表明基于Transformer 語義模型根據(jù)圖片預(yù)測詞匯效率不高然而,我們在有效地擴展這種方法時遇到了困難。在圖2中,我們展示了一個6300萬參數(shù)Transformer語言模型,它已經(jīng)使用了其ResNet-50圖像編碼器的兩倍計算,學(xué)習(xí)識別ImageNet類比一個更簡單的基線預(yù)測相同文本的模型通用的圖像分類模型慢三倍。

最終表明,基于對比度的學(xué)習(xí)效率是最高的。
在這里插入圖片描述
CLIP方法與圖像分類方法都有一個關(guān)鍵的相似之處。他們試圖預(yù)測每張圖片附帶的文本的確切文字。這是一項困難的任務(wù),因為有各種各樣的描述、評論和相關(guān)的文本與圖像共存。最近在圖像的對比表示學(xué)習(xí)方面的工作發(fā)現(xiàn),對比目標(biāo)比其等效的預(yù)測目標(biāo)可以學(xué)習(xí)更好的表示。們探索了訓(xùn)練一個系統(tǒng)來解決潛在的更容易的代理任務(wù),即只預(yù)測哪個文本整體與哪個圖像配對,而不是該文本的確切單詞。從相同的單詞袋編碼基線開始,我們將預(yù)測目標(biāo)替換為圖2中的一個對比目標(biāo),并觀察到轉(zhuǎn)移到ImageNet的零鏡頭轉(zhuǎn)移率的效率進(jìn)一步提高了4倍。

clip的訓(xùn)練與使用流程

具體訓(xùn)練流程如下:

給定一批N(圖像,文本)對,CLIP被訓(xùn)練來預(yù)測一批中可能發(fā)生的N×N(圖像,文本)配對。CLIP將學(xué)習(xí)一個多模態(tài)編碼空間通過聯(lián)合訓(xùn)練圖像編碼器和文本編碼器,以最大化批中N個實對的圖像和文本嵌入的余弦相似度,同時最小化N2?N個錯誤對嵌入的余弦相似度。我們優(yōu)化了這些相似性分?jǐn)?shù)上的對稱交叉熵?fù)p失。具體偽代碼如下所示:
在這里插入圖片描述
具體使用流程:
1、對圖像組與詞匯組進(jìn)行編碼(分別由圖像編碼器與圖像編碼器實現(xiàn))
2、計算圖片特征與詞匯特征的相似度
3、
在這里插入圖片描述

模型版本

clip一共有resnet、vit兩個系列,其中5個resnet和3個視覺Transformer。對于ResNets,我們訓(xùn)練一個ResNet-50,一個ResNet-101,然后再訓(xùn)練3個ResNet,它們遵循高效的net式模型縮放,使用大約ResNet-50計算的4倍、16倍和64倍。它們分別記為RN50x4、RN50x16和RN50x64。對于視覺Transformer,我們訓(xùn)練了ViT-B/32、ViT-B/16和ViT-L/14。
在這里插入圖片描述
基于論文中的圖標(biāo),可以發(fā)現(xiàn)VIT系列的模型在同等gflop下,acc比ResNet模型高2~3個點,這里博主覺得ViT-B/16模型是性價比最好的。
在這里插入圖片描述
論文中的圖12也表明,與在ImageNet上預(yù)先訓(xùn)練的模型相比,CLIP的特性對任務(wù)轉(zhuǎn)移更健壯。對于這兩個數(shù)據(jù)集分割,在CLIP模型表示上訓(xùn)練的線性探針的遷移分?jǐn)?shù)都高于其他具有類似ImageNet性能的模型。這表明,在ImageNet上訓(xùn)練的模型的表示在某種程度上過于適合它們的任務(wù)
在這里插入圖片描述
在論文附錄中,各模型版本在27個數(shù)據(jù)集上的zero-shot性能,可以發(fā)現(xiàn)分辨率從224提升到336后,模型精度提升比較明顯。
在這里插入圖片描述

訓(xùn)練超參數(shù)

這里可以發(fā)現(xiàn)clip訓(xùn)練時的batchsize是3w多,詞匯表接近5w(這表明clip支持對5w多個詞匯的編碼),訓(xùn)練epoch為32。

我們訓(xùn)練了所有的模型32個epoch。我們使用Adam優(yōu)化器(Kingma & Ba,2014)和解耦的權(quán)重衰減正則化(Loshchilov & Hutter,2017),應(yīng)用于所有非增益或偏差的權(quán)重,并使用余弦調(diào)度來衰減學(xué)習(xí)率(Loshchilov & Hutter,2016)。初始超參數(shù)是在訓(xùn)練1個epoch,使用網(wǎng)格搜索,隨機搜索和對基線ResNet-50模型進(jìn)行手動調(diào)整的組合來設(shè)置的。然后,由于計算約束,超參數(shù)被啟發(fā)式地適用于更大的模型??蓪W(xué)習(xí)溫度參數(shù)τ初始化為(Wu et al.,2018)的0.07,并進(jìn)行裁剪以防止縮放到100以上,我們發(fā)現(xiàn)這是防止訓(xùn)練不穩(wěn)定性所必要的。我們使用一個非常大的小批量,32768。混合精度(Micikevicius et al.,2017)用于加速訓(xùn)練和保存記憶。為了節(jié)省額外的內(nèi)存,梯度檢查點(格里ewank&Walther,2000;陳等人,2016)、半精度Adam(Dhariwal等人,2020)和半精度的文本編碼器權(quán)重。嵌入相似性的計算也被分割了,因為單個gpu只計算其局部批嵌入所需的成對相似性的子集。最大的ResNet型號,RN50x64,在592個V100gpu上訓(xùn)練花了18天,而最大的視覺Transformer在256個V100gpu上訓(xùn)練花了12天。對于ViT-L/14,我們還以更高的336像素分辨率進(jìn)行了一個額外的epoch的預(yù)訓(xùn)練,以提高類似于FixRes的性能(Touvron等人,2019年)。我們將這個模型表示為ViT-L/14@336px。除非另有說明,本文中報告的“CLIP”結(jié)果都使用我們認(rèn)為表現(xiàn)最好的模型。
在這里插入圖片描述

prompt工程對訓(xùn)練的影響

大多數(shù)圖像分類數(shù)據(jù)集都是以事后編碼的方式對信息進(jìn)行描述,只用標(biāo)簽的一個類別id來標(biāo)注圖像,并將類別id映射到特定的字符名稱上事后編碼。一些數(shù)據(jù)集,如Flowers102和GTSRB,在他們發(fā)布的版本中似乎根本沒有包含這個類別映射,不利于零樣本遷移。對于許多的數(shù)據(jù)集,我們觀察到他們的標(biāo)簽選擇有些隨意,只依賴任務(wù)的標(biāo)簽編碼進(jìn)行遷移,而在訓(xùn)練中不考慮zero-shot轉(zhuǎn)移相關(guān)的問題。圖像數(shù)據(jù)集以map的決定了與自然語言的關(guān)聯(lián),沒有考慮到類別信息的遷移性

一個常見的問題是ploysemy。當(dāng)一個類的名稱是提供給CLIP的文本編碼器的唯一信息時,由于缺乏上下文,它無法區(qū)分這意味著哪個詞的意義。在某些情況下,同一個單詞的多個含義可能會作為不同的類包含在同一個數(shù)據(jù)集中。這發(fā)生在ImageNet中,它包括建筑起重機和飛行的起重機。另一個例子是在Oxford-IIIT寵物數(shù)據(jù)集的類別中,從上下文來看,boxer顯然指的是一種狗,但缺乏上下文的文本編碼器同樣可能指一種運動員。圖像數(shù)據(jù)集的信息標(biāo)簽與語境相關(guān),存在多義詞。如cranes、boxer

我們遇到的另一個問題是,在我們的訓(xùn)練前的數(shù)據(jù)集中,與圖像配對的文本只是一個單詞是相對罕見的。通常文本是一個完整的句子,以某種方式描述圖像。為了幫助彌合這種分布差距,我們發(fā)現(xiàn)使用prompt模板“A photo of a {label}.”。作為一個幫助指定文本的默認(rèn)值,是關(guān)于圖像的內(nèi)容。這通??梢蕴岣咴趦H使用標(biāo)簽文本的基準(zhǔn)之上的性能。例如,僅使用這個提示符就可以使ImageNet的準(zhǔn)確率提高1.3%。通過prompt模板將label構(gòu)造為完整的自然語言,將精度在ImageNet上的精度提升了1.3%

類似于關(guān)于GPT-3的“prompt engineering”討論(Brown等人,2020年;Gao等人,2020年),我們還觀察到,通過為每個任務(wù)定制提示文本,可以顯著提高zero-shot性能。下面是幾個非詳盡的例子。我們在幾個細(xì)粒度的圖像分類數(shù)據(jù)集上發(fā)現(xiàn),它有助于指定類別。例如,在Oxford-IIIT寵物上,使用“A photo of a {label}, a type of pet.” 為了幫助提供上下文,工作效果很好。同樣,在食物101上指定一種食物,在FGVC飛機上一種飛機也有幫助。對于OCR數(shù)據(jù)集,我們發(fā)現(xiàn)在需要識別的文本或數(shù)字周圍添加引號可以提高性能。最后,我們發(fā)現(xiàn),在衛(wèi)星圖像分類數(shù)據(jù)集上,它有助于指定圖像是這種形式的,我們使用了f “a satellite photo of a {label}.”. 通過更多的語義背景信息融入label的prompt模板,更有利于提升zero-shot性能。具體如類別背景、數(shù)據(jù)領(lǐng)域

我們還嘗試了集成多個zero-shot分類器作為另一種提高性能的方法。這些分類器是通過使用不同的上下文提示來計算的,比如“A photo of a big {label}”和“A photo of a small {label}”。我們在嵌入空間而不是概率空間上構(gòu)造集合。這允許我們緩存一組平均文本嵌入,以便當(dāng)在許多預(yù)測上攤銷時,集成的計算成本與使用單個分類器相同。我們已經(jīng)觀察到對許多生成的zero-shot分類器的集成,以可靠地提高性能,并將其用于大多數(shù)數(shù)據(jù)集。在ImageNet上,我們集成了80個不同的上下文提示,這比上面討論的單個默認(rèn)提示額外提高了3.5%的性能。綜合考慮,快速工程和集成將ImageNet精度提高近5%。在圖4中,我們可視化了與Li等人(2017)中所述的無上下文基線方法相比,快速工程和集成如何改變一組CLIP模型的性能。針對圖像數(shù)據(jù)中的目標(biāo)成像特性,對一個數(shù)據(jù)集生成差異化的prompt更有利于提升精度,如尺度信息、目標(biāo)背景信息等,通過該手段集成了80個不同的上下文提示,將ImageNet精度提高近5%。

在這里插入圖片描述

clip的泛化性

在這里插入圖片描述

CLIP在27個數(shù)據(jù)集中,有16個獲勝。查看單個數(shù)據(jù)集可以發(fā)現(xiàn)一些有趣的行為。在細(xì)粒度的分類任務(wù)上,我們觀察到它在性能上的廣泛分布。在其中兩個數(shù)據(jù)集上,Stanford Cars和Food101,zero-shot CLIP在ResNet-50特性上的表現(xiàn)超過邏輯回歸超過20%,而在flowers102和FGVC飛機上,zero-shot CLIP的表現(xiàn)落后超過10%。在Oxfordpets和Birdsnap上,表現(xiàn)更接近。我們懷疑這些差異主要是由于WIT和ImageNet之間每個任務(wù)監(jiān)督數(shù)量不同。在“一般”對象分類數(shù)據(jù)集上,如ImageNet、CIFAR10/100、STL10和PascalVOC2007的性能相對相似,在所有情況下,zero-shot CLIP都有輕微的優(yōu)勢。在STL10上,CLIP總體上達(dá)到了99.3%,這似乎是一種新的技術(shù)狀態(tài),盡管沒有使用任何訓(xùn)練示例。Zero-shot CLIP在兩個測量視頻動作識別的數(shù)據(jù)集上顯著優(yōu)于ResNet-50。在Kinetics700上,CLIP的性能比ResNet-50高出14.5%。Zero-shot CLIP在UCF101上的性能也比ResNet-50的功能高出7.7%。我們推測,這是由于自然語言與ImageNet中以名詞為中心的賓語監(jiān)督相比,為涉及動詞的視覺概念提供了更廣泛的監(jiān)督。對于泛意義上的圖像數(shù)據(jù)進(jìn)行遷移zero-shot CLIP都能表現(xiàn)出較優(yōu)的性能

zero-shot CLIP的表現(xiàn)局部明顯不佳,我們看到,零鏡頭CLIP 在一些專門的、復(fù)雜的或抽象的任務(wù),如衛(wèi)星圖像分類(EuroSAT和RESISC45),淋巴結(jié)腫瘤檢測(PatchCamelyon),計數(shù)對象(CLEVRCounts),自動駕駛相關(guān)的任務(wù),如德國交通標(biāo)志識別(GTSRB),識別到最近的汽車的距離(KITTIDistance)。這些結(jié)果突出了零鏡頭CLIP 在更復(fù)雜的任務(wù)上的能力較差。相比之下,非專家的人類可以穩(wěn)健地執(zhí)行其中的一些任務(wù),如計數(shù)、衛(wèi)星圖像分類和交通標(biāo)志識別,這表明有很大的改進(jìn)空間。然而,我們需要注意的是,目前還不清楚測量zero-shot轉(zhuǎn)移,而不是少射擊轉(zhuǎn)移,是否能對學(xué)習(xí)者之前沒有經(jīng)驗的困難任務(wù)進(jìn)行有意義的評估,比如幾乎所有人類的淋巴結(jié)腫瘤的淋巴結(jié)腫瘤分類。在專業(yè)領(lǐng)域的圖像數(shù)據(jù)上進(jìn)行遷移zero-shot CLIP都能表現(xiàn)出較優(yōu)的性能

當(dāng)將zero-shot性能與完全監(jiān)督模型進(jìn)行比較時,CLIP的任務(wù)學(xué)習(xí)能力,與少射擊方法相比是一個更直接的比較,因為zero-shot是它的極限。在圖6中,我們可視化了zero-shot CLIP與許多圖像模型特征的對比,包括最佳公開的ImageNet模型、自監(jiān)督學(xué)習(xí)方法和CLIP本身。雖然可以直觀地期望零鏡頭低于one-shot,但我們發(fā)現(xiàn)zero-shot CLIP在相同特征空間上與4次邏輯回歸后模型的性能。這可能是由于zero-shot和少射方法之間的重要區(qū)別。首先,CLIP的零鏡頭分類器是通過自然語言生成的,它允許視覺概念被直接指定(“溝通”)。
在這里插入圖片描述
相比之下,“正常的”監(jiān)督學(xué)習(xí)必須從訓(xùn)練的例子中間接地推斷出概念。無上下文的基于示例的學(xué)習(xí)的缺點是,許多不同的假設(shè)可以與數(shù)據(jù)保持一致,特別是在一次性的情況下。單個圖像通常包含許多不同的視覺概念。雖然一個有能力的學(xué)習(xí)者能夠利用視覺線索和啟發(fā)式,設(shè)定被演示的概念是圖像中的主要對象,但這并不能是所有的圖像都如此。當(dāng)圖像目標(biāo)不是類別標(biāo)簽的主體是,監(jiān)督學(xué)習(xí)的信息錯誤率更高,而prompt一定程度上降低信息錯誤率

zero-shot和少鏡頭性能之間的差異的一個潛在解決方案是使用CLIP的零鏡頭分類器作為少射擊分類器的權(quán)重的先驗。雖然對生成的權(quán)值添加L2懲罰是這個想法的一個簡單實現(xiàn),但我們發(fā)現(xiàn)超參數(shù)優(yōu)化通常會選擇這個正則化器的如此之大的值,以至于產(chǎn)生的少鏡頭分類器“只是”零鏡頭分類器。研究將zero-shot轉(zhuǎn)移的強度與few-shot學(xué)習(xí)的靈活性相結(jié)合的更好的方法,是未來工作的一個很有前途的方向。基于zero-shot生產(chǎn)的few-shot模型利用了zero-shot先驗,這使得研究者需要設(shè)置正則化來平衡先驗與新數(shù)據(jù)適配

當(dāng)在其他模型的特征上比較zero-shot CLIP和少鏡頭邏輯回歸時,zero-shot CLIP大致與我們的評估套件中表現(xiàn)最好的16-shot分類器的性能相匹配,該套件使用了在ImageNet-21K上訓(xùn)練的BiT-M ResNet-152x2的特征。我們確信,在JFT-300M上訓(xùn)練的BiT-L模型會表現(xiàn)得更好,但這些模型還沒有公開發(fā)布。BiT-M ResNet-152x2在16-shot設(shè)置中表現(xiàn)最好有些令人驚訝,因為正如第3.2節(jié)所分析的,在27個數(shù)據(jù)集上,Noisy Student EfficientNet-l2在完全監(jiān)督設(shè)置中平均表現(xiàn)出近5%。

除了研究零鏡頭CLIP和少鏡頭邏輯回歸的平均性能外,我們還檢查了在單個數(shù)據(jù)集上的性能。在圖7中,我們展示了在同一特征空間上的邏輯回歸分類器需要匹配零鏡頭CLIP性能的每個類的標(biāo)記示例數(shù)量的估計值。由于零鏡頭CLIP也是一個線性分類器,這估計了在這種設(shè)置下零鏡頭傳輸?shù)挠行?shù)據(jù)效率。為了避免訓(xùn)練成千上萬的線性分類器,我們基于1、2、4、8、16樣本訓(xùn)練(如果可能的話)的性能和在每個數(shù)據(jù)集上訓(xùn)練一個完全監(jiān)督的線性分類器來估計有效的數(shù)據(jù)效率。我們發(fā)現(xiàn)zero-shot轉(zhuǎn)移對每個數(shù)據(jù)集的效率有很大的變化,從每個類少于1個標(biāo)記的示例到184個。兩個數(shù)據(jù)集,Flowers102 and EuroSAT表現(xiàn)不足的一次性模型。一半的數(shù)據(jù)集每個類需要的例子少于5個例子,中位數(shù)為5.4。然而,平均估計的數(shù)據(jù)效率是每個類的20.8個例子。這是由于在20%的數(shù)據(jù)集中,監(jiān)督分類器需要每個類有許多標(biāo)記的示例來匹配性能。在ImageNet上,零鏡頭CLIP與在相同特征空間上訓(xùn)練的16樣本-shot線性分類器的性能相匹配。
在這里插入圖片描述
如果我們假設(shè)評估數(shù)據(jù)集足夠大,在它們上訓(xùn)練的線性分類器的參數(shù)可以很好地估計,那么,因為CLIP的零鏡頭分類器也是一個線性分類器,完全監(jiān)督分類器的性能大致為零鏡頭傳輸設(shè)定了一個上界。在圖8中,我們比較了CLIP的zero-shot性能與跨數(shù)據(jù)集的完全監(jiān)督線性分類器。虛線,y = x線表示一個“最優(yōu)”零鏡頭分類器,匹配其完全監(jiān)督等價的性能。對于大多數(shù)數(shù)據(jù)集,zero-shot分類器的性能仍然比完全監(jiān)督分類器低10%到25%,這表明在提高CLIP的任務(wù)學(xué)習(xí)和zero-shot轉(zhuǎn)移能力方面仍有很大的凈空間。
在這里插入圖片描述
zero-shot性能與完全監(jiān)督性能之間的正相關(guān)關(guān)系為0.82(p值<10?6),這表明CLIP在連接潛在的表征和任務(wù)學(xué)習(xí)與zero-shot轉(zhuǎn)移方面是相對一致的。然而,零鏡頭CLIP只能在5個數(shù)據(jù)集上接近完全監(jiān)督的性能: STL10, CIFAR10, Food101, OxfordPets, and Caltech101。在所有5個數(shù)據(jù)集上,zero-shot精度和完全監(jiān)督精度均超過90%。這表明,對于那些高質(zhì)量的任務(wù),CLIP在zero-shot轉(zhuǎn)移中可能更有效。預(yù)測zero-shot性能作為完全監(jiān)督性能函數(shù)的預(yù)測的線性回歸模型的斜率估計,完全監(jiān)督性能每提高1%,zero-shot性能就會提高1.28%。然而,95百分位的置信區(qū)間仍然包括小于1(0.93-1.79)的值。

在過去的幾年中,深度學(xué)習(xí)系統(tǒng)的實證研究已經(jīng)證明,性能可以作為一個重要的量來預(yù)測的函數(shù),如訓(xùn)練計算和數(shù)據(jù)集大小(Hestness等,2017;Kaplan等,2020年)。到目前為止,GPT系列的模型已經(jīng)在1000倍的訓(xùn)練計算增長中證明了zero-shot性能的持續(xù)改進(jìn)。在圖9中,我們檢查了CLIP的zero-shot性能是否遵循類似的縮放模式。我們繪制了對36個不同數(shù)據(jù)集的39個ResNet CLIP模型的平均錯誤率,發(fā)現(xiàn)在模型計算增加44倍時,CLIP存在類似的對數(shù)-對數(shù)線性縮放趨勢。雖然總體趨勢是平穩(wěn)的,但我們發(fā)現(xiàn),個人評估的表現(xiàn)可能要嘈雜得多。這是由于在子任務(wù)上的個體訓(xùn)練運行之間的高度差異(如D‘Amour等人(2020))掩蓋了穩(wěn)步改善的趨勢,或者作為某些任務(wù)的計算函數(shù),性能實際上是非單調(diào)的。
在這里插入圖片描述

一個理想的魯棒模型(虛線)在ImageNet分布和其他自然圖像分布上表現(xiàn)得同樣良好。零鏡頭CLIP模型將這種“魯棒性差距”縮小了高達(dá)75%。對logit轉(zhuǎn)換值的線性擬合顯示與自舉估計的95%置信區(qū)間。(右)可視化香蕉的分布轉(zhuǎn)移,一個類在7個自然分布轉(zhuǎn)移數(shù)據(jù)集中的5個中共享。將最佳零鏡頭CLIP模型ViT-L/14@336px的性能與在ImageNet驗證集ResNet-101上具有相同性能的模型進(jìn)行了比較
在這里插入圖片描述
基于論文中表5的數(shù)據(jù)可以發(fā)現(xiàn),在human分類任務(wù)中,zero-shot的clip模型比線性分類程序精度更高,同時也可以發(fā)現(xiàn)few-shot的clip相比于zero-shot精度提升并不明顯。
在這里插入圖片描述

http://www.risenshineclean.com/news/50495.html

相關(guān)文章:

  • 地方門戶網(wǎng)站模板seo教程seo優(yōu)化
  • 網(wǎng)頁制作模板的含義和作用在線seo工具
  • 簡單介紹網(wǎng)站建設(shè)的一般流程專業(yè)公司網(wǎng)絡(luò)推廣
  • 網(wǎng)站seo建設(shè)方案浙江seo推廣
  • 網(wǎng)站建設(shè)費 科目天津網(wǎng)站排名提升多少錢
  • 網(wǎng)站宣傳方案網(wǎng)絡(luò)推廣長沙網(wǎng)絡(luò)推廣
  • 商城網(wǎng)站備案做網(wǎng)站哪家公司比較好而且不貴
  • 做購物網(wǎng)站適合的服務(wù)器站長工具國色天香
  • 政務(wù)網(wǎng)站集約化建設(shè)難點與建議湖南關(guān)鍵詞優(yōu)化首選
  • 網(wǎng)站導(dǎo)航css代碼培訓(xùn)課
  • 做高級電工題的網(wǎng)站外鏈工具在線
  • 校園互動網(wǎng)站建設(shè)站長工具同大全站
  • 食品營銷網(wǎng)站建設(shè)調(diào)查問卷免費網(wǎng)站流量統(tǒng)計工具
  • 做汽配找哪個網(wǎng)站好軟件排名工具
  • ruby 做網(wǎng)站谷歌推廣公司哪家好
  • 長沙手機網(wǎng)站建設(shè)哪些內(nèi)容建網(wǎng)站需要什么條件
  • icp網(wǎng)站備案系統(tǒng)中國最好的營銷策劃公司
  • 公司做網(wǎng)站推廣的價格鮮花網(wǎng)絡(luò)營銷推廣方案
  • 做優(yōu)化網(wǎng)站哪個公司好win10優(yōu)化大師是官方的嗎
  • 啟東做網(wǎng)站的網(wǎng)絡(luò)公司有哪些外貿(mào)網(wǎng)絡(luò)營銷推廣
  • 做阿里巴巴網(wǎng)站圖片尺寸枸櫞酸西地那非片的功效與作用
  • 通過網(wǎng)站如何做海外貿(mào)易大連seo按天付費
  • 如何在門戶網(wǎng)站做搜索引擎廈門網(wǎng)站建設(shè)公司
  • 響應(yīng)式網(wǎng)站介紹東莞網(wǎng)絡(luò)排名優(yōu)化
  • 做網(wǎng)站一定要學(xué)java嗎寫軟文平臺
  • php 網(wǎng)站 模板無錫百度競價公司
  • 代刷網(wǎng)站推廣鏈接快手百度賬號申請注冊
  • 局域網(wǎng)網(wǎng)站開發(fā)軟件seo優(yōu)化有哪些
  • 東莞公司網(wǎng)站建設(shè)公司河南網(wǎng)站顧問
  • 做網(wǎng)站站主需要什么條件天津提升專業(yè)關(guān)鍵詞排名