中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

做網(wǎng)站不給源碼程序免費(fèi)建站網(wǎng)站大全

做網(wǎng)站不給源碼程序,免費(fèi)建站網(wǎng)站大全,沈陽(yáng)犀牛云做網(wǎng)站怎么樣,網(wǎng)站外鏈?zhǔn)珍浐芏?內(nèi)鏈?zhǔn)珍泿讉€(gè)摘要 大型語(yǔ)言模型已經(jīng)顯示出令人驚訝的執(zhí)行上下文學(xué)習(xí)的能力,也就是說(shuō),這些模型可以通過(guò)對(duì)由幾個(gè)輸入輸出示例構(gòu)建的提示進(jìn)行條件反射,直接應(yīng)用于解決大量下游任務(wù)。然而,先前的研究表明,由于訓(xùn)練示例、示例順序和提示…

摘要

????????大型語(yǔ)言模型已經(jīng)顯示出令人驚訝的執(zhí)行上下文學(xué)習(xí)的能力,也就是說(shuō),這些模型可以通過(guò)對(duì)由幾個(gè)輸入輸出示例構(gòu)建的提示進(jìn)行條件反射,直接應(yīng)用于解決大量下游任務(wù)。然而,先前的研究表明,由于訓(xùn)練示例、示例順序和提示格式的變化,上下文學(xué)習(xí)可能會(huì)受到高度不穩(wěn)定性的影響。因此,構(gòu)建恰當(dāng)?shù)奶崾緦?duì)于提高語(yǔ)境學(xué)習(xí)的表現(xiàn)至關(guān)重要。在本文中,我們從預(yù)測(cè)偏差的角度重新審視這個(gè)問(wèn)題。具體來(lái)說(shuō),我們引入了一個(gè)度量來(lái)評(píng)估固定提示對(duì)標(biāo)簽或給定屬性的預(yù)測(cè)偏差。實(shí)證結(jié)果表明,偏差較大的提示往往導(dǎo)致預(yù)測(cè)質(zhì)量不理想?;谶@一觀察,我們提出了一種新的基于貪婪搜索的搜索策略,以識(shí)別近乎最優(yōu)的提示,從而提高上下文學(xué)習(xí)的性能。我們使用最先進(jìn)的主流模型(如GPT-3)對(duì)各種下游任務(wù)進(jìn)行綜合實(shí)驗(yàn)。結(jié)果表明,我們的方法可以有效地提高模型的上下文學(xué)習(xí)性能,并且具有可解釋性。代碼可從https://github.com/MaHuanAAA獲得。

1 引言

????????大型語(yǔ)言模型(LLMs),如GPT-3 [1]和BLOOM [2],在執(zhí)行下游任務(wù)的上下文學(xué)習(xí)(ICL)方面表現(xiàn)出了顯著的能力。ICL是指利用由幾個(gè)演示輸入-輸出對(duì)構(gòu)建的提示(即少數(shù)樣本提示)來(lái)調(diào)整LLM以解決各種下游任務(wù)的過(guò)程。盡管其表現(xiàn)令人印象深刻,但先前的研究表明,由于選擇的上下文演示、演示順序和提示格式的變化,ICL存在高度不穩(wěn)定性[4, 5]。因此,構(gòu)建適當(dāng)?shù)奶崾颈淮_定為提高ICL性能的關(guān)鍵因素[6]。
????????先前的研究通常從兩個(gè)方向研究這個(gè)問(wèn)題:(1)嵌入空間中的提示調(diào)整[7, 8, 9, 10, 11](2)文本空間中的提示搜索[4, 12, 13, 14, 15, 16]。提示調(diào)整的關(guān)鍵思想是將特定于任務(wù)的嵌入注入隱藏層,然后使用基于梯度的優(yōu)化來(lái)調(diào)整這些嵌入[8, 15]。然而,這些方法需要修改模型的原始推理過(guò)程,這對(duì)于GPT3和ChatGPT [17]等黑盒LM服務(wù)的情況是不切實(shí)際的。此外,提示調(diào)整引入了額外的計(jì)算和存儲(chǔ)成本,這對(duì)于LLM通常是昂貴的。一種更可行且有效的方法是通過(guò)在原始文本空間中搜索近似的演示樣本和排序來(lái)優(yōu)化提示[4, 15]。一系列工作提出了從“全局”或“局部”視角構(gòu)建提示的方法。一方面,基于全局視角的方法通常將提示的不同元素作為一個(gè)整體進(jìn)行優(yōu)化,旨在實(shí)現(xiàn)更優(yōu)的性能。例如,一種方法[14],構(gòu)建了一個(gè)利用演示整體多樣性的搜索過(guò)程。另一種方法[4]試圖優(yōu)化整個(gè)演示集的排序以獲得更好的性能。與全局視角相比,基于局部視角的方法通過(guò)設(shè)計(jì)不同的啟發(fā)式選擇標(biāo)準(zhǔn)來(lái)優(yōu)化每個(gè)單獨(dú)的演示,如先前的工作KATE [15]。這些方法在廣泛的任務(wù)上取得了令人印象深刻的改進(jìn)。然而,它們中的大多數(shù)仍然存在以下限制:(1)當(dāng)前的大部分研究主要關(guān)注沿著單一維度搜索提示,例如示例選擇或順序。然而,各種維度對(duì)性能的整體影響尚不清楚。(2)這些方法通?;趩l(fā)式標(biāo)準(zhǔn),它們與實(shí)際性能之間存在差距。需要一個(gè)統(tǒng)一的視角來(lái)解釋這些方法是如何工作的。(3)更重要的是,現(xiàn)有方法全局或局部地優(yōu)化提示,這可能導(dǎo)致次優(yōu)性能。
????????在本文中,我們從預(yù)測(cè)偏差的角度重新審視了這個(gè)問(wèn)題。我們發(fā)現(xiàn)一個(gè)關(guān)鍵的見(jiàn)解,即給定提示的質(zhì)量取決于其固有的偏差?;谶@一見(jiàn)解,我們提出了一個(gè)基于預(yù)測(cè)偏差的代理指標(biāo)來(lái)評(píng)估提示的質(zhì)量。這個(gè)指標(biāo)允許我們?cè)诓恍枰~外開(kāi)發(fā)集的情況下,通過(guò)單一的前向過(guò)程評(píng)估提示。具體來(lái)說(shuō),我們將給定的提示應(yīng)用于一個(gè)“無(wú)內(nèi)容”的輸入,并期望模型輸出一個(gè)統(tǒng)一的預(yù)測(cè)分布(一個(gè)無(wú)內(nèi)容的輸入不包含有用的信息)。因此,我們使用預(yù)測(cè)分布的統(tǒng)一性來(lái)刻畫(huà)給定提示的偏差。這與先前的工作使用這個(gè)指標(biāo)來(lái)校準(zhǔn)模型輸出[18]的想法相似。與主要關(guān)注在提示固定時(shí)使用此指標(biāo)進(jìn)行校準(zhǔn)的工作不同,我們進(jìn)一步探索其在自動(dòng)搜索近似提示中的用途。此外,通過(guò)廣泛的實(shí)驗(yàn),我們經(jīng)驗(yàn)性地驗(yàn)證了給定提示的固有偏差與其在給定測(cè)試集上的平均任務(wù)性能(見(jiàn)圖2)之間的相關(guān)性。

?

圖2:準(zhǔn)確率與公平性高度一致,貪婪搜索可以找到一個(gè)好的提示符,其中“Random”和“Oracle”表示所有提示符的平均準(zhǔn)確率和根據(jù)公平性的性能上界。?

????????此外,這種基于偏差的指標(biāo)允許我們以“局部到全局”的方式構(gòu)建提示優(yōu)化技術(shù)。我們提出了兩種新穎的策略,以偏見(jiàn)引導(dǎo)的方式高效地搜索高質(zhì)量的提示:(1)T-fair-Prompting(2)G-fair-Prompting。我們關(guān)注一個(gè)通用設(shè)置,其中給定一個(gè)大小為N的標(biāo)記集。我們策略的目標(biāo)是執(zhí)行組合優(yōu)化以找到近優(yōu)提示(即選擇演示及其順序)。具體來(lái)說(shuō),T-fair-Prompting采用了一種直觀的方法,首先計(jì)算每個(gè)單一演示的偏差(即單次提示),然后選擇前-k個(gè)公平的演示來(lái)形成最終的提示。這個(gè)策略可以以O(shè)(N)的復(fù)雜度高效完成。請(qǐng)注意,T-fair-Prompting基于一個(gè)假設(shè),即最優(yōu)提示通常是由偏差最小的演示構(gòu)建的。然而,這在實(shí)際情況中可能不成立,并且常常導(dǎo)致次優(yōu)解。因此,我們進(jìn)一步引入G-fair-Prompting來(lái)提高搜索質(zhì)量。G-fair-Prompting遵循貪婪搜索的正常過(guò)程,通過(guò)在每一步做出局部最優(yōu)選擇來(lái)找到最優(yōu)解。在算法的每一步,所選的演示是使更新后的提示達(dá)到最佳公平性分?jǐn)?shù)的那個(gè)。這個(gè)策略在搜索質(zhì)量與最壞情況時(shí)間復(fù)雜度之間進(jìn)行權(quán)衡。通過(guò)接受更高的最壞情況時(shí)間復(fù)雜度O(N^2),搜索質(zhì)量顯著提高。請(qǐng)注意,G-fair-Prompting從局部到全局的視角工作,在早期階段考慮單個(gè)樣本的偏差,而在后期階段關(guān)注全局預(yù)測(cè)偏差的減少。
????????為了評(píng)估我們策略的有效性,我們?cè)诋?dāng)前主流模型,如GPT-3 [1],進(jìn)行了廣泛的下游任務(wù)實(shí)驗(yàn)。我們的結(jié)果表明,我們的方法可以顯著提高模型在上下文學(xué)習(xí)方面的性能,并且以一種有效且可解釋的方式進(jìn)行??傮w貢獻(xiàn)總結(jié)如下:

  • 我們引入了使用預(yù)測(cè)偏差來(lái)高效且獨(dú)立于開(kāi)發(fā)集地評(píng)估給定提示質(zhì)量的方法,并且這種指標(biāo)的實(shí)證有效性得到了全面驗(yàn)證。
  • 基于上述想法,我們提出了兩種高效且有效的策略,即T-fair-Prompting和G-fair-Prompting,以優(yōu)化提示。
  • 這兩種策略的有效性已經(jīng)在各種LLMs上得到了驗(yàn)證,范圍從GPT系列模型到Meta最近發(fā)布的LMaMA系列[19]。與現(xiàn)有最佳方法(SOTA)相比,在不同的下游任務(wù)中觀察到了超過(guò)10%的一致性相對(duì)改進(jìn)。

????????與使用前校準(zhǔn)的關(guān)系:我們的論文與使用前校準(zhǔn)[18]分享了類似的指標(biāo)來(lái)評(píng)估給定提示的預(yù)測(cè)偏差。然而,先前的方法旨在使用這個(gè)指標(biāo)來(lái)校準(zhǔn)輸出,這仍然容易受到所用提示質(zhì)量的影響(更多結(jié)果可以在表3中找到)。相比之下,我們的研究旨在在原始空間中找到一個(gè)近優(yōu)提示,以提高模型的性能,而不需要對(duì)模型的輸出進(jìn)行任何后調(diào)整。此外,我們首先在圖2中經(jīng)驗(yàn)性地驗(yàn)證了預(yù)測(cè)偏差與最終任務(wù)性能之間的聯(lián)系,這一點(diǎn)在[18]中尚未研究。通過(guò)實(shí)驗(yàn),我們發(fā)現(xiàn)即使沒(méi)有校準(zhǔn),我們方法選擇的提示也可以優(yōu)于隨機(jī)選擇的經(jīng)過(guò)校準(zhǔn)的提示。

2 相關(guān)工作?

????????上下文學(xué)習(xí) 先前的研究,如文獻(xiàn)[1, 20]所述,已經(jīng)證明大型語(yǔ)言模型可以通過(guò)使用上下文學(xué)習(xí)完成零樣本或少樣本學(xué)習(xí)任務(wù)。LLMs在適當(dāng)?shù)奶崾鞠卤憩F(xiàn)良好。然而,最近的工作[4, 18]顯示,LLMs的性能受到所用提示的影響。因此,確定最佳提示是一個(gè)重要且基礎(chǔ)的研究領(lǐng)域。
????????原始空間搜索 確定最佳提示的一個(gè)更直觀的方法是在原始空間中進(jìn)行搜索,通過(guò)選擇或重新排序用戶輸入的提示句子。搜索可以從兩個(gè)角度進(jìn)行總結(jié)。

  • 全局視角:一個(gè)簡(jiǎn)單策略是枚舉所有候選提示,以找到在驗(yàn)證集上實(shí)現(xiàn)最佳性能的提示,但這種策略計(jì)算成本高昂,其復(fù)雜度為Σ_{k=1}^{n} C_{n}^{k} k!。張等[12]發(fā)現(xiàn)錯(cuò)誤經(jīng)常落在同一簇中,每個(gè)簇包含相似的問(wèn)題,因此他們提出了一個(gè)多樣性引導(dǎo)的搜索策略來(lái)選擇多樣化的演示。除了演示選擇,[4]還確定了提示順序?qū)Y(jié)果的影響。他們通過(guò)LLMs生成探測(cè)集,找到在探測(cè)集上產(chǎn)生最多樣化預(yù)測(cè)結(jié)果的最佳序列。然而,這種方法計(jì)算成本同樣高昂,且難以確保生成的探測(cè)集足夠平衡。
  • 局部視角:先前的研究[13]表明,減少模型的不確定性有助于提高模型的性能,[14]提出了主動(dòng)提示(Active Prompting),根據(jù)LLMs的不確定性來(lái)選擇演示。KATE[15]基于嵌入之間的距離選擇提示,目標(biāo)是選擇最近的示例。

????????然而,這種方法忽略了示例順序的影響,并且需要訪問(wèn)句子嵌入。[16]表明LLMs很容易被不相關(guān)的上下文分散注意力,因此他們確定了幾種方法來(lái)過(guò)濾掉上下文中的無(wú)關(guān)信息。
????????在原始空間搜索的領(lǐng)域中,當(dāng)前大多數(shù)方法傾向于僅關(guān)注單一因素(如上所述)對(duì)性能的影響,使用啟發(fā)式指標(biāo)來(lái)選擇根據(jù)這一標(biāo)準(zhǔn)表現(xiàn)良好的上下文演示。雖然這些研究無(wú)疑為社區(qū)帶來(lái)了好處,但它們?nèi)狈?duì)局部和全局視角的綜合考慮。本文提出的方法提供了一個(gè)指標(biāo),從預(yù)測(cè)偏差的角度選擇上下文演示,這自然促進(jìn)了從局部視角到全局視角的轉(zhuǎn)變。

3 重新審視跨演示的敏感性?

????????在本節(jié)中,我們將澄清本文中使用的符號(hào)和模板。然后,我們將展示一些簡(jiǎn)要的實(shí)證結(jié)果,以顯示不同的示范構(gòu)建因素(例如,示例選擇和順序)如何影響績(jī)效。我們進(jìn)一步介紹了給定提示的預(yù)測(cè)偏差/公平性的定義,并展示了其與不同下游任務(wù)的預(yù)測(cè)性能的聯(lián)系。?

3.1 符號(hào)?

????????我們考慮一個(gè)由N個(gè)樣本組成的訓(xùn)練集 S = \left \{ \left ( x_{i},y_{i} \right ) \right \}_{i}^{N},其中 x_{i}是句子,y_{i}\epsilon Y 是第 i 個(gè)訓(xùn)練樣本的標(biāo)簽,而 Y 是任務(wù)所有標(biāo)簽的空間。我們使用一個(gè)模板 Γ(·) 將這些句子和標(biāo)簽轉(zhuǎn)換成自然語(yǔ)言空間(即提示構(gòu)建)。以 AGNews 數(shù)據(jù)集 [21] 中的一個(gè)實(shí)例為例,我們有 x_{i} = "Cubans Risking Life for Lure of America.";?y_{i} = "World",并且 Γ(x_{i} ; y_{i}) 是 "Article: Cubans Risking Life for Lure of America. Answer: World"。我們將這些演示拼接起來(lái)形成一個(gè)提示 ρ,默認(rèn)情況下 ρ = Γ(x1; y1) ⊕ · · · ⊕ Γ(xn; yn)。在測(cè)試時(shí),我們將提示 ρ 與 τ = "Article: <test sentence>. Answer: " 連接起來(lái),并將其輸入到一個(gè)大型語(yǔ)言模型 M 中。預(yù)測(cè)的類別由以下方式給出:

其中 M(yjρ ⊕ τ ) 表示由LLM預(yù)測(cè)的概率,并且這個(gè)概率被歸一化以適應(yīng)任務(wù)。我們用 ^P(x) := fp^(yjρ ⊕ τ )jy 2 Yg 來(lái)表示預(yù)測(cè)分布。在本文中,我們專注于評(píng)估由演示引起的不穩(wěn)定性,并且我們按照先前的工作 [18] 固定提示模板。

3.2 少樣本提示的穩(wěn)定性

????????正如先前研究所示,少樣本提示技術(shù)對(duì)多種因素高度敏感,包括演示的選擇和順序[4, 18]。在本研究中,我們進(jìn)一步深入探討了少樣本提示的穩(wěn)定性,特別是關(guān)注Meta最近發(fā)布的LLaMA系列[19]。此外,我們還評(píng)估了使用當(dāng)前最先進(jìn)方法[12, 15]進(jìn)行校準(zhǔn)的LLaMA模型的穩(wěn)定性。
????????為了闡明演示選擇的影響,我們?yōu)槊總€(gè)不同的種子選擇了四個(gè)演示,并為每個(gè)組合隨機(jī)采樣了一個(gè)順序。隨后,我們以箱型圖的形式展示了AGNews上的性能,該圖基于五個(gè)數(shù)字摘要(最小值、第一四分位數(shù)[Q1]、中位數(shù)、第三四分位數(shù)[Q3]和最大值)顯示數(shù)據(jù)分布。如圖1(a)(b)所示,準(zhǔn)確度在不同的演示之間表現(xiàn)出顯著的可變性。

?圖1:ICL由于演示選擇和順序的高度變化而具有高度不穩(wěn)定性,即使在進(jìn)行后校準(zhǔn)時(shí)也是如此。?

????????為了調(diào)查排列的影響,我們檢查了四個(gè)固定演示的所有可能排列,產(chǎn)生了4!個(gè)不同的候選。圖1(c)(d)也揭示了高度的可變性。雖然后校準(zhǔn)有助于減輕不穩(wěn)定性,但重要的是要注意即使在校準(zhǔn)之后,模型仍然敏感。這一發(fā)現(xiàn)強(qiáng)調(diào)了精心選擇演示的重要性。在隨后的實(shí)驗(yàn)中,我們發(fā)現(xiàn)我們的方法可以用來(lái)進(jìn)一步提高校準(zhǔn)模型的性能。

3.3 ICL的預(yù)測(cè)偏差?

????????正如前面討論的那樣,ICL的性能受到演示、排列和選擇等各種因素的顯著影響(參見(jiàn)附錄A.4了解更多信息)。因此,設(shè)計(jì)一種有效的方法來(lái)構(gòu)建具有接近最優(yōu)性能的適當(dāng)提示,是為各種下游任務(wù)部署LLM的關(guān)鍵一步。如引言所述,許多研究旨在優(yōu)化ICL中的提示語(yǔ)。本文通過(guò)預(yù)測(cè)偏差的視角進(jìn)一步研究了這一問(wèn)題,預(yù)測(cè)偏差指的是目標(biāo)類別之間的差異。為了實(shí)現(xiàn)這一目標(biāo),我們首先引入了一種有效的技術(shù)來(lái)評(píng)估給定提示的固有預(yù)測(cè)偏差,并從先前的工作中獲得靈感[18]。我們構(gòu)建了一個(gè)與訓(xùn)練集無(wú)關(guān)的度量來(lái)衡量預(yù)測(cè)偏差,方法如下:首先,我們將提供的提示與“無(wú)語(yǔ)義”的測(cè)試樣本信息(例如,“[N/ a]”,用η表示)合并,得到LLM對(duì)該樣本的預(yù)測(cè)分布。理想情況下,預(yù)測(cè)分布應(yīng)該近似于均勻分布,因?yàn)闇y(cè)試樣本缺乏語(yǔ)義信息。在本文中,我們使用熵作為預(yù)測(cè)偏差的度量,定義為:?

?

????????以前的研究已經(jīng)利用這個(gè)度量來(lái)校準(zhǔn)模型的輸出。在本文中,我們對(duì)預(yù)測(cè)偏差和整體表現(xiàn)之間的關(guān)系進(jìn)行了全面的檢查。具體來(lái)說(shuō),在具有四個(gè)訓(xùn)練樣本的場(chǎng)景中(由于枚舉較大數(shù)量的所有提示案例的耗時(shí)性質(zhì)),我們枚舉各種數(shù)據(jù)集和llm的演示的所有可能組合和排列。隨后,我們根據(jù)公平性降序排列所有候選者,其中“索引0”表示公平性最高的提示。我們使用五種不同的種子進(jìn)行實(shí)驗(yàn),產(chǎn)生包含不同演示的訓(xùn)練集,同時(shí)保持種子為0的測(cè)試樣本。圖2顯示了不同模型的結(jié)果,揭示了模型的性能與公平性得分之間的強(qiáng)相關(guān)性(即更公平的提示產(chǎn)生更好的性能)。被稱為“Oracle”的紅星表示最佳平均性能,它始終與更高的公平性相關(guān)。這一觀察結(jié)果提示我們通過(guò)識(shí)別最公平的提示來(lái)提高ICL性能。然而,發(fā)現(xiàn)最公平的演示組合被證明是一項(xiàng)艱巨的挑戰(zhàn),因?yàn)榇嬖赑N k=1 C k N k!不同的候選人。隨著訓(xùn)練集規(guī)模的增加,這個(gè)任務(wù)變得棘手。為了解決這個(gè)問(wèn)題,我們提出了兩種有效的策略,以便在隨后的部分中近似最合適的演示。

4 最公平的提示搜索?

????????基于上述觀察,我們提出了兩種旨在識(shí)別最公平提示的策略,這些策略已經(jīng)通過(guò)實(shí)證證明能夠?qū)崿F(xiàn)更優(yōu)越的性能。讓我們考慮一個(gè)包含n個(gè)樣本的訓(xùn)練集S;這些搜索策略的目標(biāo)是從訓(xùn)練集中選擇一個(gè)樣本子集,并以特定的順序構(gòu)建上下文,以優(yōu)化等式2中的公平性標(biāo)準(zhǔn)。
????????在理想情況下,我們會(huì)考慮演示選擇和順序排列的因素,通過(guò)檢查PN k=1 Ck N k!個(gè)不同的候選,這枚舉了所有可能的情況。在這里,k代表選擇的演示數(shù)量,C表示組合函數(shù)。
????????然而,評(píng)估每個(gè)候選是不切實(shí)際的,當(dāng)N=8時(shí),產(chǎn)生的候選數(shù)量超過(guò)106個(gè)。在本文中,我們引入了兩種搜索策略來(lái)降低計(jì)算成本:T-fair-Prompting和G-fair-Prompting。T-fair-Prompting策略將復(fù)雜度從Θ(PN k=1 Ck N k!)降低到Θ(N),但其性能取決于k的選擇,并且當(dāng)選擇了不合適的k值時(shí)可能會(huì)不穩(wěn)定。因此,我們提出了另一種貪心搜索策略,稱為G-fair-Prompting,它將復(fù)雜度降低到O(N2)并提供對(duì)oracle解決方案的更優(yōu)近似。圖8可視化了不同訓(xùn)練集大小下的計(jì)算成本。

4.1 T-fair-Prompting?

?

? ? ? ?T-fair-Prompting的中心思想是建立在啟發(fā)式理解的基礎(chǔ)上的,即最公平的提示通常由個(gè)體偏見(jiàn)減少的示范樣本組成。因此,?T-fair-Prompting通過(guò)一個(gè)兩階段的過(guò)程構(gòu)造提示。最初,當(dāng)使用個(gè)別演示制定提示時(shí),評(píng)估預(yù)測(cè)偏差。隨后,選擇最公平的k個(gè)示范并使用來(lái)提示法學(xué)碩士。值得注意的是,根據(jù)先前的研究[18],更公平的證明可能位于序列的末尾,因?yàn)樯筛芙谱C明的影響。算法1給出了該過(guò)程的全面描述,圖3給出了可視化表示。具體來(lái)說(shuō),當(dāng)k等于訓(xùn)練集的大小時(shí),該方法降級(jí)為搜索演示的最優(yōu)順序。然而,t -公平提示在很大程度上依賴于k的選擇值。更重要的是,t -公平提示通過(guò)純粹的局部視角來(lái)解決這個(gè)問(wèn)題,從而忽略了從全局角度考慮問(wèn)題,這通常會(huì)導(dǎo)致次優(yōu)結(jié)果。因此,我們隨后引入了g公平提示方法,該方法以局部到全局的方式運(yùn)行,如下所述。?

4.2 G-fair-Prompting?

????????G-fair-Prompting算法遵循貪心搜索的標(biāo)準(zhǔn)程序,該程序通過(guò)在每一階段做出局部最優(yōu)選擇來(lái)尋求最優(yōu)解。在算法的每一步中,所選擇的演示是使得更新后的提示達(dá)到最高公平性分?jǐn)?shù)的那個(gè)。這種策略平衡了搜索質(zhì)量與最壞情況時(shí)間復(fù)雜度。通過(guò)接受增加到O(N^2)的最壞情況時(shí)間復(fù)雜度,搜索質(zhì)量顯著提高。重要的是要注意,G-fair-Prompting算法是從局部到全局的視角進(jìn)行操作的,如算法所示。在初始階段,考慮了單個(gè)樣本的偏差,而后期階段則專注于減少全局預(yù)測(cè)偏差。具體來(lái)說(shuō),在每一步中,我們從剩余的演示集S_0中插入一個(gè)新的演示Γ(xi; yi)到當(dāng)前上下文ρ的開(kāi)頭(確保演示不重復(fù)),并選擇最大化公平性改進(jìn)的演示。正式地說(shuō),在算法2的第9步中,插入的演示應(yīng)滿足以下標(biāo)準(zhǔn):
?

5 實(shí)驗(yàn)?

5.1 實(shí)驗(yàn)設(shè)置?

????????模型。有大量可用的llm(附錄a .2),包括開(kāi)源模型和黑盒云API。最近,Meta發(fā)布了他們強(qiáng)大的預(yù)訓(xùn)練大語(yǔ)言模型LLaMA。具有13B參數(shù)的LLaMA模型與具有更大模型尺寸的BLOOM和GPT-3相比,可以達(dá)到相當(dāng)?shù)男阅堋T诒疚闹?#xff0c;我們對(duì)不同規(guī)模的BLOOM (176B)和LLaMA模型的有效性進(jìn)行了評(píng)估。由于oepnai嚴(yán)格限制API進(jìn)入某些區(qū)域,我們?cè)趯?shí)驗(yàn)中選擇了LLaMA (65B)作為GPT-3的替代品。


????????數(shù)據(jù)集。我們?cè)诓煌奈谋痉诸悢?shù)據(jù)集[21]上進(jìn)行了實(shí)驗(yàn),分別是SST-2、AGNews、CoLA、TREC和RTE。此外,LLaMA的最大輸入長(zhǎng)度為512,RTE中的句子對(duì)于LLaMA來(lái)說(shuō)太長(zhǎng)了。表1提供了任務(wù)描述和統(tǒng)計(jì)信息。

5.2 結(jié)果?

????????我們進(jìn)行了不同設(shè)置下的實(shí)驗(yàn),并報(bào)告了五次運(yùn)行的結(jié)果。我們將我們的方法與Zhang等人提出的多樣性引導(dǎo)搜索策略[12](全球視角)和Liu等人提出的相似性引導(dǎo)搜索策略[15](局部視角)進(jìn)行了比較。請(qǐng)注意,基于局部視角的方法是耗時(shí)的,因?yàn)樗鼈冃枰獮槊總€(gè)測(cè)試示例搜索不同的演示。表2顯示了不同策略的性能,其中“隨機(jī)”表示枚舉所有情況下的平均準(zhǔn)確度,“多樣性”和“相似性”分別表示根據(jù)多樣性和相似性選擇演示。對(duì)于每個(gè)數(shù)據(jù)集,我們將訓(xùn)練集的大小設(shè)置為4?!岸鄻有浴焙汀跋嗨菩浴睆?6個(gè)演示中選擇4個(gè),因?yàn)樗鼈冃枰嗟暮蜻x?;鶞?zhǔn)計(jì)算昂貴,因?yàn)樵贐LOOM上的RTE中對(duì)4個(gè)演示進(jìn)行所有候選的枚舉將需要超過(guò)120個(gè)NVIDIA A100 GPU小時(shí)。我們?cè)诓煌P蜕系挠?xùn)練集上枚舉了所有候選,如圖2所示。參數(shù)小于13B的模型的結(jié)果顯示在表5中(即GPT2-XL (1.5B),LLaMA (7B)和LLaMA (13B))。

  • G-fair-Prompting可以達(dá)到枚舉的近似。為了評(píng)估G-fair-Prompting(貪心)方法是否可以近似枚舉所有候選的最佳性能,我們用綠色五角星標(biāo)記了G-fair-Prompting的性能(代表與G-fair-Prompting在線上平均準(zhǔn)確度最接近的值)。我們發(fā)現(xiàn)G-fair-Prompting可以實(shí)現(xiàn)非常接近枚舉的近似。如圖2所示,G-fair-Prompting搜索的大多數(shù)提示達(dá)到了前20%的排名,在BLOOM (176B)上,G-fair-Prompting幾乎找到了最公平的提示。
  • G-fair-Prompting優(yōu)于T-fair-Prompting。如表2所示,盡管T-fair-Prompting與隨機(jī)選擇相比實(shí)現(xiàn)了更好的性能,但G-fair-Prompting始終優(yōu)于T-fair-Prompting。此外,Top-2在大多數(shù)情況下(超過(guò)5%)顯著優(yōu)于Top-4,表明選擇的演示數(shù)量至關(guān)重要??傮w而言,結(jié)果表明G-fair-Prompting僅以輕微的額外成本就實(shí)現(xiàn)了滿意的性能。
  • 與SOTA方法比較。我們將我們的方法與幾種最先進(jìn)的(SOTA)方法進(jìn)行了比較,包括多樣性引導(dǎo)和相似性引導(dǎo)技術(shù)。我們觀察到,在大多數(shù)情況下,我們的貪婪方法優(yōu)于大多數(shù)SOTA方法,并且在數(shù)據(jù)集TREC上觀察到超過(guò)10%的改進(jìn)。另一方面,相似度引導(dǎo)方法在主題分類任務(wù)(AGNews)上取得了最好的性能。?

????????這是因?yàn)樗谟?xùn)練樣本嵌入和測(cè)試示例之間的距離,為每個(gè)不同的測(cè)試示例搜索獨(dú)特的提示。這種策略選擇標(biāo)簽與測(cè)試樣本相同的演示,而語(yǔ)言模型(LLMs)傾向于預(yù)測(cè)總是出現(xiàn)在上下文中的標(biāo)簽的偏見(jiàn)預(yù)測(cè)。然而,當(dāng)相似性引導(dǎo)方法應(yīng)用于其他任務(wù)時(shí),可能會(huì)顯得不足。具體來(lái)說(shuō),與隨機(jī)選擇相比,相似性引導(dǎo)策略在QC和可接受性任務(wù)中的性能較低。此外,當(dāng)模型對(duì)任務(wù)的敏感性不是立即顯現(xiàn)時(shí),G-fair-Prompting方法偶爾也會(huì)失靈,正如在BLOOM上的可接受性任務(wù)中所觀察到的(如圖4所示)。請(qǐng)注意,與之比較的方法的訓(xùn)練集大小是我們的4倍。

?

  • 與校準(zhǔn)方法的比較。后校正[18],在大多數(shù)情況下可以提高給定提示的準(zhǔn)確性。但是,當(dāng)選擇的提示符質(zhì)量較差時(shí),即使經(jīng)過(guò)校準(zhǔn),性能仍可能不足。我們比較了隨機(jī)選擇和校準(zhǔn)的g -fair- prompt的性能(對(duì)所有候選者的平均值),發(fā)現(xiàn)g -fair- prompt在大多數(shù)情況下都優(yōu)于校準(zhǔn)的隨機(jī)選擇。例如,在主題分類任務(wù)上,g -fair- prompts在大多數(shù)模型上都達(dá)到了最佳性能。此外,我們發(fā)現(xiàn)后校正會(huì)損害模型的性能,并且這種情況發(fā)生的次數(shù)很多,因此直接操縱模型的概率對(duì)模型性能的影響值得重新考慮。?

?

????????后校準(zhǔn)[18]可以提高某個(gè)提示符的準(zhǔn)確性(大多數(shù)情況下),但當(dāng)所選提示符很差時(shí),即使校準(zhǔn)后性能仍然很差。我們進(jìn)行了實(shí)驗(yàn)(表3)來(lái)比較g -fair- prompt和隨機(jī)選擇與校準(zhǔn)的性能(“Average”和“Worst”表示在所有訓(xùn)練樣例排列上的平均準(zhǔn)確度和最差性能),并觀察到g -fair- prompt在大多數(shù)情況下優(yōu)于隨機(jī)選擇與校準(zhǔn)。例如,在CoLA上,g -fair- prompt在大多數(shù)車(chē)型上表現(xiàn)優(yōu)異。此外,我們發(fā)現(xiàn)在許多情況下,后校準(zhǔn)可能會(huì)對(duì)模型的性能產(chǎn)生負(fù)面影響,而有時(shí)甚至在選定的提示上也可以顯著提高性能,例如,在BLOOM-TREC上觀察到10%的改進(jìn)。因此,重新考慮直接操縱模型概率的影響是至關(guān)重要的。

6 結(jié)論?

????????在本文中,我們重新審視了大型語(yǔ)言模型跨提示的敏感性,并從預(yù)測(cè)偏差的角度分析了這一問(wèn)題。因此,我們采用“無(wú)內(nèi)容”策略作為公平性度量來(lái)評(píng)估固定提示的預(yù)測(cè)偏差,并表明模型的性能與公平性高度一致。然后,我們提出了在原始空間中搜索最公平提示符的兩種策略。我們對(duì)當(dāng)前著名的法學(xué)碩士進(jìn)行了大量的實(shí)驗(yàn),并驗(yàn)證了所提出策略的有效性。此外,除了本文采用的公平性之外,未來(lái)還會(huì)有更多針對(duì)不同場(chǎng)景的提示搜索指標(biāo)。?

?

?

?

?

?

?

?

?

?

?

http://www.risenshineclean.com/news/52042.html

相關(guān)文章:

  • 西安網(wǎng)站seo優(yōu)化江東seo做關(guān)鍵詞優(yōu)化
  • 做電影網(wǎng)站用什么空間怎樣做好網(wǎng)絡(luò)營(yíng)銷推廣
  • 超鏈接網(wǎng)站圖片怎么在記事本上做長(zhǎng)沙官網(wǎng)seo收費(fèi)
  • 常州網(wǎng)站推廣多少錢(qián)域名備案查詢
  • 百度推廣客服人工電話多少安卓手機(jī)優(yōu)化軟件排名
  • 昆山企業(yè)網(wǎng)站建設(shè)河南關(guān)鍵詞排名顧問(wèn)
  • 合肥模板建站多少錢(qián)網(wǎng)絡(luò)營(yíng)銷方式有哪些
  • 靜態(tài)網(wǎng)站怎么做留言板南京谷歌seo
  • css3網(wǎng)站案例今天最新的新聞?lì)^條
  • 網(wǎng)站開(kāi)發(fā)與維護(hù)算什么職位成都seo推廣員
  • 游戲動(dòng)漫設(shè)計(jì)專業(yè)網(wǎng)店seo名詞解釋
  • php 做視頻網(wǎng)站免費(fèi)b站推廣網(wǎng)站
  • 做ppt到哪個(gè)網(wǎng)站找圖片十大成功營(yíng)銷策劃案例
  • 登封市建設(shè)局網(wǎng)站廣告制作公司
  • 濟(jì)源做網(wǎng)站的好公司seo線上培訓(xùn)班
  • 大豐做網(wǎng)站的公司付費(fèi)內(nèi)容網(wǎng)站
  • 電子商務(wù)網(wǎng)站建設(shè)步驟信息流廣告投放工作內(nèi)容
  • b2b網(wǎng)站用戶群劃分鄭州疫情最新情況
  • h5企業(yè)網(wǎng)站開(kāi)發(fā)專業(yè)搜索引擎seo服務(wù)
  • 邵陽(yáng)微網(wǎng)站開(kāi)發(fā)lz2v廣告行業(yè)怎么找客戶
  • 自己做的網(wǎng)站怎么做客服聊天深圳百度關(guān)鍵詞排名
  • 河南省豫建設(shè)計(jì)院網(wǎng)站軟文廣告投放平臺(tái)
  • 義網(wǎng)站建設(shè)推薦鄭國(guó)華如何做一個(gè)自己的網(wǎng)頁(yè)
  • 南京建設(shè)工程管理局網(wǎng)站游戲代理怎么找渠道
  • 微信輔助做任務(wù)網(wǎng)站seo服務(wù)外包費(fèi)用
  • 服務(wù)器租用多少錢(qián)一月端點(diǎn)seo博客
  • 空間商網(wǎng)站網(wǎng)站是如何建立的
  • 哪個(gè)網(wǎng)站可以做圖片杭州專業(yè)seo公司
  • 深圳制作手機(jī)網(wǎng)站制作app平臺(tái)需要多少錢(qián)
  • 平臺(tái)網(wǎng)站設(shè)計(jì)廣西壯族自治區(qū)免費(fèi)百度推廣