在線設計軟件南寧seo渠道哪家好
- 本文譯自 《In-Context Learning Creates Task Vectors》 —— 論文中的作者也在用LLaMA模型,筆者自我感覺拉近和世界頂級人才的距離,哈哈
- 內(nèi)容較長,如想看結論直接看 摘要、介紹與結論幾個章節(jié)即可,看細節(jié)請看目錄索引。
- 經(jīng)驗風險最小化 (Empirical Risk Minimization ERM): 這也是理論…
摘要
在大語言模型(LLMs)中的上下文學習(In-Context Learning,ICL) 成為一種強大的新學習范式(learning paradigm),然而我們對它的底層機制仍不夠明確清晰。尤其是將其映射到傳統(tǒng)的機器學習框架 就很具挑戰(zhàn)性,其中我們使用 訓練集S 在特定的假設類別中去尋找一個最佳擬合 函數(shù)f(x)
。我們發(fā)現(xiàn),ICL可以學習到的函數(shù)通常具有非常簡單的結構:他們直接表現(xiàn)近似于Transformer架構的LLMs,僅有的輸入是 查詢x 和 由訓練集計算而得的單個’任務向量(task vector)', 因此 ICL
可以看成是將 訓練集S
壓縮成一個單個任務向量(task vector) θ(S)
,然后利用該任務向量來調(diào)控Transformer以生成輸出。為了驗證上述觀點,我們進行了一系列的綜合實驗,涵蓋各種模型和任務。
原始信息
- 論文:In-Context Learning Creates Task Vectors
- 作者:Roee Hendel(Tel Aviv University), Mor Geva(Google DeepMind), Amir Globerson(Tel Aviv University, Google)
- 地址:arxiv.org/pdf/2310.15…
介紹
什么是In Context Learning (ICL)
近年為大模型飛速發(fā)展,它的顯著特點是可以從少量的示例集合(demonstrations)中就學到新規(guī)則。例如,我們向模型輸入蘋果->紅色, 青檸->綠色 , 玉米 ->
就得到玉米
對應的黃色
輸出。
上述過程至少涉及LLM的’ICL’與’Promot’的兩大主題。 好像整篇就上述這段話有用,其他用途不大的感覺啊,太理論了,可花了時間不啥得刪啊。
上述例子中模型僅基于兩個例子就可學會了目標映射關系,這種能力我們稱之為上下文學習 InContext Learning (ICL)。 ICL已經(jīng)被廣泛應用且效果顯著。ICL如此神奇,人們開始探尋ICL
背后潛在的機制,即模式內(nèi)部是實現(xiàn)通過 示例集S
和查詢 x
來生成所需要的輸出?
Figure 1: ICL as learning in a Hypothesis Class(是ICL在假設類中的學習過程)
我們通過使用上圖所示方法來處理該問題。在ICL中,我們給LLM一個含有特定任務的示例集S 提示(prompt) 和一個查詢x,這個模型為 查詢x 產(chǎn)生了輸出, 如該示例中的輸出’Yellow’。我們發(fā)現(xiàn)其內(nèi)部的處理過程可以分解為兩個部分(如上圖所示): 第一部分是學習算法(learning algorithm) ‘, 用于計算 未知查詢向量θ(S)θ(S),該學習算法我們稱之為 在假設類中函數(shù)參數(shù),上圖中的藍色部分。第二部分是由θ
定義的規(guī)則在查詢x上的應用,我們用ff表示,該規(guī)則不直接依賴于 示例集’S’, 如上圖所示的黃色區(qū)域。
ICL的預測函數(shù)
ICL的預測函數(shù)是T([S,x])T([S,x]) , 其中T
是自回歸的語言模型(auto-regressive transformer), S表示用作ICL輸入的訓練示例集,x是查詢參數(shù), ICL根據(jù)輸入x得到最終輸出。而[S, x]
表示為ICL對x和S串聯(lián)后的輸出。因此,在一般情況下,該預測函數(shù)可以是對S和x進行運算以產(chǎn)生輸出的任意函數(shù),這包括"非參數(shù)(non-parametric)"方法,諸如 最近鄰法(nearest-neighbor)。
ICL解決了什么問題
來自統(tǒng)計學習理論的假定類概念。 在學習理論的表示中,通常我們將假定類看成H,H的每個元素都是函數(shù)H(x;θ)H(x;θ), 表示為對輸入x進行參數(shù)為向量θ 運算。 例如,如果x∈Rdx∈R**d ,那么假定類H 就是線性分類器(linear classifier)的集合, h(x;θ)=θ?xh(x;θ)=θ?x, θ為系數(shù)向量,輸入為輸入。學習算法在探索一個元素h, 且 h∈Hh∈H,該h可以更好的適應訓練集,也就是所所謂的 經(jīng)驗風險最小化(Empirical Risk Minimization ERM)。
ICL是否以這種方式執(zhí)執(zhí)目前并不十分清楚,最近已有機構正在探尋該問題。
例如:我們從頭開始訓練一個語言模型(Transformer)并在上下文中以線性回歸方法執(zhí)行, 這種新興的學習方法類似于梯度下降法(Stochastic Gradient Descent SGD)。 然而對于要執(zhí)行更多復雜任務的自然語言任務的LLMs來說,其假設空間可能是什么還不是特別明確。
在本論文中,我們證實了,在許多任務中,LLM的ICL都可以工作在假設空間中。給定一個訓練集S,模型將其映射為任務向量θ(S),該向量表示為訓練集S中映射/規(guī)則的描述。即給定模型T
和一個向量θ
,我們可以構造出一個用于完成指定任務的新函數(shù)f(x;θ)*f*(*x*;*θ*)。該函數(shù)f近似于原始模型,直接應用于輸入x,無需示例集合直接由θ*θ*激活, 如下圖。
- Figure 2: Separating A and f. (分離A和f)
- 該圖在文章的講到具體章節(jié)時還貼了一張, 主要是為了查看方便,在此多貼一張
我們的觀點也與軟提示有關,因為這兩種方法都會針對特定任務調(diào)整轉(zhuǎn)換器的功能。然而,在ICL中,任務向量是在前向傳播中計算的,而不是經(jīng)過微調(diào)。
論文貢獻
我們的貢獻包括:
- 我們提出一種基于假設類的ICL機制, 并利用公開可用的大模型進行了一系列的不同任務試驗以此來驗證我們觀點可靠性
- 我們的研究進一步加深了對ICL的理解,可能對LLM執(zhí)行特定任務的具有實際意義。
ICL框架
ICL的假設空間觀點 - A Hypothesis Class View of ICL
受學習理論的假設類觀點的啟動, 我們的主要目標是理解ICl是否將一個示例集S映射到一個關于輸入x(Query x)的函數(shù)及該映射是如何產(chǎn)生的。我們特別探尋了ICL是否將 示例集S 轉(zhuǎn)化為 一個θ —— 某個特定假設空間內(nèi)函數(shù)的"參數(shù)"。實驗結果的確證明了 ICL是運行在假設空間上的。
理論框架 - Theoretical Framework
我們用T
表示decoder-only transformer(僅解碼器的模型)大語言模型(LLM), S表示作用于ICl輸入的一組示例集(如訓練樣本) , x表示為要求ICl提供輸入的查詢值。 我們使用T([S,x])T([S,x])表示ICl在S
和x
串聯(lián)后的輸出。
為了證實ICL是在一個假設空間內(nèi)執(zhí)行,我們將其內(nèi)部機制兩個不可或缺的部分:
- 第一部分: “學習算法(learning algorithm,)",用A表示,該算法不依賴于查詢x, 用于將示例集S映射到任務向量θ。因為注意力層可以訪問到S和x,不依賴查詢x的獨立性并不明顯(后來會講到解決辦法)。
- 第二部分:規(guī)則應用(Rule Application),用f表示, 基于θ≡A(S)θ≡A(S),主要用于將將查詢x映射為輸出。該規(guī)則同樣獨立于示例集S。同樣獨立性有待提高(后來會講到解決辦法)。
我們將 示例集S+查詢x 至 預測輸出 的整體映射關系定義為公式: T[S;x]=F[x;A(S)]T[S;x]=F[x;A(S)]
如果我們可以將LLM的前向傳播分按上述分為兩個部分,我們可以將ICL看成在H=f(?;θ)∣θH=f(?;θ)∣θ的假設類中執(zhí)行。
假設類 - A Proposed Hypothesis Class
如上圖(Figure 2)所示框架,根據(jù)A和f的不同選擇,假設類會有許多可能的實現(xiàn)。我們將描述重點在以Transfomer框架為基礎的實現(xiàn)上。
首先我們以(Figure 1)所示的方式來設置ICL, 其中輸入一個x(i.e., Corn)外加一個 → 符號。 學習過程我們分為兩個部分:
- 基于訓練集S的參數(shù)向量x,并將由該參數(shù)向量定義規(guī)則應用于查詢x。
- 前L層計算得到的 A 和 → 符號負責更新參數(shù)向量 θ ,然后用參數(shù)向量 θ 和查詢x作為剩下的層的輸入并產(chǎn)生輸出。上上圖(Figure 1).
解決示例集S和查詢x 在transformer中的任務層都可見的問題.
Figure 2: Separating A and f. (分離A和f)
Figure 2展示了分離的A和f的圖示。為了讓θ
獨立于查詢x, 我們引入了一個虛擬變量 x‘x‘ (i.e. x’Plumx’Plum) 以及 使用L層的→符號來表示向量θ,以防止f直接依賴于S。下面章節(jié)將詳細描述
A和f的隔離 - Separating A and f
在常規(guī)的前向傳播過程中,我們面對的挑戰(zhàn)是:
- 對應于A的初始L層, 更新→符號去創(chuàng)建參數(shù)向量θ以及處理Query x。該過程有可能存在對x的依賴,以至于會讓θ對x也有了不必要的依賴。
- 對應于f的剩余層, 因為可直接訪問示例集S,因此在計算中存在不僅使用了x和θ的情況。
為解決上述問題,我們采用了如下措施
- 針對第1個問題,我們引入了 “dummy query(虛擬查詢)” x’x’ ,并使用x’x’來計算→符號。在第一個L層之后我們使用由x′計算的→符號來表示向量θ(如Figure 2的左側部分)。
- 針對第2個問題,為了解決 計算f(x,θ)f(x,θ)時不依賴S的情況,我們 僅在x 和 → 上執(zhí)行transformer的前向傳播,并且“修補(patch)” 參數(shù)向量θ。(如Figure 2的右側部分)。
任務與模型 - Tasks and Models
任務:我們一共準備了18項目任務,這些任務一共分為4類:算法、翻譯、語言和知識。 為了簡單起來,我們限制其為單個token輸出。 上表1展示了這些任務中有代表性的任務情況。
更多的試驗數(shù)據(jù)見論文原文
模型:我們使用了多個大語言模型: LLaMA 7B, 13B, and 30B(Touvron et al., 2023), GPT-J 6B (Wang and Komatsuzaki, 2021), and Pythia a 2.8B, 6.9B, and 12B (Biderman et al., 2023)。
探尋L層 - Finding L
在第二章節(jié)我們在描述其內(nèi)部機制時,提到了一個自由參數(shù) —— L層,該層作為A的結束與f的開始。我們使用用(A,f)(A,f)實現(xiàn)對L的不同選擇,并通過評估以找到最佳層數(shù)。
更多的顯示見論文原文。
圖3展示了不同參數(shù)的LLaMA模型上,針對L層的不同選擇其開發(fā)集的準確度。有趣的是,所有的模型在相似的中間層都展示了一個相似的性能峰值,無關模型的參數(shù)與層數(shù)的多少。
基于假設的預測的準確度 - Accuracy of Hypothesis Based Prediction
接下來,我們將執(zhí)行ICl的常規(guī)的前向傳播與 (A, f) 機制的精確度做了比較。模型與任務我們都分別經(jīng)歷了以下三個過程:
- Regular: LLM在示例集S和查詢x的常規(guī)應用, 即T([S,x])T([S,x]) 在常規(guī)的ICL的
- Hypothesis:我們根據(jù)A和f的機制編寫了一套程序,實現(xiàn)了A通過使用虛擬x′(dummy x′)生成 θ認
- Baseline: LLM僅僅在查詢x上進行前向傳播,而不需要依賴于 示例集S。 即T([x,→])T([x,→])。 這與我們分離過程中f的應用相同,但并沒有修補θ。
上圖顯示了每個模型在這3個過程中所有任務的平均精度。完整結果原論文更詳細的數(shù)據(jù)分析及其A.2-表6數(shù)據(jù)。一切結果表示,我們提出 對A和f的分離為ICL提供了更好的執(zhí)行過程。
任務向量的魯棒性 - Robustness of Task Vectors
在我們的設置場景下,θ是來自于 示例集S 和 虛擬x’(dummy query x′)。 檢查θ對輸入變量的魯棒性(穩(wěn)定性)是一個必要事情。正常情況下,如果他表示任務,他應該在不同的S與x′值間保持穩(wěn)定。為了做上述魯棒性的測試,我們使用了LLaMA 7B的模型為每一個任務生成50個不同的S和x′的任務向量, 并且進行了如下分析。
Geometry of θ
Figure 5是一個任務向量的t-SNE圖, A t-SNE降維圖 展示了任務向量形成不同的簇,每個簇包含單個任務的任務向量。論文中的圖9將進一步顯示了相同類別的任務間的接近性。
Variability of θ 下圖是一個展示任務內(nèi)部及任務間的距離的直方圖。 可以看出同一個任務內(nèi)與不同任務間的距離更靠近一些。這表明θ在任務中是穩(wěn)定的,不受x′或S的高度影響。
θ補丁的優(yōu)勢 - Dominance of θ Patching
在第三章節(jié),我們討論了阻止f直接訪問S示例集。然后,在ICL期間一個常規(guī)的前向傳播過程,最后一個token是可以關注到S的。 這里我們驗證了這種情況的存在, f主要使用任務向量θ且不直接訪問示例集S。 最后我們使用了一對名為A和B的任務,他們共享了輸入空間但有不同的輸出。我們首先使用了“Regular"的前向傳播, 其中我們?yōu)槟P吞峁┝巳蝿誂的示例集S(我們把它表示為SA), 以驗證模型可以使用ICl執(zhí)行該任務。然后我們又進行了"Conflicting"的前向傳播, 仍然是SA作為模型任務的數(shù)據(jù)集, 同時注入θ。
For more details, refer to Fig. 6 in §A.1.
上表2, 這個"Regular"的前向傳播中在任務A中表現(xiàn)了很高的精度,然而這個“Conflicting”的前向傳播產(chǎn)在任務B中產(chǎn)生了高精度,該任務對應于注入了向量θ。這意味道著這個任務主要依賴于θ,而忽略了為任務A的示例集S。 我們注意到任務B的準確度較低,可能與圖6(Figure 6)的性能下降有關,可能進一步受到S存在的影響。
對θ的解析 - Interpreting θ
學習到了向量θ直接觀地捉了關于示例集S所展示的任務信息。這里我們提供了支持這一解析的證明數(shù)據(jù)。由于向量θ是transformer的中間隱藏狀態(tài),我們可以使用詞匯投影法(vocabulary projection method,nostalgebraist,2020;Dar et al. ,2022) 。即,我們檢查由隱藏狀態(tài)引起的分布在詞匯表上的頂層token。
下表展示了 LLsMA 13B下三個任務的頂層token.
更多的請看 論文附 A 中的表7.
在多種情況下,我們觀察到能直接描述任務的token。而更重要的是,這些術語從未明確出現(xiàn)在上下文中。例如,在從法譯英的任務中,我們觀察到諸如“英語”和“翻譯”之類的token。這支持了我們的觀點,即θ攜帶了關于任務的重要、非瑣碎的語義信息(θ carries significant, non-trivial semantic information about the task)。
結論 Conclusions
本文通過對LLM中ICl的探索,我們?yōu)镮CL學習機制的供了新的視角。 我們展示了一個簡單而優(yōu)雅的結構:ICL通過將一個給定的訓練集壓縮為一個單任務向量來發(fā)揮作用,用來指導transformer根據(jù)給定的查詢x去成最優(yōu)輸出。我們的工作為LLM如何執(zhí)行ICL過程提供了理論闡述,由此我們預測,未來的工作可能會側重在任務向量如何構建以及如何使用他來評估輸出上。
術語中英對照
- 線性分類器(linear classifier): 通過線性映射,將數(shù)據(jù)分到對應的類別中。f(xi,W,b)=W?xi+bf(x**i,W,b)=W?x**i+b, W為權值(weights),b為偏移值(bias vector),x_i為數(shù)據(jù)。
- 經(jīng)驗風險最小化(Empirical Risk Minimization ERM): 是統(tǒng)計學習理論中的一個原則,它定義了一系列學習算法,并用于給出其性能的理論界限。
END
如果您也對AI大模型感興趣想學習卻苦于沒有方向👀
小編給自己收藏整理好的學習資料分享出來給大家💖
👉獲取方式:
😝有需要的小伙伴,可以保存圖片到wx掃描二v碼關注免費領取【保證100%免費
】🆓
👉AI大模型學習路線匯總👈
大模型學習路線圖,整體分為7個大的階段:(全套教程文末領取哈)
第一階段: 從大模型系統(tǒng)設計入手,講解大模型的主要方法;
第二階段: 在通過大模型提示詞工程從Prompts角度入手更好發(fā)揮模型的作用;
第三階段: 大模型平臺應用開發(fā)借助阿里云PAI平臺構建電商領域虛擬試衣系統(tǒng);
第四階段: 大模型知識庫應用開發(fā)以LangChain框架為例,構建物流行業(yè)咨詢智能問答系統(tǒng);
第五階段: 大模型微調(diào)開發(fā)借助以大健康、新零售、新媒體領域構建適合當前領域大模型;
第六階段: 以SD多模態(tài)大模型為主,搭建了文生圖小程序案例;
第七階段: 以大模型平臺應用與開發(fā)為主,通過星火大模型,文心大模型等成熟大模型構建大模型行業(yè)應用。
👉如何學習AI大模型?👈
作為一名熱心腸的互聯(lián)網(wǎng)老兵,我決定把寶貴的AI知識分享給大家。 至于能學習到多少就看你的學習毅力和能力了 。我已將重要的AI大模型資料包括AI大模型入門學習思維導圖、精品AI大模型學習書籍手冊、視頻教程、實戰(zhàn)學習等錄播視頻免費分享出來。
這份完整版的大模型 AI 學習資料已經(jīng)上傳CSDN,朋友們?nèi)绻枰梢晕⑿艗呙柘路紺SDN官方認證二維碼免費領取【保證100%免費
】
一、全套AGI大模型學習路線
AI大模型時代的學習之旅:從基礎到前沿,掌握人工智能的核心技能!
二、640套AI大模型報告合集
這套包含640份報告的合集,涵蓋了AI大模型的理論研究、技術實現(xiàn)、行業(yè)應用等多個方面。無論您是科研人員、工程師,還是對AI大模型感興趣的愛好者,這套報告合集都將為您提供寶貴的信息和啟示。
三、AI大模型經(jīng)典PDF籍
隨著人工智能技術的飛速發(fā)展,AI大模型已經(jīng)成為了當今科技領域的一大熱點。這些大型預訓練模型,如GPT-3、BERT、XLNet等,以其強大的語言理解和生成能力,正在改變我們對人工智能的認識。 那以下這些PDF籍就是非常不錯的學習資源。
四、AI大模型商業(yè)化落地方案
作為普通人,入局大模型時代需要持續(xù)學習和實踐,不斷提高自己的技能和認知水平,同時也需要有責任感和倫理意識,為人工智能的健康發(fā)展貢獻力量。