wordpress 英文企業(yè)站網(wǎng)絡(luò)營銷團(tuán)隊(duì)
? ? ? ?大語言模型如此火爆,查了些資料整理一下,做個(gè)初步的了解。
????????語言模型的發(fā)展從開始的統(tǒng)計(jì)方法到使用神經(jīng)網(wǎng)絡(luò),再到現(xiàn)在通過使用Transformer架構(gòu)的模型訓(xùn)練大量數(shù)據(jù),理解文本規(guī)則和模式,同時(shí)隨著訓(xùn)練數(shù)據(jù)和模型的擴(kuò)大,語言模型的能力提升顯著,此時(shí)大語言模型出現(xiàn)了-LLM。
? ? ? ? 相比于之前的明星模型-BERT,雖然大預(yù)言模型使用的架構(gòu)和預(yù)訓(xùn)練任務(wù)相似,但參數(shù)數(shù)量級(jí)的提升使他們有了質(zhì)的差別。BERT的參數(shù)為3.3億,GPT-2為15億,而GPT-3則有1750億參數(shù)。此時(shí)GPT-3相比之前的模型,就有解決少樣本任務(wù)的能力了,這種能力可稱為涌現(xiàn)能力。
LLM的獨(dú)特能力
? ? ? ? 上下文學(xué)習(xí):語言模型在獲得指令或任務(wù)示例時(shí),通過上下文生成答案,此時(shí)不需要額外訓(xùn)練或更新參數(shù)。
? ? ? ? 指令微調(diào):LLM可以處理未見過的任務(wù),泛化能力強(qiáng)大。
? ? ? ? 推理能力:LLM可通過中間推理步驟的提示機(jī)制解決中間的任務(wù)得到最終的答案。
LLM的特點(diǎn)
? ? ? ? 模型規(guī)模大:參數(shù)通常在數(shù)十億,甚至千億規(guī)模,這也是大模型可以獲取更多信息的基礎(chǔ)。
? ? ? ? 預(yù)訓(xùn)練和微調(diào):LLM使用大量無標(biāo)簽文本數(shù)據(jù)做預(yù)訓(xùn)練,獲取通用的知識(shí),再通過微調(diào)在單獨(dú)任務(wù)重獲得更好的效果。? ? ? ? ?
? ? ? ? 上下文理解:可解決小模型對(duì)前文理解不足的問題。
? ? ? ? 支持多模態(tài):LLM可支持圖像、聲音等內(nèi)容的擴(kuò)展。
現(xiàn)有的大模型
? ? ? ? LLM大放異彩是從OpenAI發(fā)布ChatGPT開始的,后面還有Claude、PaLM、Bard等,但由于網(wǎng)絡(luò)原因,并不好用,而且還需要國際支付以獲取user key,國內(nèi)使用不是很友好。
? ? ? ? 國內(nèi)的LLM主要有文心一言、訊飛星火、通義千問等,分別由百度、訊飛、阿里推出。放開測(cè)試后只需手機(jī)號(hào)就能使用,但有些功能需要收費(fèi)了。
LangChain
? ? ? ? 一個(gè)開源工具,幫助開發(fā)者調(diào)用大模型并應(yīng)用于下游任務(wù),其為LLM提供了通用接口,簡化開發(fā)流程。
? ? ? ? 主要有六個(gè)標(biāo)準(zhǔn)接口:
? ? ? ? Input/Output:用戶輸入及模型輸出的結(jié)果
? ? ? ? Data:將自由數(shù)據(jù)輸入模型訓(xùn)練
? ? ? ? Chain:鏈接多個(gè)LLM或組件
? ? ? ? Memory:對(duì)每個(gè)用戶生成短期記憶,加強(qiáng)對(duì)上文的理解
? ? ? ? Agent:為LLM提供計(jì)算、檢索等功能的支持
? ? ? ? Callback:記錄流程信息