帝國軟件怎么做網(wǎng)站常州網(wǎng)絡(luò)推廣哪家好
目錄
概述
發(fā)展歷程
大語言模型的概念
LLM的應(yīng)用和影響
大模型的能力、特點
大模型的能力
涌現(xiàn)能力(energent abilities)
作為基座模型支持多元應(yīng)用的能力
支持對話作為統(tǒng)一入口的能力
大模型的特點
常見大模型
閉源LLM(未公開源代碼)
GPT系列
ChatGPT
?GPT-4
Claude系列
?PaLM系統(tǒng)
文心一言
星火大模型
?開源LLM
LLaMA 系列
GLM 系列
通義千問
Baichuan 系列
什么是 LangChain
Langchain 簡介
Langchain 發(fā)展歷史
Langchain 核心組件
概述
發(fā)展歷程
語言建模的研究始于20世紀90年代,最初采用了統(tǒng)計學(xué)習(xí)方法,通過前面的詞匯來預(yù)測下一個詞匯。然而,這種方法在理解復(fù)雜語言規(guī)則方面存在一定局限性。
隨后,研究人員不斷嘗試改進,其中在2003年,深度學(xué)習(xí)先驅(qū)Bengio在他的經(jīng)典論文《A Neural Probabilistic Language Model》中,首次將深度學(xué)習(xí)的思想融入到語言模型中,使用了更強大的神經(jīng)網(wǎng)絡(luò)模型,這相當于為計算機提供了更強大的“大腦”來理解語言。這種方法讓模型可以更好地捕捉語言中的復(fù)雜關(guān)系,雖然這一步很重要,但仍有改進的空間。
大約在2018年左右,研究人員引入了Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,通過大量文本數(shù)據(jù)訓(xùn)練這些模型,使它們能夠通過閱讀大量文本來深入理解語言規(guī)則和模式,就像讓計算機閱讀整個互聯(lián)網(wǎng)一樣。所以它對語言有了更深刻的理解。這種方法在很多任務(wù)上表現(xiàn)得非常好。
與此同時,研究人員發(fā)現(xiàn),隨著語言模型規(guī)模的擴大(增加模型大小或使用更多數(shù)據(jù)),模型展現(xiàn)出了一些驚人的能力,通常在各種任務(wù)中表現(xiàn)顯著提升。這時我們進入了大語言模型(LLM)時代。
大語言模型的概念
大語言模型(英文:Large Language Model,縮寫LLM),也稱大型語言模型,是一種人工智能模型,旨在理解和生成人類語言。
通常,大語言模型(LLM)指包含數(shù)百億(或更多)參數(shù)的語言模型,這些模型在大量的文本數(shù)據(jù)上進行訓(xùn)練,例如國外的有GPT-3、GPT-4、PaLM、Galactica和LLaMA等,國內(nèi)的有ChatGLM、文心一言、通義千問、訊飛星火等。
在這個階段,計算機的“大腦”變得非常巨大,擁有數(shù)十億甚至數(shù)千億的參數(shù)。這就像是將計算機的大腦升級到了一個巨型超級計算機。這讓計算機可以在各種任務(wù)上表現(xiàn)非常出色,有時甚至比人類還要聰明。
為了探索性能的極限,許多研究人員開始訓(xùn)練越來越多龐大的語言模型,例如擁有1750億參數(shù)的GPT-3和5400億參數(shù)的PaLM。盡管這些大型語言模型與小型語言模型(例如BERT的3.3億參數(shù)和GPT-2的15億參數(shù))使用相似的架構(gòu)和預(yù)訓(xùn)練任務(wù),但它們展現(xiàn)出截然不同的能力,尤其在解決復(fù)雜任務(wù)時表現(xiàn)出了驚人的潛力,這被稱為“涌現(xiàn)能力”。以GPT-3和GPT-2為例,GPT-3可以通過學(xué)習(xí)上下文來解決少樣本任務(wù),而GPT-2在這方面表現(xiàn)較差。因此,研究界給這些龐大的語言模型起了個名字,稱之為“大語言模型(LLM)”。而LLM的一個杰出應(yīng)用就是ChatGPT,它是GPT系統(tǒng)LLM用于與人類對話式應(yīng)用的大膽嘗試,展現(xiàn)出了非常流暢和自然的表現(xiàn)。
LLM的應(yīng)用和影響
LLM已經(jīng)在許多領(lǐng)域產(chǎn)生了深淵的影響。在自然語言處理領(lǐng)域,它可以幫助計算機更好地理解和生成文本,包括寫文章、回答問題、翻譯語言。在信息檢索領(lǐng)域,它可以改進搜索引擎,讓我們更輕松地找到所需的信息。在計算機視覺領(lǐng)域,研究人員還在努力讓計算機理解圖像和文字,以改善多媒體交互?!?/p>
最重要的是,LLM的出現(xiàn)讓人們重新思考了通用人工智能(AGI)的可能性。AGI是一種像人類一樣思考和學(xué)習(xí)的人工智能。LLM被認為是AGI的一種早起形式,這引發(fā)了對未來人工智能發(fā)展的許多思考和計劃。
總之,LLM是一種令人興奮的技術(shù),它讓計算機更好地理解和使用語言,正在改變著我們與技術(shù)互動的方式,同時也引發(fā)了對未來人工智能的無限探索。
大模型的能力、特點
大模型的能力
涌現(xiàn)能力(energent abilities)
區(qū)分大語言模型(LLM)與以前的預(yù)訓(xùn)練語言模型(PLM)最顯著的特征之一是它們的涌現(xiàn)能力。涌現(xiàn)能力指的是一種令人驚訝的能力,它在小型模型中不明顯,但在大型模型中顯著出現(xiàn)??梢灶惐鹊轿锢韺W(xué)中的相變現(xiàn)象,涌現(xiàn)能力的顯現(xiàn)就像是模型性能隨著規(guī)模增大而迅速提升,超過了隨機水平,也就是我們常說的量變引起了質(zhì)變。
具體類說,涌現(xiàn)能力可以定義為與某些復(fù)雜任務(wù)相關(guān)的能力,但我們更關(guān)注的是它們具備的通用能力,也就是能夠應(yīng)用于解決各種任務(wù)的能力。接下來,讓我們簡要介紹三個典型的LLM涌現(xiàn)能力:
- 上下文學(xué)習(xí):上下文學(xué)習(xí)能力是由GPT-3首次引入的。這種能力允許語言模型在提供自然語言指令或多個任務(wù)示例的情況下,通過理解上下文并生成相應(yīng)輸出的方式來執(zhí)行任務(wù),而無需額外的訓(xùn)練或參數(shù)更新。
- 指令遵循:通過使用自然語言描述的多任務(wù)數(shù)據(jù)進行微調(diào),也就是所謂的指令微調(diào),LLM被證明在同樣使用指令形式化描述的未見過的任務(wù)上表現(xiàn)良好。這意味著LLM能夠根據(jù)任務(wù)指令執(zhí)行任務(wù),而無需事先見過具體示例,這展示了其強大的泛化能力。
- 逐步推理:小型語言模型通常難以解決涉及多個推理步驟的復(fù)雜任務(wù),例如數(shù)學(xué)問題。然而,LLM通過采用“思維鏈”推理策略,可以利用包含中間推理步驟的提示機制來解決這些任務(wù),從而得到最終答案。據(jù)推測,這種能力可能是通過對代碼的訓(xùn)練獲得的。
作為基座模型支持多元應(yīng)用的能力
在2021年,斯坦福大學(xué)等多所高校的研究人員提出了基座模型(foundation model)的概念,這更清晰地描述了之前學(xué)界所稱的預(yù)訓(xùn)練模型的作用。這是一種全新的AI技術(shù)范式,借助于海量無標注數(shù)據(jù)的訓(xùn)練,獲得可以適用于大量下游任務(wù)的大模型(單模態(tài)或者多模態(tài))。這樣,多個應(yīng)用可以只依賴一個或少數(shù)幾個大模型進行統(tǒng)一建設(shè)。
大語言模型是這個新模式的典型例子,使用統(tǒng)一的大模型可以極大地提高研發(fā)效率,相比于分散的模型開發(fā)方式,這是一項本質(zhì)上的進步。大型模型不僅可以縮短每個具體應(yīng)用的開發(fā)周期,減少所需人力投入,也可以基于大模型的推理、常識和寫作能力,獲得更好的應(yīng)用效果。因此,大模型可以成為AI應(yīng)用開發(fā)的大一統(tǒng)基座模型,這是一個一舉多得、全新的范式,值得大力推廣。
支持對話作為統(tǒng)一入口的能力
讓大語言模型真正火爆的契機,是基于對話聊天的ChatGPT。事實上,業(yè)界很早就發(fā)現(xiàn)了用戶對于對話交互的特殊偏好,陸奇在微軟期間2016年就推進“對話即平臺(conversation as a platform)”的戰(zhàn)略。此外,蘋果Siri、亞馬遜Echo等基于語音對話的產(chǎn)品也非常受歡迎,反映出互聯(lián)網(wǎng)用戶對于聊天和對話這種交互模式的偏好。雖然之前的聊天機器人存在各種問題,但大型語言模型的出現(xiàn)再次讓聊天機器人這種交互模型可以重新想象。用戶愈發(fā)期待像鋼鐵俠中“賈維斯”一樣的人工智能,無所不能、無所不知。這引發(fā)我們對于智能體(Agent)類型應(yīng)用前景的思考,Auto-GPT、微軟Jarvis等項目已經(jīng)出現(xiàn)并受到關(guān)注,相信未來會涌現(xiàn)出很多類似的以對話形態(tài)讓助手完成各種具體工作的項目。
大模型的特點
LLM具有多種顯著特點,這些特點使它們在自然語言處理和其他領(lǐng)域中引起了廣泛的興趣和研究。以下是LLM的一些主要特點:
- 巨大的規(guī)模:LLM通常具有巨大的參數(shù)規(guī)模,可以達到數(shù)十億甚至數(shù)千億個參數(shù)。這使得它們能夠捕捉更多的語言知識和復(fù)雜的語法結(jié)構(gòu)。
- 預(yù)訓(xùn)練和微調(diào):LLM采用了預(yù)訓(xùn)練和微調(diào)的學(xué)習(xí)方法。它們首先在大規(guī)模文本數(shù)據(jù)上進行預(yù)訓(xùn)練(無標簽數(shù)據(jù)),學(xué)會了通用的語言表示和知識,然后通過微調(diào)(有標簽數(shù)據(jù))適應(yīng)特定任務(wù),從而在各種NLP任務(wù)中表現(xiàn)出色。
- 上下文感知:LLM在處理文本時具有強大的上下文感知能力,能力理解和生成依賴于前文的文本內(nèi)容。這使得它們在對話、文章生成和情境理解方面表現(xiàn)出色。
- 多語言支持:LLM可以用于多種語言,不僅限于英語。它們的多語言能力使得跨文化和跨語言的應(yīng)用變得更加容易。
- 多模態(tài)支持:一些LLM已經(jīng)擴展到支持多模態(tài)數(shù)據(jù),包括文本、圖像和語音。這意味著它們可以理解和生成不同媒體類型的內(nèi)容,實現(xiàn)更多樣化的應(yīng)用。
- 涌現(xiàn)能力:LLM表現(xiàn)出令人驚訝的涌現(xiàn)能力,即在大規(guī)模模型中出現(xiàn)但在小型模型中不明顯的性能提升。這使得它們能夠處理更復(fù)雜的任務(wù)和問題。
- 多領(lǐng)域應(yīng)用:LLM已經(jīng)被廣泛應(yīng)用于文本生成、自動翻譯、信息檢索、摘要生成、聊天機器人、虛擬助手等多個領(lǐng)域,對人們的日常生活和工作產(chǎn)生了深遠的影響。
- 倫理和風(fēng)險問題:盡管LLM具有出色的能力,但它們也引發(fā)了倫理和風(fēng)險問題,包括生成有害內(nèi)容、隱私問題、認知偏差等。因此,研究和應(yīng)用LLM需要謹慎。
總之,大語言模型是一種具有強大語言處理能力的技術(shù),已經(jīng)在多個領(lǐng)域展示了潛力。它們?yōu)樽匀徽Z言理解和生成任務(wù)提供了強大的工具,同時也引發(fā)了對其倫理和風(fēng)險問題的關(guān)注。這些特點使LLM成為了當今計算機科學(xué)和人工智能領(lǐng)域的重要研究和應(yīng)用方向。
常見大模型
LLM的發(fā)展歷程雖然只有短短不到五年的時間,但是發(fā)展速度相當驚人,截止2023年6月,國內(nèi)外有超過百種大模型相繼發(fā)布。按照時間線給出了2019年至2023年6月比較有影響力并且模型數(shù)量超過100億的大語言模型,如下圖所示:
接下來我們主要介紹幾個國內(nèi)外常見的大模型(包括開源和閉源的LLM)
閉源LLM(未公開源代碼)
GPT系列
OpenAI公司在2018年提出的GPT(Generative Pre-Training)模型是典型的生成式預(yù)訓(xùn)練語言模型之一。
GPT模型的基本原則是通過語言建模將世界知識壓縮到僅解碼器的Transformer模型中,這樣它就可以恢復(fù)(或記憶)世界知識的語義,并充當通用任務(wù)求解器。它能夠成功的兩個關(guān)鍵點:
訓(xùn)練能夠準確預(yù)測下一個單詞的僅解碼器的Transformer語言模型。
擴展語言模型的大小。
總體而言,OpenAI在LLM上的研究大致可以分為以下幾個階段
接下來,我們將從模型規(guī)模、特點等方面,介紹大家熟悉的ChatGPT與GPT4:
ChatGPT
2022年11月,OpenAI發(fā)布了基于GPT模型(GPT3.5和GPT-4)的會話應(yīng)用ChatGPT。由于與人類交流的出色能力,ChatGPT自發(fā)布以來就引發(fā)了人工智能社區(qū)的興奮。ChatGPT是基于強大的GPT模型開發(fā)的,具有特別優(yōu)化的會話能力。
ChatGPT從本質(zhì)上來說是一個LLM應(yīng)用,它是基于GPT-3.5和GPT-4開發(fā)出來的,與GPT-4有本質(zhì)的區(qū)別,正如當前應(yīng)用界面所顯示的,支持GPT-3.5和GPT-4兩個版本
現(xiàn)在的ChatGPT支持最長達32000個字符,知識截止日期是2021年9月,它可以執(zhí)行各種任務(wù),包括代碼編寫、數(shù)學(xué)問題求解、寫作建議等。ChatGPT在與人類交流方面表現(xiàn)出了卓越的能力:擁有豐富的知識儲備,對數(shù)學(xué)問題進行推理的技能,在多回合對話中準確追蹤上下文,并且與人類安全使用的價值觀非常一致。后來,ChatGPT支持插件機制,這進一步擴展了ChatGPT與現(xiàn)有工具或應(yīng)用程序的能力。到目前為止,它似乎是人工智能歷史上最強大的聊天機器人。ChatGPT的推出對未來的人工智能研究具有重大影響,它為探索人類人工智能系統(tǒng)提供了啟示。
注意:2023 年 11 月 7 日, OpenAI 召開了首個開發(fā)者大會,會上推出了最新的大語言模型 GPT-4 Turbo,這個 Turbo 就相當于是進階版的意思。它將上下文長度擴展到 128k個token,相當于 300 頁文本,并且訓(xùn)練知識更新到 2023 年 4 月。?
?GPT-4
2023 年 3 月發(fā)布的GPT-4,它將文本輸入擴展到多模態(tài)信號。總體而言,GPT3.5 擁有 1750億 個參數(shù),而 GPT4 的參數(shù)量官方并沒有公布,但有相關(guān)人員猜測,GPT-4 在 120 層中總共包含了 1.8 萬億參數(shù),也就是說,GPT-4 的規(guī)模是 GPT-3 的 10 倍以上。因此,GPT-4 比 GPT-3.5?解決復(fù)雜任務(wù)的能力更強,在許多評估任務(wù)上表現(xiàn)出較大的性能提升。
最近的一項研究通過對人為生成的問題進行定性測試來研究 GPT-4 的能力,這些問題包含了各種各樣的困難任務(wù),并表明 GPT-4 可以比之前的 GPT 模型(如 GPT3.5 )實現(xiàn)更優(yōu)越的性能。此外,由于六個月的迭代校準(在 RLHF 訓(xùn)練中有額外的安全獎勵信號),GPT-4 對惡意或挑釁性查詢的響應(yīng)更安全。在技術(shù)報告中,OpenAI 強調(diào)了如何安全地開發(fā) GPT-4 ,并應(yīng)用了一些干預(yù)策略來緩解 LLM 可能出現(xiàn)的問題,如幻覺、隱私和過度依賴。例如,他們引入了稱為紅隊評估(red teaming)的機制,以減少危害或有毒物質(zhì)的產(chǎn)生。作為另一個重要方面,GPT4 是在一個完善的深度學(xué)習(xí)基礎(chǔ)設(shè)施上開發(fā)的,并使用改進的優(yōu)化方法。他們引入了一種稱為可預(yù)測擴展(predictable scaling)的新機制,可以在模型訓(xùn)練期間使用一小部分計算準確預(yù)測最終性能。
使用地址
Claude系列
Claude 系列模型是由 OpenAI 離職人員創(chuàng)建的?Anthropic?公司開發(fā)的閉源語言大模型,可以完成摘要總結(jié)、搜索、協(xié)助創(chuàng)作、問答、編碼等任務(wù)。目前包含 Claude 和 Claude-Instant 兩種模型可供選擇,其中 Claude Instant 的延遲更低,性能略差,價格比完全體的 Claude-v1 要便宜,兩個模型的上下文窗口都是 9000 個token(約 5000 個單詞,或 15 頁)它的目標是“更安全”、“危害更小”的人工智能。最早的 Claude 于 2023 年 3 月 15 日發(fā)布,并在 2023 年 7 月 11 日,更新至?Claude-2。Claude 2 的訓(xùn)練參數(shù)官方并未公開,但是相關(guān)的猜測大概是 860.1 億個參數(shù)。
該系列模型通過無監(jiān)督預(yù)訓(xùn)練、基于人類反饋的強化學(xué)習(xí)和 Constitutional AI 技術(shù)(包含監(jiān)督訓(xùn)練和強化學(xué)習(xí))進行訓(xùn)練,旨在改進模型的有用性、誠實性和無害性。值得一提的是,Claude 最高支持 100K 詞元的上下文,而 Claude-2 更是拓展到了 200K 詞元的上下文。相比于Claude 1.3, Claude 2 擁有更強的綜合能力,同時能夠生成更長的相應(yīng)。
總的來說,Claude 2 注重提高以下能力:
- Anthropic 致力于提高 Claude 作為編碼助理的能力,Claude 2 在編碼基準和人類反饋評估方面性能顯著提升。
- 長上下文(long-context)模型對于處理長文檔、少量 prompt 以及使用復(fù)雜指令和規(guī)范進行控制特別有用。Claude 的上下文窗口從 9K token 擴展到了 100K token(Claude 2 已經(jīng)擴展到 200K token,但目前發(fā)布版本僅支持 100K token)。
- 以前的模型經(jīng)過訓(xùn)練可以編寫相當短的回答,但許多用戶要求更長的輸出。Claude 2 經(jīng)過訓(xùn)練,可以生成最多 4000 個 token 的連貫文檔,相當于大約 3000 個單詞。
- Claude 通常用于將長而復(fù)雜的自然語言文檔轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)格式。Claude 2 經(jīng)過訓(xùn)練,可以更好地生成 JSON、XML、YAML、代碼和 Markdown 格式的正確輸出。 雖然 Claude 的訓(xùn)練數(shù)據(jù)仍然主要是英語,但 Claude 2 的訓(xùn)練數(shù)據(jù)中非英語數(shù)據(jù)比例已經(jīng)明顯增加。
- Claude 2 的訓(xùn)練數(shù)據(jù)包括 2022 年和 2023 年初更新的數(shù)據(jù)。這意味著它知道最近發(fā)生的事件,但它仍然可能會產(chǎn)生混淆。
使用地址
?PaLM系統(tǒng)
PaLM 系列語言大模型由?Google?開發(fā)。其初始版本于 2022 年 4 月發(fā)布,并在 2023 年 3 月公開了 API。PaLM 基于 Google 提出的 Pathways 機器學(xué)習(xí)系統(tǒng)搭建,訓(xùn)練數(shù)據(jù)總量達 780B 個字符,內(nèi)容涵蓋網(wǎng)頁、書籍、新聞、開源代碼等多種形式的語料。前 PaLM 共有 8B、62B、540B 三個不同參數(shù)量的模型版本。Google 還開發(fā)了多種 PaLM 的改進版本。Med-PaLM 是 PaLM 540B 在醫(yī)療數(shù)據(jù)上進行了微調(diào)后的版本,在 MedQA 等醫(yī)療問答數(shù)據(jù)集上取得了最好成績。PaLM-E 是 PaLM 的多模態(tài)版本,能夠在現(xiàn)實場景中控制機器人完成簡單任務(wù)。
2023 年 5 月,Google 發(fā)布了?PaLM 2,但并未公開其技術(shù)細節(jié)。Google 內(nèi)部文件顯示其參數(shù)量為 340B,訓(xùn)練數(shù)據(jù)為 PaLM 的 5 倍左右。它是 PaLM(540B) 的升級版,能夠處理“多語言任務(wù)”。它使用了一個覆蓋 100 多種語言的語料庫進行訓(xùn)練。而 PaLM2 實際上是一系列模型,可以根據(jù)規(guī)模分為:Gecko、Otter、Bison和Unicorn,可以根據(jù)不同的領(lǐng)域和需求進行微調(diào),最小模型可以部署在移動端,最大的參數(shù)量也只有 14.7B?,F(xiàn)已部署在 Google 的 25 個產(chǎn)品和功能中,包括 Bard 和 Google Worksapce 應(yīng)用,針對不同的領(lǐng)域又可以變成專有模型,比如 Med-PaLM 2,是第一個在美國醫(yī)療執(zhí)照考試類問題上表現(xiàn)出“專家”水平的大型語言模型。
PaLM 2 的幾大突破:
- 最優(yōu)的縮放比例(訓(xùn)練數(shù)據(jù)大小/模型參數(shù)量),通過 compute-optimal scaling 的研究,可以得知數(shù)據(jù)大小與模型大小同樣重要。根據(jù)谷歌的研究,數(shù)據(jù)和模型大小大致按照 1:1 的比例縮放,可以達到最佳性能。(過去常認為,模型參數(shù)量的大小大致為數(shù)據(jù)集 3 倍更佳)
- 訓(xùn)練數(shù)據(jù)集非純英文語料,混合了百種語言,包括了網(wǎng)絡(luò)文檔、書籍、代碼、數(shù)學(xué)和對話數(shù)據(jù),比用于訓(xùn)練PaLM的語料庫大得多。并在研究中發(fā)現(xiàn),越大的模型越是能處理更多的非英文數(shù)據(jù)集,而且包含更高比例的非英語數(shù)據(jù),對多語言任務(wù)(如翻譯和多語言問題回答)是有利的,因為模型會接觸到更多的語言和文化。這使得該模型能夠?qū)W習(xí)每種語言的細微差別。
以下窗口是 Google 基于 PaLM 2 開發(fā)的對話應(yīng)用 Bard:

使用地址
文心一言
文心一言是基于百度文心大模型的知識增強語言大模型,于 2023 年 3 月在國內(nèi)率先開啟邀測。文心一言的基礎(chǔ)模型文心大模型于 2019 年發(fā)布 1.0 版,現(xiàn)已更新到 4.0 版本。更進一步劃分,文心大模型包括 NLP 大模型、CV 大模型、跨模態(tài)大模型、生物計算大模型、行業(yè)大模型,其中 NLP 大模型主要為 ERNIE 系列模型,是打造文心一言的關(guān)鍵。文心大模型參數(shù)量非常大,達到了 2600 億。
2023 年 8 月 31 日,文心一言率先向全社會全面開放,提供 APP、網(wǎng)頁版、API 接口等多種形式的開放服務(wù)。文心一言一方面采用有監(jiān)督精調(diào)、人類反饋的強化學(xué)習(xí)、提示等技術(shù),還具備知識增強、檢索增強和對話增強等關(guān)鍵技術(shù)。當前,以文心一言為代表的大模型已經(jīng)逐步趕超國外最優(yōu)水平。文心一言基于飛槳深度學(xué)習(xí)框架進行訓(xùn)練,算法與框架的協(xié)同優(yōu)化后效果和效率都得到提升,模型訓(xùn)練速度達到優(yōu)化前的 3 倍,推理速度達到優(yōu)化前的 30 多倍。文心一言還建設(shè)了插件機制,通過外部工具、服務(wù)的調(diào)用,拓展大模型的能力的邊界。
?
使用地址
星火大模型
訊飛星火認知大模型是科大訊飛于 2023 年 5 月 6 日發(fā)布的語言大模型,提供了基于自然語言處理的多元能力,支持多種自然語言處理任務(wù),同時聯(lián)合中科院人工智能產(chǎn)學(xué)研創(chuàng)新聯(lián)盟和長三角人工智能產(chǎn)業(yè)鏈聯(lián)盟在業(yè)內(nèi)提出了覆蓋 7 大類 481 項任務(wù)的《通用人工智能評測體系》;6 月 9 日星火大模型升級到?V1.5 版
,實現(xiàn)了開放式知識問答、多輪對話、邏輯和數(shù)學(xué)能力的提升;8 月 15 日星火大模型升級到 V2.0 版,對于代碼和多模態(tài)能力進行了提升。
訊飛星火 V2.0
升級發(fā)布的多模態(tài)能力,已實現(xiàn)圖像描述、圖像理解、圖像推理、識圖創(chuàng)作、文圖生成、虛擬人合成。星火大模型包含超過1700 億個參數(shù),來源于數(shù)十億的語言數(shù)據(jù)集。盡管比 ChatGPT 3.5 模型 1.5 萬億個差著數(shù)量級,但 ChatGPT 覆蓋了全球主要語言,漢語不到其中 10% 的數(shù)據(jù)量。所以在現(xiàn)有數(shù)據(jù)基礎(chǔ)上,星火大模型比 ChatGPT 更懂中文?;诖a和多模態(tài)能力的發(fā)布,智能編程助手iFlyCode1.0?和?訊飛智作2.0?兩款應(yīng)用產(chǎn)品也在發(fā)布會上發(fā)布,進一步解放編程和內(nèi)容生產(chǎn)力。同時,訊飛和華為還聯(lián)合重磅發(fā)布了國內(nèi)首款支持大模型訓(xùn)練私有化的全國產(chǎn)化產(chǎn)品“星火一體機”,可支持企業(yè)快速實現(xiàn)訊飛星火大模型的私有化部署、場景賦能和專屬大模型訓(xùn)練優(yōu)化。
2023 年 10 月 24 日,2023 科大訊飛全球 1024 開發(fā)者上,現(xiàn)場發(fā)布了?訊飛星火認知大模型 V3.0
?,此次七大能力持續(xù)提升,并且全面對標ChatGPT。尤其像中文能力客觀評測上超越ChatGPT,在醫(yī)療、法律、教育等專業(yè)表現(xiàn)也格外突出,還有在代碼項目級理解能力、小樣本學(xué)習(xí)、多模態(tài)指令跟隨與細節(jié)表達等能力有所提升。
?
以下是訊飛星火的使用界面:
?
使用地址
?開源LLM
LLaMA 系列
LLaMA 系列模型是 Meta 開源的一組參數(shù)規(guī)模?從 7B 到 70B?的基礎(chǔ)語言模型,它們都是在數(shù)萬億個字符上訓(xùn)練的,展示了如何僅使用公開可用的數(shù)據(jù)集來訓(xùn)練最先進的模型,而不需要依賴專有或不可訪問的數(shù)據(jù)集。這些數(shù)據(jù)集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了大規(guī)模的數(shù)據(jù)過濾和清洗技術(shù),以提高數(shù)據(jù)質(zhì)量和多樣性,減少噪聲和偏見。LLaMA 模型還使用了高效的數(shù)據(jù)并行和流水線并行技術(shù),以加速模型的訓(xùn)練和擴展。特別地,LLaMA 13B 在 CommonsenseQA 等 9 個基準測試中超過了 GPT-3 (175B),而?LLaMA 65B 與最優(yōu)秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美。LLaMA 通過使用更少的字符來達到最佳性能,從而在各種推理預(yù)算下具有優(yōu)勢。
與 GPT 系列相同,LLaMA 模型也采用了?decoder-only?架構(gòu),但同時結(jié)合了一些前人工作的改進,例如:
Pre-normalization
,為了提高訓(xùn)練穩(wěn)定性,LLaMA 對每個 Transformer子層的輸入進行了 RMSNorm 歸一化,這種歸一化方法可以避免梯度爆炸和消失的問題,提高模型的收斂速度和性能;SwiGLU 激活函數(shù)
,將 ReLU 非線性替換為 SwiGLU 激活函數(shù),增加網(wǎng)絡(luò)的表達能力和非線性,同時減少參數(shù)量和計算量;RoPE 位置編碼
,模型的輸入不再使用位置編碼,而是在網(wǎng)絡(luò)的每一層添加了位置編碼,RoPE 位置編碼可以有效地捕捉輸入序列中的相對位置信息,并且具有更好的泛化能力。
這些改進使得 LLaMA 模型在自然語言理解、生成、對話等任務(wù)上都取得了較好的結(jié)果。
LLaMA 開源地址
GLM 系列
GLM 系列模型是清華大學(xué)和智譜 AI 等合作研發(fā)的開源語言大模型。ChatGLM
?是基于 GLM 結(jié)構(gòu)開發(fā)的具有?62 億參數(shù)量的語言大模型,支持 2048 的上下文長度。其使用了包含 1 萬億字符的中英文語料進行訓(xùn)練,能夠支持中文和英文兩種語言的任務(wù)。通過監(jiān)督微調(diào)、反饋自助、人類反饋強化學(xué)習(xí)等多種訓(xùn)練技術(shù),ChatGLM 擁有強大的生成能力,能夠生成更符合人類偏好的內(nèi)容。與 GLM 相似,通過?INT4 量化?和?P-Tuning v2?等高效微調(diào)的算法,ChatGLM 能夠在 7G 顯存的條件下進行微調(diào)。
在 ChatGLM 的基礎(chǔ)上,2023 年 6 月發(fā)布的?ChatGLM 2
?使用了包含?1.4 萬億字符的中英預(yù)料進行預(yù)訓(xùn)練,并使用人類偏好的數(shù)據(jù)對模型進行對齊訓(xùn)練,擁有比前一版本更加強大的能力,在多個任務(wù)上取得提升。
- 通過?FlashAttention 技術(shù),ChatGLM 2 能夠處理更長的長下文,支持的長下文長度達到了 3.2 萬字符。
- 通過?Multi-Query Attention 技術(shù),ChatGLM 2 能夠進一步地提升推理速度,減小對顯卡的顯存占用。
在 2023 年 10 月 27 日的 2023 中國計算機大會(CNCC)上,智譜 AI 推出了?ChatGLM3
?,ChatGLM3-6B
?是 ChatGLM3 系列中的開源模型,在保留了前兩代模型對話流暢、部署門檻低等眾多優(yōu)秀特性的基礎(chǔ)上,ChatGLM3-6B 引入了如下特性:
- 更強大的基礎(chǔ)模型: ChatGLM3-6B 的基礎(chǔ)模型?
ChatGLM3-6B-Base
?采用了更多樣的訓(xùn)練數(shù)據(jù)、更充分的訓(xùn)練步數(shù)和更合理的訓(xùn)練策略。在語義、數(shù)學(xué)、推理、代碼、知識等不同角度的數(shù)據(jù)集上測評顯示,ChatGLM3-6B-Base 具有在 10B 以下的基礎(chǔ)模型中最強的性能。 - 更完整的功能支持: ChatGLM3-6B 采用了全新設(shè)計的 Prompt 格式,除正常的多輪對話外。同時原生支持工具調(diào)用(Function Call)、代碼執(zhí)行(Code Interpreter)和 Agent 任務(wù)等復(fù)雜場景。
- 更全面的開源序列: 除了對話模型 ChatGLM3-6B 外,還開源了基礎(chǔ)模型 ChatGLM3-6B-Base、
長文本對話模型 ChatGLM3-6B-32K
。以上所有權(quán)重對學(xué)術(shù)研究完全開放,在填寫問卷進行登記后亦允許免費商業(yè)使用。
此外,還開源了?多模態(tài) CogVLM-17B
?、以及?智能體 AgentLM
?,具體來說:
- 在對話模型上,對標 ChatGPT 的是 ChatGLM
- 在文生圖方面,對標 DALL.E 的是 CogView
- 代碼生成上,與 Codex 相對的是 CodeGeeX
- 搜索增強上,與 WebGPT 相對的是 WebGLM
- 在多模態(tài)、圖文理解領(lǐng)域,與 GPT-4V 對標的有 ChatGLM3
?
以下是智譜清言的使用界面:

?
ChatGLM開源地址
使用地址
通義千問
通義千問由阿里巴巴基于“通義”大模型研發(fā),于 2023 年 4 月正式發(fā)布。2023 年 8 月,阿里云開源了Qwen(通義千問)系列工作,當前開源模型的參數(shù)規(guī)模為70億(7B)和140億(14B)。本次開源包括基礎(chǔ)模型Qwen,即?Qwen-7B
?和?Qwen-14B
?,以及對話模型?Qwen-Chat
?,即 Qwen-7B-Chat 和 Qwen-14B-Chat。
它能夠以自然語言方式響應(yīng)人類的各種指令,擁有強大的能力,如回答問題、創(chuàng)作文字、編寫代碼、提供各類語言的翻譯服務(wù)、文本潤色、文本摘要以及角色扮演對話等。借助于阿里云豐富的算力資源和平臺服務(wù),通義千問能夠?qū)崿F(xiàn)快速迭代和創(chuàng)新功能。此外,阿里巴巴完善的產(chǎn)品體系以及廣泛的應(yīng)用場景使得通義千問更具可落地性和市場可接受程度。
通義千問開源地址
使用地址
Baichuan 系列
Baichuan?是由百川智能開發(fā)的開源可商用的語言大模型,在權(quán)威的中文和英文 benchmark 上均取得同尺寸最好的效果,其基于Transformer 解碼器架構(gòu)。
Baichuan-7B
?是在大約 1.2 萬億字符上訓(xùn)練的?70 億參數(shù)模型,支持中英雙語,最大 4096 的上下文窗口長度。
Baichuan-13B
?在 Baichuan-7B 的基礎(chǔ)上進一步擴大參數(shù)量到?130 億,并且在高質(zhì)量的語料上訓(xùn)練了 1.4 萬億 字符,超過 LLaMA-13B 40%,是當前開源 13B 尺寸下訓(xùn)練數(shù)據(jù)量最多的模型。其支持中英雙語,使用 ALiBi 位置編碼,最大 4096 的上下文窗口長度,使用 rotary-embedding,是現(xiàn)階段被大多數(shù)模型采用的位置編碼方案,具有很好的外推性。百川同時開源了預(yù)訓(xùn)練
和對齊
模型,預(yù)訓(xùn)練模型是面向開發(fā)者的“基座”,而對齊模型則面向廣大需要對話功能的普通用戶。除了原始權(quán)重,為實現(xiàn)更高效的推理,百川開源了 INT8 和 INT4 的量化版本,相對非量化版本在幾乎沒有效果損失的情況下大大降低了部署的機器資源需求。
Baichuan 2 是百川智能推出的新一代開源大語言模型,Baichuan2-7B
?和?Baichuan2-13B
,均基于 2.6 萬億 Tokens 的高質(zhì)量語料訓(xùn)練,在保留了上一代開源模型良好的生成與創(chuàng)作能力,流暢的多輪對話能力以及部署門檻較低等眾多特性的基礎(chǔ)上,兩個模型在數(shù)學(xué)、代碼、安全、邏輯推理、語義理解等能力有顯著提升。Baichuan 2 在多個權(quán)威的中文、英文和多語言的通用、領(lǐng)域 benchmark 上取得同尺寸最佳的效果。本次發(fā)布包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化。
2023 年 10 月 30 日,百川智能發(fā)布?Baichuan2-192K
?大模型,上下文窗口長度高達 192 K ,發(fā)布時是全球最長的上下文窗口(但不久后就被零一萬物的首款開源大模型 —— Yi 打破紀錄達到 200 K,可直接處理 40 萬漢字超長文本輸入)。Baichuan2-192K 能夠一次處理約 35 萬個漢字,是目前支持長上下文窗口最優(yōu)秀大模型 Claude2(支持 100 K上下文窗口,實測約 8 萬字)的 4.4 倍。

?
百川開源地址
什么是 LangChain
Langchain 簡介
ChatGPT 的巨大成功激發(fā)了越來越多的開發(fā)者興趣,他們希望利用 OpenAI 提供的 API 或者私有化模型,來開發(fā)基于大型語言模型的應(yīng)用程序。盡管大型語言模型的調(diào)用相對簡單,但要創(chuàng)建完整的應(yīng)用程序,仍然需要大量的定制開發(fā)工作,包括API集成、互動邏輯、數(shù)據(jù)存儲等等。
為了解決這個問題,從 2022 年開始,許多機構(gòu)和個人相繼推出了多個開源項目,旨在幫助開發(fā)者們快速構(gòu)建基于大型語言模型的端到端應(yīng)用程序或工作流程。其中一個備受關(guān)注的項目就是 LangChain 框架。LangChain 框架是一個開源工具,充分利用了大型語言模型的強大能力,以便開發(fā)各種下游應(yīng)用。它的目標是為各種大型語言模型應(yīng)用提供通用接口,從而簡化應(yīng)用程序的開發(fā)流程。具體來說,LangChain 框架可以實現(xiàn)數(shù)據(jù)感知和環(huán)境互動,也就是說,它能夠讓語言模型與其他數(shù)據(jù)來源連接,并且允許語言模型與其所處的環(huán)境進行互動。
Langchain 發(fā)展歷史
LangChain 的作者是 Harrison Chase,該項目自從 2022 年 10 月在 github 上開源以后,迅速吸引了大量開發(fā)者的興趣和投資者的青睞,也由此轉(zhuǎn)變?yōu)橐患页鮿?chuàng)公司。
前段時間,AI初創(chuàng)公司 LangChain 成功完成了 1000 萬美元的種子輪融資,投資方為 Benchmark Capital。這筆融資進一步證實了 LangChain 作為 AI 初創(chuàng)企業(yè)的領(lǐng)軍地位。并且,在本次種子輪融資后,LangChain 不久后再次獲得了紅杉領(lǐng)投的 2000 萬至 2500 萬美元融資,估值達到 2 億美元。
Langchain 核心組件
LangChain 作為一個大語言模型開發(fā)框架,可以將 LLM 模型(對話模型、embedding模型等)、向量數(shù)據(jù)庫、交互層 Prompt、外部知識、外部代理工具整合到一起,進而可以自由構(gòu)建 LLM 應(yīng)用。 LangChain 主要由以下 6 個核心模塊組成:
- 模型輸入/輸出(Model I/O):與語言模型交互的接口。
- 數(shù)據(jù)連接(Data connection):與特定應(yīng)用程序的數(shù)據(jù)進行交互的接口。
- 鏈(Chains):將組件組合實現(xiàn)端到端應(yīng)用。
- 記憶(Memory):用于鏈的多次運行之間持久化應(yīng)用程序狀態(tài)。
- 代理(Agents):擴展模型的推理能力,用于復(fù)雜的應(yīng)用的調(diào)用序列。
- 回調(diào)(Callbacks):擴展模型的推理能力,用于復(fù)雜的應(yīng)用的調(diào)用序列。
以上內(nèi)容參考:動手學(xué)大模型應(yīng)用開發(fā)