甘南網(wǎng)站建設百度熱搜榜怎么打開
引言
在去年(2023)云棲大會上,阿里云正式發(fā)布千億級參數(shù)大模型通義千問2.0。據(jù)現(xiàn)場介紹,在10個權威測評中,通義千問2.0綜合性能超過GPT-3.5,正在加速追趕GPT-4。以下是通義千問在MMLU、C-Eval、GSM8K、HumanEval、MATH等10個主流Benchmark測評集上的表現(xiàn):
上圖可以看出通義千問2.0的得分整體超越META的Llama-2-70B,相比OpenAI的Chat-3.5是九勝一負,相比GPT-4則是四勝六負,與GPT-4的差距進一步縮小
那么問題來了,上圖中Benchmark測評集分別是什么?側重點在哪些方面?
基準測評集介紹
CMMLU
CMMLU是針對中國背景下的大型語言模型的知識和推理能力的評測,由MBZUAI、上海交通大學、微軟亞洲研究院共同推出,包含67個主題,專門用于評估語言模型在中文語境下的知識和推理能力。CMMLU是一個涵蓋自然科學、社會科學、工程和人文學科等多個學科的綜合性中國基準。是國內兩大權威評測之一。
- 論文:CMMLU: Measuring massive multitask language understanding in Chinese
- 數(shù)據(jù)、代碼與最新榜單:github.com/haonan-li/C…
MMLU
MMLU(Massive Multitask Language Understanding,大規(guī)模多任務語言理解)是一個由Hendrycks等人在《Measuring Massive Multitask Language Understanding》中提出的新基準,旨在通過僅在零樣本和少樣本設置下評估模型來衡量預訓練。
- 官網(wǎng): paperswithcode.com/dataset/mml…
- 論文: MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING
- 大模型排行榜: paperswithcode.com/sota/multi-…
C-Eva
C-Eval是由清華大學、上海交通大學和愛丁堡大學合作構建的綜合性考試評測集,覆蓋52個學科,是目前權威的中文AI大模型評測榜單之一。是國內兩大權威評測之一。C-Eval是全面的中文基礎模型評估套件,涵蓋了52個不同學科的13948個多項選擇題,分為四個難度級別。
- 論文:C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
- 官網(wǎng):cevalbenchmark.com/
- 網(wǎng)址:github.com/hkust-nlp/c…
- 排行:瀏覽
GSM8K
GSM8K是由OpenAI發(fā)布的大模型數(shù)學推理能力評測基準。一個由8.5K高質量的語言多樣化的小學數(shù)學單詞問題組成的數(shù)據(jù)集(其中7.5K訓練集,1K測試集)。這些問題都是由人類寫手創(chuàng)造的。每個問題需要2-8步推理來求解,主要是使用基本的算術運算(+-/*
)進行一連串的基本計算,以得出最終答案。
GSM8K是兩大知名數(shù)學推理基準之一,該項測試在2021年10月份發(fā)布,至今仍然是非常困難的一種測試基準。
提出背景:像GPT-3這樣的大型語言模型有許多令人印象深刻的技能,包括模仿許多寫作風格的能力,以及廣泛的事實知識。但GPT難以完成需要精確多步驟推理的任務,比如解決小學數(shù)學單詞問題。為了匹配人類在復雜邏輯領域中的表現(xiàn),OpenAI使用驗證器在許多解決方案中選擇了最好的GSM8K, 他們收集了新的GSM8K數(shù)據(jù)集來評估其方法,并發(fā)布該數(shù)據(jù)集以促進研究。
- 論文:Training Verifiers to Solve Math Word Problems
- 項目:github.com/openai/grad…
- 博客:openai.com/research/so…
Gaokao-Bench
GAOKAO-bench是一個以中國中考試題為數(shù)據(jù)集,評估大型語言模型的語言理解和邏輯推理能力的評估框架,收集了2010-2022年全國高考卷的題目, 包含1781道選擇題、218道填空題和812道解答題。同時評測分為兩部分,自動化評測的客觀題部分和依賴于專家打分的主觀題部分,這兩部分結果構成了最終的分數(shù)。所有過程的數(shù)據(jù)和結果都是公開的。
- 官網(wǎng):github.com/OpenLMLab/G…
- 論文:Evaluating the Performance of Large Language Models on GAOKAO Benchmark
AGIEval
微軟發(fā)布的大模型基礎能力評測基準,在2023年4月推出,主要評測大模型在人類認知和解決問題的一般能力,涵蓋全球20種面向普通人類考生的官方、公共和高標準錄取和資格考試,包含中英文數(shù)據(jù)。因此,該測試更加傾向于人類考試結果,涵蓋了中英文。
- 論文:AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models
- 數(shù)據(jù):github.com/microsoft/A…
MATH
MATH 數(shù)學領域的推理和解決問題能力測試, 是UC Berkeley提出的一個用于評估機器學習模型的數(shù)學問題解決能力的數(shù)據(jù)集。MATH與GSM8K類似,但是包含了12500道高中數(shù)學競賽題,每道題都有詳細的步驟化解法,可用于教模型生成答案推導和解釋。MATH數(shù)據(jù)集目前對現(xiàn)有模型仍非常具挑戰(zhàn)性。
MATH是兩大知名數(shù)學推理基準之一。
- 項目地址:github.com/hendrycks/m…
- 論文:Measuring Mathematical Problem Solving With the MATH Dataset
BBH
BIG bench hard(BBH) 基準,通過選擇大語言模型表現(xiàn)出比人類更差性能的具有挑戰(zhàn)性的任務,專注于研究大語言模型目前無法解決的任務。BIG-bench Hard是BIG-bench的一個僅包含目前模型表現(xiàn)無法超過人類的任務子集。
BIG-bench 是一個協(xié)作基準,旨在從各個方面調查現(xiàn)有的大語言模型。它包括204項任務,涵蓋了廣泛的主題,包括語言學、兒童發(fā)展、數(shù)學、常識推理、生物學、物理學、社會偏見、軟件開發(fā)等。通過縮放模型大小,大語言模型甚至可以在BIG-bench上65%的任務中,在少樣本設置下的平均人類表現(xiàn)
- 論文:Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them
- github: github.com/suzgunmirac…
HumanEval
它用于測量從文檔字符串合成程序的功能正確性。它由164個原始編程問題組成,評估語言理解、算法和簡單數(shù)學,其中一些問題與簡單的軟件面試問題相當。
- 論文: arxiv.org/abs/2107.03…
- github: github.com/openai/huma…
MBPP
該基準測試由大約1000個眾包Python編程問題組成,旨在由入門級程序員解決,涵蓋編程基礎知識、標準庫功能等。每個問題都由任務描述、代碼解決方案和3個自動化測試用例組成。主要反映大模型的代碼理解和生成任務能力。
- 論文:Program Synthesis with Large Language Models
- github: github.com/…/mbpp
附錄
榜單
UC伯克利主導的「LLM排位賽」
LMSYS Org是UC伯克利(University of California,Berkeley)的研究人員發(fā)起的一個大語言模型版排位賽!顧名思義,就是讓一群大語言模型隨機進行battle,并根據(jù)它們的Elo得分進行排名。
- 官網(wǎng):lmsys.org/projects/
- 大語言模型的在線試用與評測:chat.lmsys.org/
該排位賽使用MT-bench作為聊天機器人評估基準。
創(chuàng)始人之一盛穎是之前爆火的、可以在單GPU上可以跑175B模型推理的系統(tǒng)FlexGen的一作,目前已獲8k星,她是斯坦福大學計算機科學系的博士生。另外兩位是Lianmin Zheng和Hao Zhang。
AlpacaEval
- github: github.com/tatsu-lab/a…
- 榜單:Alpaca Eval Leaderboard
OpenCompass
- 官網(wǎng):opencompass.org.cn
- 榜單:opencompass.org.cn/leaderboard…
MT-Bench
MT-Bench是一個經(jīng)過精心設計的基準測試,包含80個高質量的多輪問題。8個主要的類別:寫作、角色扮演、提取、推理、數(shù)學、編程、知識I(科學技術工程數(shù)學)和知識II(人文社科)。其中,每個類別有10個多輪問題,總共160個問題。
下圖是LMSYS Org上的2023年榜單上的雷達圖:
項目說明如下:
- Writing - 寫作
- Humanities - 人類行業(yè)
- Roleplay - 角色扮演
- STEM - 理工科任務
- Reasoning - 推理任務
- Extraction - 提取(蒸餾)
- Math - 數(shù)學任務
- Coding - 代碼任務
MathVista
MathVista由微軟發(fā)布的全新多模態(tài)數(shù)學推理基準數(shù)據(jù)集,同時提供了一份涵蓋 112 頁的詳細評測報告,專注于大型多模態(tài)模型的數(shù)學推理表現(xiàn)。這一基準測試對于目前最先進的模型,如 GPT-4V,來說也是一項挑戰(zhàn),顯示了這些模型在多模態(tài)數(shù)學問題解決方面的局限性。
- 論文:arxiv.org/abs/2310.02…
- 項目:mathvista.github.io/
- HF數(shù)據(jù)集:huggingface.co/datasets/AI…
- 數(shù)據(jù)可視化:mathvista.github.io/#visualizat…
- Leaderboard:mathvista.github.io/#leaderboar…
評測綜述的論文:大型語言模型評估綜述
- 論文:A Survey on Evaluation of Large Language Models
歡迎提供更多的
如果您也對AI大模型感興趣想學習卻苦于沒有方向👀
小編給自己收藏整理好的學習資料分享出來給大家💖
👉獲取方式:
😝有需要的小伙伴,可以保存圖片到wx掃描二v碼關注免費領取【保證100%免費
】🆓
👉AI大模型學習路線匯總👈
大模型學習路線圖,整體分為7個大的階段:(全套教程文末領取哈)
第一階段: 從大模型系統(tǒng)設計入手,講解大模型的主要方法;
第二階段: 在通過大模型提示詞工程從Prompts角度入手更好發(fā)揮模型的作用;
第三階段: 大模型平臺應用開發(fā)借助阿里云PAI平臺構建電商領域虛擬試衣系統(tǒng);
第四階段: 大模型知識庫應用開發(fā)以LangChain框架為例,構建物流行業(yè)咨詢智能問答系統(tǒng);
第五階段: 大模型微調開發(fā)借助以大健康、新零售、新媒體領域構建適合當前領域大模型;
第六階段: 以SD多模態(tài)大模型為主,搭建了文生圖小程序案例;
第七階段: 以大模型平臺應用與開發(fā)為主,通過星火大模型,文心大模型等成熟大模型構建大模型行業(yè)應用。
👉如何學習AI大模型?👈
作為一名熱心腸的互聯(lián)網(wǎng)老兵,我決定把寶貴的AI知識分享給大家。 至于能學習到多少就看你的學習毅力和能力了 。我已將重要的AI大模型資料包括AI大模型入門學習思維導圖、精品AI大模型學習書籍手冊、視頻教程、實戰(zhàn)學習等錄播視頻免費分享出來。
這份完整版的大模型 AI 學習資料已經(jīng)上傳CSDN,朋友們如果需要可以微信掃描下方CSDN官方認證二維碼免費領取【保證100%免費
】
一、全套AGI大模型學習路線
AI大模型時代的學習之旅:從基礎到前沿,掌握人工智能的核心技能!
二、640套AI大模型報告合集
這套包含640份報告的合集,涵蓋了AI大模型的理論研究、技術實現(xiàn)、行業(yè)應用等多個方面。無論您是科研人員、工程師,還是對AI大模型感興趣的愛好者,這套報告合集都將為您提供寶貴的信息和啟示。
三、AI大模型經(jīng)典PDF籍
隨著人工智能技術的飛速發(fā)展,AI大模型已經(jīng)成為了當今科技領域的一大熱點。這些大型預訓練模型,如GPT-3、BERT、XLNet等,以其強大的語言理解和生成能力,正在改變我們對人工智能的認識。 那以下這些PDF籍就是非常不錯的學習資源。
四、AI大模型商業(yè)化落地方案
作為普通人,入局大模型時代需要持續(xù)學習和實踐,不斷提高自己的技能和認知水平,同時也需要有責任感和倫理意識,為人工智能的健康發(fā)展貢獻力量。