資深網(wǎng)站百度學(xué)術(shù)論文官網(wǎng)入口
近日,智源研究院推出全球首個(gè)中文大模型辯論平臺(tái)FlagEval Debate,旨在通過引入模型辯論這一競(jìng)爭(zhēng)機(jī)制對(duì)大語言模型能力評(píng)估提供新的度量標(biāo)尺。該平臺(tái)是智源模型對(duì)戰(zhàn)評(píng)測(cè)服務(wù)FlagEval大模型角斗場(chǎng)的延展,將有助于甄別大語言模型的能力差異。
FlagEval Debate官網(wǎng):https://flageval.baai.org/#/debate
大模型對(duì)戰(zhàn)被廣泛認(rèn)為是能夠公平且有效的反應(yīng)用戶喜好傾向的一種大模型評(píng)估方式。但現(xiàn)有的大模型對(duì)戰(zhàn)普遍存在如下幾個(gè)問題:
-
1 大部分模型對(duì)戰(zhàn)勝率趨于平局,無法有效區(qū)分模型之間的差異;
-
2 測(cè)試內(nèi)容完全依賴用戶,需要大量用戶參與投票才能保證評(píng)測(cè)結(jié)果的準(zhǔn)確性和穩(wěn)定性;
-
3 在現(xiàn)有的對(duì)戰(zhàn)方式下,模型之間缺乏交互,無法反映模型之間的協(xié)作性和交互性。
為了優(yōu)化以上問題,智源研究院嘗試使用大模型辯論的形式對(duì)大模型進(jìn)行評(píng)估。辯論是一項(xiàng)通過邏輯推理、語言表達(dá)和現(xiàn)實(shí)論據(jù)來論證己方觀點(diǎn)、駁斥對(duì)方觀點(diǎn)、說服中立第三方的語言類智力活動(dòng)和綜合性表達(dá)游戲,具備明確的競(jìng)技性,能夠體現(xiàn)人的邏輯思維、語言組織、信息分析與處理能力,以及在對(duì)立觀點(diǎn)中尋找平衡與突破的能力。模型辯論能夠展現(xiàn)大模型在信息理解、知識(shí)整合、邏輯推理、語言生成和對(duì)話能力,同時(shí),還能測(cè)試其在復(fù)雜語境中信息的處理深度和遷移應(yīng)變能力,反映其學(xué)習(xí)與推理的進(jìn)步水平。
在對(duì)大模型辯論的技術(shù)路徑與對(duì)戰(zhàn)結(jié)果有效性進(jìn)行初步分析之后,智源研究院發(fā)現(xiàn)通過辯論這種交互性對(duì)戰(zhàn)形式,能夠凸顯模型之間的差距,并可基于少量的數(shù)據(jù)樣本計(jì)算模型有效排名,故推出基于眾測(cè)的中文大模型辯論平臺(tái)FlagEval Debate。
大模型辯論平臺(tái)FlagEval Debate,支持兩個(gè)模型分別以正反方身份圍繞辯題開展辯論。辯題由FlagEval Debate從辯題庫(kù)中隨機(jī)抽取,辯題庫(kù)主要由熱搜話題改編、FlagEval評(píng)測(cè)專家以及頂級(jí)辯論專家命制的辯題構(gòu)成。為提高用戶體驗(yàn),更好地觸達(dá)大眾及專業(yè)評(píng)審,所有用戶均可在FlagEval Debate平臺(tái)對(duì)每場(chǎng)辯論進(jìn)行評(píng)判。目前Flageval Debate已上線海外主流閉源以及眾多開源模型。
每場(chǎng)模型辯論由正方先發(fā)表意見,反方后發(fā)表意見,正反雙方共發(fā)表5輪意見,FlagEval Debate平臺(tái)頁(yè)面同時(shí)展示雙方每輪對(duì)話的觀點(diǎn),然后由人類用戶判斷哪方獲勝。為了有效避免正反方位置帶來的偏差,每一辯題下兩個(gè)模型均會(huì)各做一次正方一次反方。當(dāng)模型正反方身份互換后,將再次按照正反方順序進(jìn)行相同數(shù)量的輪次對(duì)話。每個(gè)大模型會(huì)與其他模型進(jìn)行多場(chǎng)辯論,最終根據(jù)獲勝的積分計(jì)算模型排名。
模型辯論對(duì)戰(zhàn)將采取開放性眾測(cè)和專家評(píng)測(cè)兩種方式,其中專家評(píng)審團(tuán)由專業(yè)辯論賽的選手和評(píng)委組成(包括世界冠軍團(tuán)隊(duì)),開放性眾測(cè)觀眾可自由鑒賞和投票。
開放性眾測(cè)觀眾報(bào)名鏈接:https://jwolpxeehx.feishu.cn/share/base/form/shrcnanu35NqOKaefVMUJKv6JYg
大模型辯論的對(duì)戰(zhàn)賽程以及規(guī)劃如下圖所示。初步實(shí)驗(yàn)表明,參與辯論的大模型經(jīng)過prompt調(diào)優(yōu)后表現(xiàn)會(huì)有很大的提升,歡迎各模型廠商掃描圖中二維碼或發(fā)送郵件至flageval@baai.ac.cn報(bào)名參與模型辯論評(píng)測(cè),智源將提供免費(fèi)的模型辯論調(diào)試服務(wù)。
未來,智源研究院將持續(xù)探索模型辯論的技術(shù)路徑與應(yīng)用價(jià)值,堅(jiān)持科學(xué)、權(quán)威、公正、開放四大原則,不斷完善FlagEval大模型評(píng)測(cè)體系,為大模型評(píng)測(cè)生態(tài)提供新的洞察與思考。