深圳網(wǎng)站建設易佰訊寧波seo排名外包
本文是LLM系列文章,針對《Holistic Evaluation of Language Models》的翻譯。
語言模型的整體評價
- 摘要
- 1 引言
- 2 前言
- 3 核心場景
- 4 一般指標
- 5 有針對性的評估
- 6 模型
- 7 通過提示進行調整
- 8 實驗和結果
- 9 相關工作和討論
- 10 缺失
- 11 不足和未來工作
- 12 結論
摘要
語言模型(LM)正在成為幾乎所有主要語言技術的基礎,但它們的功能、局限性和風險并沒有得到很好的理解。我們提出了語言模型的整體評價(HELM),以提高語言模型的透明度。首先,我們對LM感興趣的潛在場景(即用例)和度量(即需求)的廣闊空間進行分類。然后,我們根據(jù)覆蓋率和可行性選擇一個廣泛的子集,注意缺失或代表性不足的部分(例如,被忽視的英語方言的問題回答、可信度指標)。其次,我們采用多指標方法:我們盡可能(87.5%的時間)為16個核心場景中的每一個測量7個指標(準確性、校準、穩(wěn)健性、公平性、偏差、毒性和效率),確保超出準確性的指標不會半途而廢,并確保模型和指標之間的權衡清楚地暴露出來。我們還基于26個有針對性的場景進行了7次有針對性評估,以更深入地分析特定方面(如知識、推理、記憶/版權、虛假信息)。第三,我們對所有42個場景中的30個突出語言模型(跨越開放、有限訪問和封閉模型)進行了大規(guī)模評估,其中包括21個以前未在主流LM評估中使用的場景。在HELM之前,平均只有17.9%的核心HELM場景對模型進行了評估,一些突出的模型沒有共享一個共同的場景。我們將其提高到96.0%:現(xiàn)在,所有30個模型都在標準化條件下的一組核心場景和指標上進行了密集的基準測試。我們的評估涵蓋了25個關于不同場景、指標和模型之間相互作用的頂級發(fā)現(xiàn)。為了實現(xiàn)完全透明,我們公開發(fā)布了所有原始模型提示和完成,以進行進一步分析,并提供了一個通用的模塊化工具包,用于輕松添加新的場景、模型、指標和提示策略。我們打算讓HELM成為社區(qū)的活基準,不斷更新新場景、指標和模型。
1 引言
2 前言
3 核心場景
4 一般指標
5 有針對性的評估
6 模型
7 通過提示進行調整
8 實驗和結果
9 相關工作和討論
10 缺失
11 不足和未來工作
12 結論
語言模型改變了人工智能,開創(chuàng)了基礎模型的范式。現(xiàn)代語言模型的影響遠遠超出了研究范圍,語言模型正在迅速產(chǎn)品化,成為重要的、無處不在的語言技術,我們預計這種技術在不久的將來只會增加。目前,我們對語言模型缺乏透明度,鑒于其快速增長和迅速發(fā)展的影響,這一點尤其令人擔憂:作為一個社區(qū),我們不了解語言模型的整體。因此,我們在這項工作中推動了整體評估,因為我們認為整體評估是為語言模型提供必要透明度的關鍵手段。
透明度帶來信任和標準。將基準視為社會變革的模型,因為它們指導了人工智能系統(tǒng)的發(fā)展,我們更廣泛的目標是將基礎模型從不成熟的新興技術轉變?yōu)橹С秩祟惙睒s的可靠工具。考慮到這一目標,我們認識到人工智能基準測試的歷史和軌跡與制度特權相一致。基準制定議程并引導進步:我們應該追求全面、多元和民主的基準??紤]到基準驅動變革的低調但重要的力量,這反過來表明基準設計賦予了力量,我們展望了HELM的目標及其局限性。我們希望社區(qū)將對HELM進行詢問、采納和改進,以實現(xiàn)全面評估的目標。通過這種方式,我們希望對語言模型和其他類別的基礎模型進行全面評估,將產(chǎn)生有用、負責任和有益于社會的技術。