做網(wǎng)站入什么科目網(wǎng)絡(luò)營(yíng)銷公司好不好
iclr 2024 reviewer評(píng)分 5688
- 引入了 SmartPlay,一種從 6 種不同游戲中提取的基準(zhǔn)
- 衡量LLM作為智能體的能力
1?智能代理所需的能力
- 論文借鑒游戲設(shè)計(jì)的概念,確定了智能LLM代理的九項(xiàng)關(guān)鍵能力,并為每項(xiàng)能力確定了多個(gè)等級(jí):
長(zhǎng)文本理解 | 一般LLM的能力 根據(jù)文檔長(zhǎng)度和句法變化定義了4個(gè)等級(jí): 1) 幾行固定文本 2) 幾段固定文本 3) 帶有句法變化 4) 長(zhǎng)于1頁(yè)(500字) |
推理 | 多跳邏輯推理和演繹,通常需要用于分析游戲?qū)ο蟮幕?dòng)或行動(dòng)條件/依賴關(guān)系 根據(jù)推理跳數(shù)定義了3個(gè)等級(jí): 1) (0 ~ 1) 2) (2 ~ 3) 3) (> 3) |
指令/規(guī)則遵循 | 遵循環(huán)境或用戶設(shè)定的規(guī)則和指令 我們根據(jù)游戲規(guī)則的數(shù)量定義了3個(gè)等級(jí): 1) 單一規(guī)則, 2) (< 5), 3) (5+) |
規(guī)劃 | 進(jìn)行長(zhǎng)期的情境規(guī)劃以實(shí)現(xiàn)復(fù)雜目標(biāo) 根據(jù)規(guī)劃步驟和需要優(yōu)先處理的并行目標(biāo)定義了3個(gè)等級(jí) 1) < 5個(gè)規(guī)劃步驟 2) 5個(gè)以上規(guī)劃步//驟 3) 并行目標(biāo) |
泛化 | 在廣泛的任務(wù)范圍內(nèi)表現(xiàn)出色。? 根據(jù)游戲提供的變異度定義了3個(gè)等級(jí): 1) 固定環(huán)境 2) 固定游戲世界但目標(biāo)隨機(jī) 3) 程序生成的游戲世界 |
理解概率 | 分析和估計(jì)隨機(jī)事件的概率。 根據(jù)環(huán)境中隨機(jī)性的重要性定義了3個(gè)等級(jí): 1) 無(wú)隨機(jī)性 2) 游戲中存在隨機(jī)性 3) 隨機(jī)性為核心游戲機(jī)制 |
從互動(dòng)中學(xué)習(xí) | 從實(shí)時(shí)互動(dòng)中獲取環(huán)境知識(shí)。 根據(jù)需要學(xué)習(xí)的獨(dú)特互動(dòng)次數(shù)定義了4個(gè)等級(jí): 1) 無(wú)需學(xué)習(xí) 2) 單次互動(dòng) 3) < 5次互動(dòng) 4) 5次以上互動(dòng) |
錯(cuò)誤/失誤處理 | 從錯(cuò)誤中恢復(fù)(例如,糾正錯(cuò)誤的軌跡)。 根據(jù)是否需要處理錯(cuò)誤以及是否需要額外的推理和重新規(guī)劃定義了3個(gè)等級(jí): 1) 不需要 2) 簡(jiǎn)單回滾即可糾錯(cuò) 3) 需要推理和重新規(guī)劃以糾正錯(cuò)誤 |
空間推理 | 空間推理通常需要用來(lái)理解方向和在游戲世界中導(dǎo)航(例如,導(dǎo)航2D/3D世界)。 根據(jù)維度定義了3個(gè)等級(jí): 1) 0 ~ 1D 2) 2D 3) 3D。 |
2?SMARTPLAY 中涉及的游戲
- 雙臂老虎機(jī)
- 石頭剪刀布
- 漢諾塔
- 信使
- 制造者
- 我的世界