中國(guó)知名設(shè)計(jì)網(wǎng)站國(guó)家職業(yè)技能培訓(xùn)平臺(tái)
蘋果公司人工智能科學(xué)家的一篇新論文發(fā)現(xiàn),基于大型語言模型的引擎(如 Meta 和 OpenAI 的引擎)仍然缺乏基本的推理能力。該小組提出了一個(gè)新的基準(zhǔn)–GSM-Symbolic,以幫助其他人衡量各種大型語言模型(LLM)的推理能力。 他們的初步測(cè)試表明,查詢措辭的細(xì)微變化會(huì)導(dǎo)致答案的顯著不同,從而損害模型的可靠性。
研究小組通過在查詢中添加人類可以理解的上下文信息來研究數(shù)學(xué)推理的"脆弱性",但這些信息不應(yīng)影響解決方案的基本數(shù)學(xué)。 這導(dǎo)致了不同的答案,而這是不應(yīng)該發(fā)生的。
該小組在報(bào)告中寫道:“具體來說,[即使]在 GSM 符號(hào)基準(zhǔn)中只改變問題中的數(shù)值,所有模型的性能都會(huì)下降。此外,這些模型中數(shù)學(xué)推理的脆弱性[表明],隨著問題中分句數(shù)量的增加,它們的性能也會(huì)顯著下降?!?/p>
研究發(fā)現(xiàn),哪怕只增加一個(gè)看似與給定數(shù)學(xué)問題相關(guān)的句子,都會(huì)使最終答案的準(zhǔn)確率降低高達(dá) 65%。研究得出結(jié)論:“根本無法在這個(gè)基礎(chǔ)上建立可靠的代理,在這個(gè)基礎(chǔ)上改變一兩個(gè)無關(guān)緊要的單詞或添加一些無關(guān)緊要的信息就能得到不同的答案?!?/p>
一個(gè)能說明問題的特殊例子是一個(gè)需要真正理解問題的數(shù)學(xué)問題。 團(tuán)隊(duì)開發(fā)的任務(wù)名為"GSM-NoOp",類似于小學(xué)生可能會(huì)遇到的數(shù)學(xué)"文字題"。
查詢以得出結(jié)果所需的信息開始?!皧W利弗周五摘了 44 個(gè)獼猴桃。 然后周六他摘了 58 個(gè)獼猴桃。 周日,他摘的獼猴桃數(shù)量是周五的兩倍?!?/p>
然后,查詢添加了一個(gè)看似相關(guān)但實(shí)際上與最終答案無關(guān)的子句,指出在周日采摘的獼猴桃中,“有五個(gè)比平均值小一點(diǎn)”,而所要求的答案只是問"奧利弗有多少個(gè)獼猴桃?"
關(guān)于周日采摘的一些獼猴桃大小的說明應(yīng)該與采摘的獼猴桃總數(shù)無關(guān)。 然而,OpenAI 的模型以及 Meta 的 Llama3-8b 從總結(jié)果中減去了五個(gè)較小的獼猴桃。
這一錯(cuò)誤邏輯得到了 2019 年的一項(xiàng)研究的支持,該研究通過詢問前兩屆超級(jí)碗四分衛(wèi)的年齡,可靠地混淆了人工智能模型。 通過添加他們參加比賽的背景和相關(guān)信息,以及在另一場(chǎng)碗賽中擔(dān)任四分衛(wèi)的第三人,模型得出了錯(cuò)誤的答案。
新研究得出結(jié)論:“我們沒有發(fā)現(xiàn)語言模型中存在形式推理的證據(jù)。 LLMS 的行為"最好用復(fù)雜的模式匹配來解釋”,研究發(fā)現(xiàn)這種模式匹配"事實(shí)上非常脆弱,[僅僅]改變名稱就能改變結(jié)果"。