當(dāng)前位置：首頁 > news >正文

中國(guó)知名設(shè)計(jì)網(wǎng)站國(guó)家職業(yè)技能培訓(xùn)平臺(tái)

news 2025/7/9 22:01:10

中國(guó)知名設(shè)計(jì)網(wǎng)站,國(guó)家職業(yè)技能培訓(xùn)平臺(tái),政府網(wǎng)站建設(shè)審核,百度云搜索引擎官網(wǎng)蘋果公司人工智能科學(xué)家的一篇新論文發(fā)現(xiàn)，基于大型語言模型的引擎（如 Meta 和 OpenAI 的引擎）仍然缺乏基本的推理能力。該小組提出了一個(gè)新的基準(zhǔn)–GSM-Symbolic，以幫助其他人衡量各種大型語言模型（LLM）的推…

蘋果公司人工智能科學(xué)家的一篇新論文發(fā)現(xiàn)，基于大型語言模型的引擎（如 Meta 和 OpenAI 的引擎）仍然缺乏基本的推理能力。該小組提出了一個(gè)新的基準(zhǔn)–GSM-Symbolic，以幫助其他人衡量各種大型語言模型（LLM）的推理能力。他們的初步測(cè)試表明，查詢措辭的細(xì)微變化會(huì)導(dǎo)致答案的顯著不同，從而損害模型的可靠性。

在這里插入圖片描述
研究小組通過在查詢中添加人類可以理解的上下文信息來研究數(shù)學(xué)推理的"脆弱性"，但這些信息不應(yīng)影響解決方案的基本數(shù)學(xué)。這導(dǎo)致了不同的答案，而這是不應(yīng)該發(fā)生的。

該小組在報(bào)告中寫道：“具體來說，[即使]在 GSM 符號(hào)基準(zhǔn)中只改變問題中的數(shù)值，所有模型的性能都會(huì)下降。此外，這些模型中數(shù)學(xué)推理的脆弱性[表明]，隨著問題中分句數(shù)量的增加，它們的性能也會(huì)顯著下降?！?/p>

研究發(fā)現(xiàn)，哪怕只增加一個(gè)看似與給定數(shù)學(xué)問題相關(guān)的句子，都會(huì)使最終答案的準(zhǔn)確率降低高達(dá) 65%。研究得出結(jié)論：“根本無法在這個(gè)基礎(chǔ)上建立可靠的代理，在這個(gè)基礎(chǔ)上改變一兩個(gè)無關(guān)緊要的單詞或添加一些無關(guān)緊要的信息就能得到不同的答案?！?/p>

一個(gè)能說明問題的特殊例子是一個(gè)需要真正理解問題的數(shù)學(xué)問題。團(tuán)隊(duì)開發(fā)的任務(wù)名為"GSM-NoOp"，類似于小學(xué)生可能會(huì)遇到的數(shù)學(xué)"文字題"。

查詢以得出結(jié)果所需的信息開始?！皧W利弗周五摘了 44 個(gè)獼猴桃。然后周六他摘了 58 個(gè)獼猴桃。周日，他摘的獼猴桃數(shù)量是周五的兩倍?！?/p>

然后，查詢添加了一個(gè)看似相關(guān)但實(shí)際上與最終答案無關(guān)的子句，指出在周日采摘的獼猴桃中，“有五個(gè)比平均值小一點(diǎn)”，而所要求的答案只是問"奧利弗有多少個(gè)獼猴桃？"

關(guān)于周日采摘的一些獼猴桃大小的說明應(yīng)該與采摘的獼猴桃總數(shù)無關(guān)。然而，OpenAI 的模型以及 Meta 的 Llama3-8b 從總結(jié)果中減去了五個(gè)較小的獼猴桃。

這一錯(cuò)誤邏輯得到了 2019 年的一項(xiàng)研究的支持，該研究通過詢問前兩屆超級(jí)碗四分衛(wèi)的年齡，可靠地混淆了人工智能模型。通過添加他們參加比賽的背景和相關(guān)信息，以及在另一場(chǎng)碗賽中擔(dān)任四分衛(wèi)的第三人，模型得出了錯(cuò)誤的答案。

新研究得出結(jié)論：“我們沒有發(fā)現(xiàn)語言模型中存在形式推理的證據(jù)。 LLMS 的行為"最好用復(fù)雜的模式匹配來解釋”，研究發(fā)現(xiàn)這種模式匹配"事實(shí)上非常脆弱，[僅僅]改變名稱就能改變結(jié)果"。

查看全文

http://www.risenshineclean.com/news/5575.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

中國(guó)知名設(shè)計(jì)網(wǎng)站國(guó)家職業(yè)技能培訓(xùn)平臺(tái)

相關(guān)文章：