江蘇專業(yè)做網(wǎng)站淘寶關(guān)鍵詞排名
ICLR 2025 36688
In-context learning(ICL),即僅憑輸入示例即可解決任務的能力,通常被視為 Transformer 模型的獨特優(yōu)勢。然而,本文通過分析常用的合成 ICL 任務,發(fā)現(xiàn)多層感知機(MLPs)也具備學習 in-context 能力。
更進一步地,在相同計算預算下,MLPs 及其相關(guān)架構(gòu) MLP-Mixer 在 ICL 表現(xiàn)上可與 Transformers 相媲美。不僅如此,在一系列來自心理學的經(jīng)典任務中(這些任務專為測試關(guān)系推理能力而設計,且與 in-context 分類密切相關(guān)),MLPs 的表現(xiàn)甚至優(yōu)于 Transformers。
這一發(fā)現(xiàn)帶來了兩個重要啟示:
-
ICL 不應僅限于注意力機制架構(gòu)的研究范圍;
-
挑戰(zhàn)了此前認為 MLP 難以勝任關(guān)系推理任務的觀點。
總的來看,這些結(jié)果揭示了 MLPs 在合成 ICL 場景中出人意料的表現(xiàn),為當前日益增長的 “all-MLP 替代 Transformer” 研究方向提供了有力支持。
盡管如此,目前仍不清楚 MLP 在大規(guī)模、真實世界任務中相較于 Transformer 的具體表現(xiàn)如何,以及兩者之間潛在性能差距的來源。因此,作者呼吁進一步研究 MLP 架構(gòu)在更復雜場景下的能力,以全面理解注意力機制相較于其他神經(jīng)網(wǎng)絡結(jié)構(gòu)的真正優(yōu)勢所在。