洛陽(yáng)外貿(mào)網(wǎng)站推廣網(wǎng)站內(nèi)部鏈接優(yōu)化方法
官方代碼https://github.com/dongbeank/CATS
Abstract
時(shí)間序列預(yù)測(cè)在多領(lǐng)域極為關(guān)鍵,Transformer 雖推進(jìn)了該領(lǐng)域發(fā)展,但有效性尚存爭(zhēng)議,有研究表明簡(jiǎn)單線性模型有時(shí)表現(xiàn)更優(yōu)。本文聚焦于自注意力機(jī)制在時(shí)間序列預(yù)測(cè)中的作用,提出僅用交叉注意力的 CATS 架構(gòu)。它摒棄自注意力,利用交叉注意力并設(shè)置未來(lái)視野依賴參數(shù)為查詢及增強(qiáng)參數(shù)共享,提升了長(zhǎng)期預(yù)測(cè)精度,還減少了參數(shù)和內(nèi)存使用。多數(shù)據(jù)集實(shí)驗(yàn)顯示,CATS 模型均方誤差最低且參數(shù)更少。https://github.com/dongbeank/CATS
Introduction
- Background:時(shí)間序列預(yù)測(cè)在金融、氣象、交通等諸多領(lǐng)域中是關(guān)鍵任務(wù),其結(jié)果對(duì)決策制定有重要影響。Transformer 架構(gòu)在自然語(yǔ)言處理等方面取得巨大成功后,被廣泛應(yīng)用于時(shí)間序列預(yù)測(cè),但實(shí)際效果參差不齊,引發(fā)了對(duì)其內(nèi)部結(jié)構(gòu)尤其是自注意力機(jī)制在該任務(wù)中適用性的思考。
- Motivation:越來(lái)越多的研究顯示,在某些時(shí)間序列預(yù)測(cè)場(chǎng)景下,簡(jiǎn)單的線性模型能達(dá)到甚至超越復(fù)雜的基于 Transformer 的模型的性能。這促使作者深入探究自注意力機(jī)制在時(shí)間序列預(yù)測(cè)中的真實(shí)價(jià)值,試圖尋找更高效的架構(gòu)來(lái)提升預(yù)測(cè)準(zhǔn)確性和效率。
- Challenges:
- 計(jì)算復(fù)雜度問題:在傳統(tǒng)的 Transformer 架構(gòu)應(yīng)用于時(shí)間序列預(yù)測(cè)時(shí),自注意力機(jī)制的計(jì)算復(fù)雜度隨著序列長(zhǎng)度的增加呈平方增長(zhǎng)。當(dāng)處理大規(guī)模時(shí)間序列數(shù)據(jù)時(shí),這會(huì)導(dǎo)致訓(xùn)練時(shí)間大幅延長(zhǎng),對(duì)計(jì)算資源的需求也急劇增加,使得模型在實(shí)際應(yīng)用中的可行性受到挑戰(zhàn)。
- 過擬合風(fēng)險(xiǎn):Transformer 模型通常包含大量的參數(shù),在時(shí)間序列數(shù)據(jù)有限的情況下,容易出現(xiàn)過擬合現(xiàn)象。模型可能會(huì)過度學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪聲和局部特征,而無(wú)法很好地泛化到未知的未來(lái)數(shù)據(jù),從而影響預(yù)測(cè)的準(zhǔn)確性和可靠性。
- 自注意力機(jī)制對(duì)于時(shí)間序列預(yù)測(cè)是否有效?
- Contributions:
- 架構(gòu)創(chuàng)新:提出了 Cross-Attention-only Time Series transformer (CATS) 架構(gòu),為時(shí)間序列預(yù)測(cè)提供了一種全新的思路。通過去除自注意力機(jī)制,采用交叉注意力機(jī)制并結(jié)合獨(dú)特的參數(shù)設(shè)置,有效解決了傳統(tǒng) Transformer 在時(shí)間序列預(yù)測(cè)中面臨的部分難題。
- 實(shí)驗(yàn)驗(yàn)證:在多個(gè)不同類型和領(lǐng)域的數(shù)據(jù)集上進(jìn)行了廣泛而深入的實(shí)驗(yàn),全面驗(yàn)證了 CATS 模型的有效性。通過與現(xiàn)有的主流時(shí)間序列預(yù)測(cè)模型進(jìn)行對(duì)比,證明了 CATS 模型在降低均方誤差、減少參數(shù)數(shù)量和內(nèi)存使用方面具有顯著優(yōu)勢(shì),為后續(xù)的研究和實(shí)際應(yīng)用提供了有力的實(shí)證支持。
Method
在時(shí)間序列預(yù)測(cè)領(lǐng)域,傳統(tǒng)Transformer架構(gòu)中的自注意力機(jī)制存在諸多問題,如時(shí)間信息丟失、計(jì)算復(fù)雜度高等。為解決這些問題,作者提出了僅交叉注意力時(shí)間序列Transformer(CATS)架構(gòu),其主要由以下三個(gè)關(guān)鍵部分構(gòu)成。
將未來(lái)作為查詢的交叉注意力機(jī)制
在時(shí)間序列預(yù)測(cè)中,預(yù)測(cè)通常針對(duì)特定的未來(lái)時(shí)間范圍。交叉注意力機(jī)制與自注意力機(jī)制相似,涉及鍵(key)、查詢(query)和值(value)三個(gè)要素,但不同之處在于查詢來(lái)自與鍵和值不同的來(lái)源。在我們的CATS架構(gòu)中,核心在于將未來(lái)時(shí)間范圍視為查詢。
具體實(shí)現(xiàn)上,我們把與預(yù)測(cè)范圍相關(guān)的參數(shù)設(shè)定為可學(xué)習(xí)的查詢。以圖4為例,我們先針對(duì)特定的預(yù)測(cè)范圍創(chuàng)建相應(yīng)參數(shù)。對(duì)每個(gè)這樣的虛擬化參數(shù),分配固定數(shù)量的參數(shù)來(lái)代表對(duì)應(yīng)的預(yù)測(cè)范圍,使其成為可學(xué)習(xí)的查詢。例如, q i q_{i} qi? 就是在 L + i L + i L+i 時(shí)刻與預(yù)測(cè)范圍相關(guān)的一個(gè)查詢。當(dāng)進(jìn)行分塊操作時(shí),這些查詢會(huì)被獨(dú)立處理。每個(gè)可學(xué)習(xí)查詢 q ∈ R P q \in \mathbb{R}^{P} q∈RP 先被輸入到嵌入層,之后將經(jīng)過嵌入的輸入時(shí)間序列分塊作為鍵和值,輸入到多頭注意力層。通過這種方式,模型能夠利用交叉注意力機(jī)制,從過去的時(shí)間序列數(shù)據(jù)(鍵和值)中,精準(zhǔn)地提取與未來(lái)特定時(shí)間點(diǎn)(查詢)相關(guān)的信息,有效避免了自注意力機(jī)制中因排列不變性和反序特性導(dǎo)致的時(shí)間信息丟失問題,更好地捕捉時(shí)間序列中的動(dòng)態(tài)變化和依賴關(guān)系 。
跨預(yù)測(cè)范圍的參數(shù)共享
在CATS架構(gòu)中,參數(shù)共享策略是提升模型效率和性能的關(guān)鍵因素之一。傳統(tǒng)的Transformer架構(gòu)在處理不同預(yù)測(cè)范圍時(shí),往往為每個(gè)預(yù)測(cè)步驟單獨(dú)設(shè)置大量參數(shù),這不僅增加了模型的復(fù)雜度和訓(xùn)練成本,還容易引發(fā)過擬合問題。
與之不同,我們的CATS模型通過在不同預(yù)測(cè)范圍之間共享關(guān)鍵參數(shù),極大地減少了參數(shù)總量。例如,在多頭注意力機(jī)制中,用于計(jì)算注意力權(quán)重的部分參數(shù)在不同的預(yù)測(cè)時(shí)間步中是共享的。這種參數(shù)共享方式,使得模型在學(xué)習(xí)過程中能夠更高效地利用數(shù)據(jù),提高參數(shù)的使用效率,降低模型的過擬合風(fēng)險(xiǎn)。同時(shí),減少的參數(shù)數(shù)量降低了模型的計(jì)算復(fù)雜度,使得模型在訓(xùn)練和推理過程中所需的內(nèi)存和計(jì)算資源顯著減少,提升了模型的運(yùn)行速度和實(shí)際應(yīng)用的可行性。這一策略使得CATS模型在處理不同長(zhǎng)度和復(fù)雜度的時(shí)間序列數(shù)據(jù)時(shí),能夠以更簡(jiǎn)潔的結(jié)構(gòu)和更低的資源消耗,實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè)。
查詢自適應(yīng)掩碼
查詢自適應(yīng)掩碼是CATS架構(gòu)中的另一個(gè)創(chuàng)新點(diǎn),它主要用于優(yōu)化交叉注意力機(jī)制的計(jì)算過程,提升模型的預(yù)測(cè)準(zhǔn)確性。在時(shí)間序列預(yù)測(cè)中,不同的時(shí)間步和預(yù)測(cè)范圍對(duì)于信息的需求和依賴程度各不相同。查詢自適應(yīng)掩碼能夠根據(jù)每個(gè)查詢(即未來(lái)的每個(gè)時(shí)間點(diǎn))的特點(diǎn),動(dòng)態(tài)地調(diào)整模型在計(jì)算注意力權(quán)重時(shí)對(duì)輸入數(shù)據(jù)(鍵和值)的關(guān)注程度。
具體而言,掩碼會(huì)根據(jù)查詢所代表的未來(lái)時(shí)間點(diǎn)與當(dāng)前時(shí)間的距離、時(shí)間序列數(shù)據(jù)的局部和全局趨勢(shì)等因素,對(duì)輸入數(shù)據(jù)中的某些部分進(jìn)行選擇性的屏蔽或增強(qiáng)。例如,當(dāng)預(yù)測(cè)較近的未來(lái)時(shí)間點(diǎn)時(shí),模型可能更關(guān)注近期的時(shí)間序列數(shù)據(jù),掩碼會(huì)增強(qiáng)對(duì)這些數(shù)據(jù)的注意力權(quán)重;而當(dāng)預(yù)測(cè)較遠(yuǎn)的未來(lái)時(shí)間點(diǎn)時(shí),掩碼會(huì)引導(dǎo)模型綜合考慮更長(zhǎng)期的歷史數(shù)據(jù)和趨勢(shì)信息。通過這種方式,查詢自適應(yīng)掩碼幫助模型更加智能地聚焦于與每個(gè)預(yù)測(cè)目標(biāo)最相關(guān)的信息,避免無(wú)效信息的干擾,從而提高預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性。同時(shí),掩碼的應(yīng)用還可以減少不必要的計(jì)算,進(jìn)一步提升模型的計(jì)算效率。
Results
長(zhǎng)時(shí)預(yù)測(cè)
模型 CATS 在多個(gè)數(shù)據(jù)集的多元長(zhǎng)期預(yù)測(cè)任務(wù)中展現(xiàn)出卓越性能。在交通(Traffic)數(shù)據(jù)集上,對(duì)于所有預(yù)測(cè)范圍,CATS 始終能實(shí)現(xiàn)最低的均方誤差(MSE)和平均絕對(duì)誤差(MAE),超越了所有其他模型。對(duì)于天氣(Weather)、電力(Electricity)和 ETT 數(shù)據(jù)集,CATS 表現(xiàn)出極具競(jìng)爭(zhēng)力的性能,在大多數(shù)預(yù)測(cè)范圍上取得了最佳結(jié)果。這表明 CATS 有效地捕捉了不同時(shí)間序列數(shù)據(jù)中的潛在模式,凸顯了其處理復(fù)雜時(shí)間依賴關(guān)系的能力。
短時(shí)預(yù)測(cè)
交叉注意力vs自注意力
Conclusion
- 本研究通過理論分析和實(shí)驗(yàn)驗(yàn)證,表明在時(shí)間序列預(yù)測(cè)領(lǐng)域,傳統(tǒng) Transformer 模型中的自注意力機(jī)制并非是必不可少的。CATS 架構(gòu)通過巧妙地運(yùn)用交叉注意力機(jī)制和獨(dú)特的參數(shù)設(shè)置,成功地在提升預(yù)測(cè)精度的同時(shí)降低了資源消耗。
- 未來(lái)的研究可以基于 CATS 架構(gòu)進(jìn)一步探索優(yōu)化方向,如進(jìn)一步改進(jìn)交叉注意力機(jī)制的細(xì)節(jié)、探索更有效的參數(shù)共享策略、結(jié)合其他先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)等。同時(shí),可以將 CATS 模型拓展到更多的應(yīng)用領(lǐng)域,如工業(yè)生產(chǎn)過程中的質(zhì)量控制、環(huán)境監(jiān)測(cè)中的數(shù)據(jù)預(yù)測(cè)等,以推動(dòng)時(shí)間序列預(yù)測(cè)技術(shù)的不斷發(fā)展和創(chuàng)新。
Appendix
補(bǔ)充結(jié)果
學(xué)術(shù)會(huì)議
- 如有意愿參會(huì)或投稿,可以獲取邀請(qǐng)碼,享受參會(huì)、投稿優(yōu)惠,優(yōu)先審核
- 想要了解更多國(guó)內(nèi)主辦的覆蓋學(xué)科最全最廣的學(xué)術(shù)會(huì)議,請(qǐng)前往【所有會(huì)議官網(wǎng)】:
學(xué)術(shù)會(huì)議官網(wǎng)www.ais.cn