給網(wǎng)站做插畫(huà)分辨率seo也成搜索引擎優(yōu)化
建議觀看講解視頻:AI大講堂:革了Transformer的小命?專業(yè)拆解【Mamba模型】_嗶哩嗶哩_bilibili
1. 論文基本信息
2. 創(chuàng)新點(diǎn)
選擇性 SSM,和擴(kuò)展 Mamba 架構(gòu),是具有關(guān)鍵屬性的完全循環(huán)模型,這使得它們適合作為在序列上運(yùn)行的一般基礎(chǔ)模型的主干。
(i) 高質(zhì)量:選擇性在語(yǔ)言和基因組學(xué)等密集模式上帶來(lái)了強(qiáng)大的性能。
(ii) 快速訓(xùn)練和推理:計(jì)算和內(nèi)存在訓(xùn)練期間以序列長(zhǎng)度線性縮放,并且在推理過(guò)程中自回歸展開(kāi)模型在每一步只需要恒定的時(shí)間,因?yàn)樗恍枰惹霸氐木彺妗?/p>
(iii) 長(zhǎng)上下文:質(zhì)量和效率共同產(chǎn)生了高達(dá)序列長(zhǎng)度 1M 的真實(shí)數(shù)據(jù)的性能改進(jìn)。
3. 背景
基礎(chǔ)模型 (FM) 或在大量數(shù)據(jù)上預(yù)訓(xùn)練的大型模型,然后適應(yīng)下游任務(wù),已成為現(xiàn)代機(jī)器學(xué)習(xí)的有效范式。這些 FM 的主干通常是序列模型,對(duì)來(lái)自語(yǔ)言、圖像、語(yǔ)音、音頻、時(shí)間序列和基因組學(xué)等多個(gè)領(lǐng)域的任意輸入序列進(jìn)行操作。雖然這個(gè)概念與模型架構(gòu)的特定選擇無(wú)關(guān),但現(xiàn)代 FM 主要基于一種類型的序列模型:Transformer 及其核心注意力層自注意力的功效歸因于它能夠在上下文窗口中密集地路由信息,使其能夠?qū)?fù)雜的數(shù)據(jù)進(jìn)行建模。然而,此屬性帶來(lái)了根本的缺點(diǎn):無(wú)法對(duì)有限窗口之外的任何信息進(jìn)行建模,以及相對(duì)于窗口長(zhǎng)度的二次縮放。大量研究似乎在更有效的注意力變體上來(lái)克服這些缺點(diǎn),但通常以犧牲使其有效的非常屬性為代價(jià)。然而,這些變體都沒(méi)有被證明在跨領(lǐng)域的規(guī)模上在經(jīng)驗(yàn)上是有效的。
最近,結(jié)構(gòu)化狀態(tài)空間模型 (SSM) 已成為序列建模的一種有前途的架構(gòu)。這些模型可以解釋為循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的組合,靈感來(lái)自經(jīng)典狀態(tài)空間模型 (Kalman 1960)。此類模型可以非常有效地計(jì)算為遞歸或卷積,序列長(zhǎng)度具有線性或接近線性縮放。此外,論文提出了一類新的選擇性狀態(tài)空間模型,它在幾個(gè)軸上改進(jìn)了先前的工作,以實(shí)現(xiàn) Transformer 的建模能力,同時(shí)在序列長(zhǎng)度上線性縮放。
之前的網(wǎng)絡(luò)訓(xùn)練測(cè)試時(shí)間對(duì)比如下:
- 自注意力機(jī)制的缺陷:計(jì)算范圍僅限于窗口內(nèi),缺乏全局觀,但是窗口一旦擴(kuò)大,計(jì)算復(fù)雜度(O n^2),每個(gè)位置都需要計(jì)算,計(jì)算復(fù)雜度擴(kuò)大。
4. Pipeline
Parallel Computing:顯卡中例如計(jì)算累加和,可使用下面的蝶形運(yùn)算達(dá)到并行計(jì)算效果
在 trasformer 中由于要存儲(chǔ) attention map 導(dǎo)致需要存儲(chǔ)的內(nèi)容過(guò)多,導(dǎo)致顯卡中需要來(lái)回在 DRAM 和 SRAM 中做數(shù)據(jù) copy ,導(dǎo)致降低了計(jì)算效率:
Mamba 的模型框架,硬件感知算法(某些值可能過(guò)大 在 SRAM 中無(wú)法存儲(chǔ),Manba 的思想是將其重算):
Vision Mamba:
4.1. 時(shí)序狀態(tài)空間模型 SSM
NeurIPS 2021
SSM 本質(zhì)上是一個(gè) CNN 化的 RNN,采用并行處理結(jié)構(gòu)代替了原本的遞歸 RNN 。例如在生活中讀一本書(shū),時(shí)許嵌套的 RNN 每次只能讀一行, 然后把記憶傳遞到下一行,這種方式只適合處理短故事,故事一長(zhǎng),容易忘記之前的情節(jié)。而 SSM 并行處理,相當(dāng)于同時(shí)打開(kāi)所有頁(yè)看到每行內(nèi)容,這樣就能夠快速找到和理解整本數(shù)。
4.2. 選擇性 SSM
attention的核心思想其實(shí)就是在大量樣本中能夠找到重點(diǎn),于是 Manba 在降低模型的存儲(chǔ)復(fù)雜度的前提下,同樣關(guān)注注意力機(jī)制的核心。
在框架圖中,derta T 是通過(guò) \tau(一種非線性激活函數(shù)),因此delta T 是非線性的,所以 ABC 都是非線性時(shí)變的,系統(tǒng)的條件就放開(kāi)了。
Mamba Block ,左邊的線主要保證殘差連接,避免梯度消失。右邊先升維,在卷積提取時(shí)序特征,silu是非線性激活函數(shù)。
5. 💎實(shí)驗(yàn)成果展示
Vision Mamba:
6. 🔍問(wèn)題分析
Transformer 用于處理圖像已經(jīng)較為大的計(jì)算量,而 mamba 由于減少了計(jì)算量可以處理視頻或者 3D 點(diǎn)云數(shù)據(jù)。
- Transformer 注意力機(jī)制的窗口小效果小了效果差,窗口大了計(jì)算復(fù)雜度平方暴漲。
7. 源碼環(huán)境配置:
GitHub - state-spaces/mamba: Mamba SSM architecture Mamba