網(wǎng)站設計第一步怎么做今日國內新聞10則
文章目錄
- 一、文章概覽
- (一)問題提出
- (二)文章工作
- 二、判別比估計和密度鴻溝問題
- 三、伸縮密度比估計
- (一)核心思想
- (二)路標創(chuàng)建
- (三)橋梁構建
- (四)TRE應用于互信息估計
- (五)TRE 應用于基于能量的建模
- 四、實驗
- (一)1維峰值比率的設置及TRE的表現(xiàn)
- (二)高維度比率問題及TRE在大互信息(MI)估計中的表現(xiàn)
- (三)SpatialMultiOmniglot 上的 MI 估計和表示學習
- (四)MNIST 上基于能量的建模
一、文章概覽
(一)問題提出
密度比估計:
- 通過密度比估計進行的無監(jiān)督學習是機器學習中的一個強大范例,是該領域重大進展的源泉
- 根據(jù)數(shù)據(jù)樣本估計p/q比率,而不單獨估計分子和分母。
判別性密度比估計:
- 訓練神經(jīng)網(wǎng)絡分類器來區(qū)分兩組樣本,因為對于許多損失函數(shù),可以從最佳分類器中提取 p/q 比值。
- 這種判別性方法在多個領域中產(chǎn)生了先進的結果,是無監(jiān)督學習的基石。
密度鴻溝問題:
- 在兩個密度顯著不同的情況下,分類器就可以通過相對較差的密度比估計來獲得幾乎完美的精度。
- 實驗表明,每當 p 和 q 之間的KL散度超過幾十自然單位時,這種情況尤為明顯。
(二)文章工作
伸縮密度比估計(TRE) 框架:
- 用于克服密度鴻溝問題,實現(xiàn)在高維空間中準確估計高度不同的密度之間的比率
- 采用由兩個步驟組成的“分而治之”策略:
- 第一步是逐漸將 p 中的樣本傳輸?shù)?q 中的樣本,創(chuàng)建中間數(shù)據(jù)集鏈
- 然后估計沿著這條鏈的連續(xù)數(shù)據(jù)集之間的密度比,與原始比率 p/q 不同,這些“鏈式比率”可以通過分類準確估計
- 最后通過伸縮乘積組合鏈式比率以獲得原始密度比 p/q 的估計。
實驗證明,TRE 相對于現(xiàn)有的單一比率方法在互信息估計、表示學習和能量基建模等任務中能夠顯著改善表現(xiàn)。
- 在互信息估計的背景下,TRE 可以準確估計 30+ nat 的大 MI 值
- 表示學習實驗結果證實,TRE 比一系列現(xiàn)有的單比率基線提供了顯著的收益
- 基于能量的建模背景下,TRE 可以被視為噪聲對比估計 的擴展,可以更有效地擴展到高維數(shù)據(jù)。
二、判別比估計和密度鴻溝問題
假設p和q是有樣本的兩個密度,滿足 p ( x ) > 0 p(x)>0 p(x)>0, q ( x ) > 0 q(x)>0 q(x)>0,可以估計密度比 r ( x ) = p ( x ) / q ( x ) r(x)=p(x)/q(x) r(x)=p(x)/q(x) 來區(qū)分 p p p 和 q q q中的樣本。分類器的損失假設為廣泛使用的邏輯損失:
L ( θ ) = ? E x 1 ~ p log ? ( r ( x 1 ; θ ) 1 + r ( x 1 ; θ ) ) ? E x 2 ~ q log ? ( 1 1 + r ( x 2 ; θ ) ) L(\theta)=-E_{x_1\sim p}\log (\frac{r(x_1;\theta)}{1+r(x_1;\theta)})-E_{x_2\sim q}\log (\frac{1}{1+r(x_2;\theta)}) L(θ)=?Ex1?~p?log(1+r(x1?;θ)r(x1?;θ)?)?Ex2?~q?log(1+r(x2?;θ)1?)
其中 r ( x ; θ ) r(x;\theta) r(x;θ)是非負比率估計模型,為了強制非負性, r r r通常表示為無約束函數(shù)的指數(shù)。
密度鴻溝問題:
- 可能的誤差來源有很多:
- 使用錯誤指定的模型
- 不完善的優(yōu)化算法
- 上式中的期望的蒙特卡洛近似所產(chǎn)生的不準確性
由于樣本量有限而產(chǎn)生的蒙特卡羅誤差實際上足以引發(fā)密度鴻溝問題,如果我們使用n=10000的樣本量并最小化有限樣本損失,最終得到的估計值 θ ^ \hat{\theta} θ^ 就會遠離漸近極小值 θ ? = a r g m i n L ( θ ) \theta^*=argmin L(\theta) θ?=argminL(θ)。
L n ( θ ) = ∑ i = 1 n ? log ? ( r ( x 1 i ; θ ) 1 + r ( x 1 i ; θ ) ) ? log ? ( 1 1 + r ( x 2 i ; θ ) ) , x i i ~ p , x 2 i ~ q L^n(\theta)=\sum_{i=1}^n -\log (\frac{r(x_1^i;\theta)}{1+r(x_1^i;\theta)})-\log (\frac{1}{1+r(x_2^i;\theta)}), \ x_i^i\sim p,x_2^i\sim q Ln(θ)=i=1∑n??log(1+r(x1i?;θ)r(x1i?;θ)?)?log(1+r(x2i?;θ)1?),?xii?~p,x2i?~q對不同的樣本量重復相同的實驗,可以憑經(jīng)驗測量該方法的樣本效率.對于繪制的情況,我們看到樣本量的指數(shù)增加只會導致估計值線性下降錯誤。這一經(jīng)驗結果與理論結果一致,即基于密度比的 KL 散度下限僅對于 nats 數(shù)量呈指數(shù)級的樣本大小是嚴格的。
三、伸縮密度比估計
(一)核心思想
為了方便起見,進行如下符號轉換: p = = p 0 p == p_0 p==p0?, q = = p m q == p_m q==pm? ,并通過伸縮乘積擴展比率:
p 0 ( x ) p m ( x ) = p 0 ( x ) p 1 ( x ) p 1 ( x ) p 2 ( x ) . . . p m ? 2 ( x ) p m ? 1 ( x ) p m ? 1 ( x ) p m ( x ) \frac{p_0(x)}{p_m(x)}=\frac{p_0(x)}{p_1(x)}\frac{p_1(x)}{p_2(x)}... \frac{p_{m-2}(x)}{p_{m-1}(x)}\frac{p_{m-1}(x)}{p_m(x)} pm?(x)p0?(x)?=p1?(x)p0?(x)?p2?(x)p1?(x)?...pm?1?(x)pm?2?(x)?pm?(x)pm?1?(x)?
理想情況下, p k p_k pk? 能使分類器無法輕松將其與其兩個相鄰密度區(qū)分開。因此,該方法的兩個關鍵組成部分是:
- 路標創(chuàng)建:將樣本 { x 0 1 , . . . , x 0 n } \{x_0^1,...,x_0^n\} {x01?,...,x0n?}從 p 0 p_0 p0?分布逐漸轉換到分布為 p m p_m pm?的樣本 { x m 1 , . . . , x m n } \{x_m^1,...,x_m^n\} {xm1?,...,xmn?}。轉換的每一步會獲得一個新數(shù)據(jù)集 { x k 1 , . . . , x k n } \{x_k^1,...,x_k^n\} {xk1?,...,xkn?},每個中間數(shù)據(jù)集都可以被視為來自隱式分布 p k p_k pk? 的樣本,可稱為路標分布。
- 橋梁構建:橋梁構建方法涉及學習一組參數(shù)化的密度比率,這些比率是在連續(xù)的分布對之間估算的。用數(shù)學符號表示為 r k ( x ; θ k ) ≈ p k ( x ) p k + 1 ( x ) r_k(x;\theta_k)\approx \frac{p_k(x)}{p_{k+1}(x)} rk?(x;θk?)≈pk+1?(x)pk?(x)?,其中 k = 0 , . . . , m ? 1 k=0,...,m-1 k=0,...,m?1,每個 r k r_k rk?都是一個非負函數(shù),被稱為橋梁。
然后通過橋的乘積給出原始比率的估計:
r ( x ; θ ) = ∏ k = 0 m ? 1 r k ( x ; θ k ) ≈ ∏ k = 0 m ? 1 p k ( x ) p k + 1 ( x ) = p 0 ( x ) p m ( x ) r(x;\theta)=\prod_{k=0}^{m-1}r_k(x;\theta_k)\approx \prod_{k=0}^{m-1}\frac{p_k(x)}{p_{k+1}(x)}=\frac{p_0(x)}{p_m(x)} r(x;θ)=k=0∏m?1?rk?(x;θk?)≈k=0∏m?1?pk+1?(x)pk?(x)?=pm?(x)p0?(x)?
其中 θ θ θ 是所有 θ k θ_k θk? 向量的串聯(lián)。
(二)路標創(chuàng)建
考慮兩種簡單的、確定性的路標創(chuàng)建機制:線性組合和維度混合。
線性組合: 給定一個隨機對 x 0 ~ p 0 x_0 \sim p_0 x0?~p0? 和 x m ~ p m x_m \sim p_m xm?~pm?,通過以下方式定義第 k k k 個路標:
x k = 1 ? α k 2 x 0 + α k x m , k = 0 , . . . , m x_k=\sqrt{1-\alpha_k^2}x_0+\alpha_kx_m,\ k=0,...,m xk?=1?αk2??x0?+αk?xm?,?k=0,...,m
其中 α k α_k αk?形成從0到1遞增的序列,用于控制 x k x_k xk?到 x 0 x_0 x0?的距離。
維度混合: 將兩個向量的不同維度子集進行拼接。給定一個長度為 d d d 的向量 x x x ,將其劃分為 m m m 個長度為 d / m d/m d/m 的子向量,表示為 x = ( x [ 1 ] , . . . , x [ m ] ) x = (x[1], ..., x[m]) x=(x[1],...,x[m]),每個 x [ i ] x[i] x[i]的長度為 d / m d/m d/m 。使用此表示法下,可以通過以下方式定義第 k 個路標:
x k = ( x m [ 1 ] , . . . , x m [ k ] , x 0 [ k + 1 ] , . . . , x 0 [ m ] ) , k = 0 , . . . , m x_k=(x_m[1],...,x_m[k],x_0[k+1],...,x_0[m]),\ k=0,...,m xk?=(xm?[1],...,xm?[k],x0?[k+1],...,x0?[m]),?k=0,...,m
(三)橋梁構建
每個橋 r k ( x ; θ k ) r_k(x; θ_k) rk?(x;θk?) 都可以使用邏輯損失函數(shù)通過二元分類來學習。因此,解決這個分類任務集合是一個多任務學習 (MTL) 問題, MTL 中的兩個關鍵問題是如何共享參數(shù)和如何定義聯(lián)合目標函數(shù)。
參數(shù)共享:
將橋 r k ( x ; θ k ) r_k(x; θ_k) rk?(x;θk?) 的構造分為兩個階段:
- 共享的隱藏向量 f k ( x ) f_k(x) fk?(x):
- 是一個深度神經(jīng)網(wǎng)絡,其參數(shù)在不同的橋梁 r k r_k rk?中是共享的
- 每個橋梁有自己的預激活尺度和偏置,用于每個隱藏單元
- 頭部映射:
- 將隱藏向量 f k ( x ) f_k(x) fk?(x)映射到標量 log ? r k ( x ; θ k ) \log r_k(x;\theta_k) logrk?(x;θk?)
- 映射可以是線性的或者二次的,具體的參數(shù)化根據(jù)實驗的具體情況而定
TRE 損失函數(shù):
-
TRE 損失函數(shù)由 m 個邏輯損失的平均值給出:
L T R E ( θ ) = 1 m ∑ k = 0 m ? 1 L k ( θ k ) L k ( θ k ) = ? E x k ~ p k log ? ( r k ( x k ; θ k ) 1 + r k ( x k ; θ k ) ) ? E x k + 1 ~ q k + 1 log ? ( 1 1 + r ( x k + 1 ; θ k ) ) L_{TRE}(\theta)=\frac{1}{m}\sum_{k=0}^{m-1}L_k(\theta_k)\\ L_k(\theta_k)=-E_{x_k\sim p_k}\log (\frac{r_k(x_k;\theta_k)}{1+r_k(x_k;\theta_k)})-E_{x_{k+1}\sim q_{k+1}}\log (\frac{1}{1+r(x_{k+1};\theta_k)}) LTRE?(θ)=m1?k=0∑m?1?Lk?(θk?)Lk?(θk?)=?Exk?~pk??log(1+rk?(xk?;θk?)rk?(xk?;θk?)?)?Exk+1?~qk+1??log(1+r(xk+1?;θk?)1?) -
訓練中的樣本分配與潛在問題:
- 在訓練過程中,每個比率估計器 r k r_k rk?會看到不同的樣本: r 0 r_0 r0?會看到接近真實數(shù)據(jù)的樣本,即從 p 0 p_0 p0?和 p 1 p_1 p1?中采樣的樣本;最終的比率 r m ? 1 r_{m-1} rm?1?則會看到來自 p m ? 1 p_{m-1} pm?1?和 p m p_m pm?的樣本
- 這種訓練樣本分配方式可能會在訓練和部署之間造成不匹配的問題。因為在學習之后,我們希望在相同的輸入 x x x 上評估所有的比率 r k r_k rk?,然而每個比率估計器在訓練期間看到的輸入分布不同,這可能導致在新測試點上的泛化能力受到影響。
實驗結果沒有顯示這種不匹配是一個問題,這表明盡管在訓練期間看到不同的輸入,每個比率都能夠推廣到新的測試點。我們推測,這種泛化是通過參數(shù)共享來促進的,這使得每個比率估計器都可以間接地受到來自所有路標分布的樣本的影響。盡管如此,對這個泛化問題進行更深入的分析值得進一步開展工作。
(四)TRE應用于互信息估計
兩個隨機變量 u u u 和 v v v 之間的互信息 (MI) 可以寫為:
I ( u , v ) = E p ( u , v ) [ log ? r ( u , v ) ] , r ( u , v ) = p ( u , v ) p ( u ) p ( v ) I(u,v)=E_{p(u,v)}[\log r(u,v)],\ r(u,v)=\frac{p(u,v)}{p(u)p(v)} I(u,v)=Ep(u,v)?[logr(u,v)],?r(u,v)=p(u)p(v)p(u,v)?
從聯(lián)合密度和邊際乘積生成樣本:
從聯(lián)合密度 p ( u , v ) p(u,v) p(u,v)中獲取樣本 ( u , v ) (u,v) (u,v),通過將數(shù)據(jù)集中的 v v v 向量打亂,可以從邊際乘積 p ( u ) p ( v ) p(u)p(v) p(u)p(v)中獲取樣本。具體來說,我們保留 u u u 不變,將 v v v 在數(shù)據(jù)集中進行隨機重排。
路標樣本的生成:
為了執(zhí)行TRE(密度比率估計),我們需要生成路標樣本:
先從聯(lián)合密度 p ( u , v ) p(u,v) p(u,v)中獲取一個樣本 x 0 = ( u , v 0 ) x_0=(u,v_0) x0?=(u,v0?),從邊際乘積 p ( u ) p ( v ) p(u)p(v) p(u)p(v) 中取一個樣本 x m = ( u , v m ) x_m=(u,v_m) xm?=(u,vm?),其中 u u u 保持固定,僅 v v v 不變,然后使用路標構建機制來生成中間路標樣本 x k = ( u , v k ) x_k=(u,v_k) xk?=(u,vk?),其中 k = 0 , . . . , m k=0,...,m k=0,...,m。
(五)TRE 應用于基于能量的建模
基于能量的模型 (EBM) 是一個靈活的非負函數(shù)參數(shù)族 { ? ( x ; θ ) } \{\phi(x; θ)\} {?(x;θ)},其中每個函數(shù)與概率密度成正比。給定密度為 p ( x ) p(x) p(x) 的數(shù)據(jù)分布樣本,基于能量的建模的目標是找到一個參數(shù) θ ? θ^* θ?,使得 ? ( x ; θ ? ) \phi(x; θ^*) ?(x;θ?)近似于 c p ( x ) cp(x) cp(x) ,其中 c c c為一個正常數(shù)。
本文作者考慮 ? ( x ; θ ) = r ( x ; θ ) q ( x ) \phi(x; θ)=r(x;\theta)q(x) ?(x;θ)=r(x;θ)q(x), q q q是可以從中采樣的已知密度(例如高斯流或歸一化流),而 r r r 是一個無約束的正函數(shù)。給定這個參數(shù)化,最優(yōu) r r r 簡單地等于密度比 p ( x ) / q ( x ) p(x)/q(x) p(x)/q(x),因此學習 EBM 的問題變成了估計密度比的問題,這可以通過 TRE 來解決。由于 TRE 實際上估計比率乘積,因此最終EBM的形式為:
? ( x ; θ ) = ∏ k = 0 m ? 1 r k ( x ; θ k ) q ( x ) \phi(x;\theta)=\prod_{k=0}^{m-1}r_k(x;\theta_k)q(x) ?(x;θ)=k=0∏m?1?rk?(x;θk?)q(x)
四、實驗
(一)1維峰值比率的設置及TRE的表現(xiàn)
實驗設置:
- 使用單參數(shù)二次分類器的極端峰值高斯 p (σ = 10?6) 和寬高斯 q (σ = 1) 之間的密度比估計
- 使用二次形式的橋梁,其中 b k b_k bk?設置為其真實值,而 w k w_k wk?被重新參數(shù)化為 e x p ( θ k ) exp(\theta_k) exp(θk?)以避免出現(xiàn)不必要的對數(shù)尺度。
log ? r k ( x ) = w k x 2 + b k \log r_k(x)=w_kx^2+b_k logrk?(x)=wk?x2+bk?
實驗結果:
- 樣本效率:TRE在使用100個樣本時就獲得了比單一比率估計使用100,000個樣本更好的解決方案,顯示出三數(shù)量級的改進。
- 準確性提升:通過樣本效率曲線,可以清楚地看到TRE在所有樣本規(guī)模下都具有顯著的準確性提升。
(二)高維度比率問題及TRE在大互信息(MI)估計中的表現(xiàn)
實驗設置:
- x ∈ R 2 d x\in R^{2d} x∈R2d是一個高斯隨機變量,具有塊對角協(xié)方差矩陣。每個塊是2x2的矩陣,對角線上為1,非對角線上為0.8,目標是估計這個高斯分布與標準正態(tài)分布之間的比率。
- 使用二次形式橋梁,其中 W k W_k Wk?是對稱矩陣, b k b_k bk?是偏置項
log ? r k ( x ) = x T W k x + b k \log r_k(x)=x^TW_kx+b_k logrk?(x)=xTWk?x+bk?
實驗結果:
單一比率估計在MI值大于20 nats時變得非常不準確,相比之下,TRE能夠準確估計高達80 nats的MI值,即使對于320維的變量也是如此。
(三)SpatialMultiOmniglot 上的 MI 估計和表示學習
實驗設置:
- SpatialMultiOmniglot問題源于Omniglot數(shù)據(jù)集,其中字符被空間排列成一個 n × n n \times n n×n 的網(wǎng)格,每個網(wǎng)格位置包含來自固定字母表的字符。在此設置中,每個網(wǎng)格位置被視為一個類別隨機變量,其實現(xiàn)是相應字母表中的字符。我們形成的網(wǎng)格對 ( u , v ) (u,v) (u,v) 使得對應的網(wǎng)格位置包含按字母順序排列的字符。根據(jù)這種設置,可以計算出真實的MI值。
- 每個橋梁使用的可分離架構形式如下,其中 g g g和 f k f_k fk?是14層卷積ResNets, f k f_k fk?使用了參數(shù)共享方案。
log ? r k ( u , v ) = g ( u ) T W k f k ( v ) \log r_k(u,v)=g(u)^TW_kf_k(v) logrk?(u,v)=g(u)TWk?fk?(v) - 路標構建使用按維度混合機制,其中 m = n 2 m=n^2 m=n2,即一次混合一個維度。
實驗結果:
- MI估計(左圖):結果顯示,只有TRE能夠準確估計高達約35 nats的高MI值。
- 表示學習(右圖):隨著網(wǎng)格中字符數(shù)量的增加(即MI的增加),所有單一密度比率基線的性能顯著下降。相比之下,TRE始終獲得超過97%的準確率。
(四)MNIST 上基于能量的建模
能量模型的形式:
? ( x ; θ ) = ∏ k = 0 m ? 1 r k ( x ; θ k ) q ( x ) \phi(x;\theta)=\prod_{k=0}^{m-1}r_k(x;\theta_k)q(x) ?(x;θ)=k=0∏m?1?rk?(x;θk?)q(x)
其中 q q q是預先指定的“噪聲”分布,從中可以進行采樣,比率的乘積由TRE給出。
實驗設置:
- 使用MNIST手寫數(shù)字數(shù)據(jù)集,每個樣本是28x28像素的灰度圖像,代表一個手寫數(shù)字。
- 考慮三種噪聲分布的選擇:多變量高斯分布、高斯copula、有耦合層的有理二次神經(jīng)樣條流(RQ-NSF)
- 每種噪聲分布都首先通過最大似然估計擬合到數(shù)據(jù)上。
TRE中構建路標:
每種噪聲分布可以表示為標準正態(tài)分布的可逆變換。也就是說每個隨機變量可以表示為 F ( z ) F(z) F(z),其中 z ~ N ( 0 , I ) z\sim N(0,I) z~N(0,I)。我們可以在z-空間中通過線性組合方式生成路標,然后映射回x-空間,進而得到:
x k = F ( 1 ? α k 2 F ? 1 ( x 0 ) + α k F ? 1 ( x m ) ) x_k=F(\sqrt{1-\alpha_k^2}F^{-1}(x_0)+\alpha_kF^{-1}(x_m)) xk?=F(1?αk2??F?1(x0?)+αk?F?1(xm?))
能量基準模型的構建:
每個橋梁 r k ( x ) r_k(x) rk?(x)的形式為:
log ? r k ( x ) = ? f k ( x ) T W k f k ( x ) ? f k ( x ) T b k ? c k \log r_k(x)=-f_k(x)^TW_kf_k(x)-f_k(x)^Tb_k-c_k logrk?(x)=?fk?(x)TWk?fk?(x)?fk?(x)Tbk??ck?
其中 f k ( x ) f_k(x) fk?(x)是一個18層卷積ResNet, W k W_k Wk?被約束為正定矩陣。這個約束確保了EBM的對數(shù)密度有一個上限。
- 通過表格中的估計對數(shù)似然來定量評估學習到的EBM模型。
- 通過下圖中從模型中隨機采樣的樣本來進行定性評估
從上述結果可以看出,對于簡單的噪聲分布選擇,單一比率估計在高維情況下表現(xiàn)不佳,只有在使用復雜的神經(jīng)密度估計器(如RQ-NSF)時表現(xiàn)良好。相比之下,TRE在所有噪聲選擇中都顯示出改進,這通過近似對數(shù)似然和樣本的視覺保真度來衡量。特別是在高斯噪聲分布下,TRE的改進尤為顯著:每維比特數(shù)(bits per dimension, bpd)大約降低了0.66,對應著大約360 nats的改進。此外,生成的樣本顯著更加連貫,并且在視覺保真度上比RQ-NSF樣本要好。