慈云寺網(wǎng)站建設(shè)外鏈吧官網(wǎng)
諸如詞-詞共現(xiàn)計(jì)數(shù)的全局語(yǔ)料庫(kù)統(tǒng)計(jì)可以來解釋跳元模型。
交叉熵?fù)p失可能不是衡量?jī)煞N概率分布差異的好選擇,特別是對(duì)于大型語(yǔ)料庫(kù)。GloVe使用平方損失來擬合預(yù)先計(jì)算的全局語(yǔ)料庫(kù)統(tǒng)計(jì)數(shù)據(jù)。
對(duì)于GloVe中的任意詞,中心詞向量和上下文詞向量在數(shù)學(xué)上是等價(jià)的。
GloVe可以從詞-詞共現(xiàn)概率的比率來解釋。
上下文窗口內(nèi)的詞共現(xiàn)可以攜帶豐富的語(yǔ)義信息。例如,在一個(gè)大型語(yǔ)料庫(kù)中,“固體”比“氣體”更有可能與“冰”共現(xiàn),但“氣體”一詞與“蒸汽”的共現(xiàn)頻率可能比與“冰”的共現(xiàn)頻率更高。此外,可以預(yù)先計(jì)算此類共現(xiàn)的全局語(yǔ)料庫(kù)統(tǒng)計(jì)數(shù)據(jù):這可以提高訓(xùn)練效率。為了利用整個(gè)語(yǔ)料庫(kù)中的統(tǒng)計(jì)信息進(jìn)行詞嵌入,讓我們首先回顧?預(yù)訓(xùn)練——詞嵌入(word2vec)、 近似訓(xùn)練_流螢數(shù)點(diǎn)的博客-CSDN博客中的跳元模型,但是使用全局語(yǔ)料庫(kù)統(tǒng)計(jì)(如共現(xiàn)計(jì)數(shù))來解釋它。
1.帶全局語(yǔ)料統(tǒng)計(jì)的跳元模型
考慮詞可能在語(yǔ)料庫(kù)中出現(xiàn)多次。在整個(gè)語(yǔ)料庫(kù)中,所有以
為中心詞的上下文詞形成一個(gè)詞索引的多重集Ci,該索引允許同一元素的多個(gè)實(shí)例。對(duì)于任何元素,其實(shí)例數(shù)稱為其重?cái)?shù)。舉例說明,假設(shè)詞wi在語(yǔ)料庫(kù)中出現(xiàn)兩次,并且在兩個(gè)上下文窗口中以
為其中心詞的上下文詞索引是k,j,m,k和k,l,k,j。因此,多重集Ci={j,j,k,k,k,k,l,m},其中元素j,k,l,m的重?cái)?shù)分別為2、4、1、1。
?雖然交叉熵?fù)p失函數(shù)通常用于測(cè)量概率分布之間的距離,但在這里可能不是一個(gè)好的選擇。一方面,規(guī)范化
的代價(jià)在于整個(gè)詞表的求和,這在計(jì)算上可能非常昂貴。另一方面,來自大型語(yǔ)料庫(kù)的大量罕見事件往往被交叉熵?fù)p失建模,從而賦予過多的權(quán)重。?
?2.GloVe模型
有鑒于此,GloVe模型基于平方損失?(Pennington?et al., 2014)對(duì)跳元模型做了三個(gè)修改:
應(yīng)該強(qiáng)調(diào)的是,當(dāng)詞出現(xiàn)在詞
的上下文窗口時(shí),詞wj也出現(xiàn)在詞
的上下文窗口。因此,
。與擬合非對(duì)稱條件概率
的word2vec不同,GloVe擬合對(duì)稱概率
。因此,在GloVe模型中,任意詞的中心詞向量和上下文詞向量在數(shù)學(xué)上是等價(jià)的。但在實(shí)際應(yīng)用中,由于初始值不同,同一個(gè)詞經(jīng)過訓(xùn)練后,在這兩個(gè)向量中可能得到不同的值:GloVe將它們相加作為輸出向量。?
3.從條件概率比值理解GloVe模型
我們可以觀察到以下幾點(diǎn):
-
對(duì)于與“ice”相關(guān)但與“steam”無關(guān)的單詞
,例如
=solid,我們預(yù)計(jì)會(huì)有更大的共現(xiàn)概率比值,例如8.9。?
-
對(duì)于與“steam”相關(guān)但與“ice”無關(guān)的單詞
,例如
=gas,我們預(yù)計(jì)較小的共現(xiàn)概率比值,例如0.085。?
-
對(duì)于同時(shí)與“ice”和“steam”相關(guān)的單詞
,例如
=water,我們預(yù)計(jì)其共現(xiàn)概率的比值接近1,例如1.36.??
-
對(duì)于與“ice”和“steam”都不相關(guān)的單詞
,例如
=fashion,我們預(yù)計(jì)共現(xiàn)概率的比值接近1,例如0.96.
由此可見,共現(xiàn)概率的比值能夠直觀地表達(dá)詞與詞之間的關(guān)系。因此,我們可以設(shè)計(jì)三個(gè)詞向量的函數(shù)來擬合這個(gè)比值。對(duì)于共現(xiàn)概率的比值,其中
是中心詞,
和
是上下文詞,我們希望使用某個(gè)函數(shù)f來擬合該比值:
?
通過對(duì)?(14.5.7)的加權(quán)平方誤差的度量,得到了?(14.5.4)的GloVe損失函數(shù)。
?
?
?