汽車保險(xiǎn)網(wǎng)站crm系統(tǒng)
TIFS期刊 A類期刊
新知識點(diǎn)
Introduction
Linguistic Steganalysis in Few-Shot Scenario模型是個(gè)預(yù)訓(xùn)練方法。
評估了四種文本加密分析方法,TS-CSW、TS-RNN、Zou、SeSy,用于分析和訓(xùn)練的樣本都由VAE-Stego生產(chǎn)(編碼方式使用AC編碼)。
實(shí)驗(yàn)是對比在少樣本的情況下,各個(gè)模型的效果,當(dāng)訓(xùn)練樣本少于10的時(shí)候(few-shot),上面提到的TS-CSW和TS-RNN的表現(xiàn)都不好。
Zou和SeSy的方法用了pre-trained language mode,當(dāng)訓(xùn)練標(biāo)記樣本到達(dá)1000的時(shí)候表現(xiàn)更好。
TS-CSW和TS-RNN的方法當(dāng)樣本達(dá)到10000的時(shí)候表現(xiàn)也很好。
表明,現(xiàn)有的分析網(wǎng)絡(luò)需要大量樣本作為訓(xùn)練的鋪墊。
之前的文章 Few-shot text steganalysis based on attentional meta-learner[30]這篇文章考慮了few-shot的問題,但是作者的評價(jià)是:
Although this linguistic steganalysis method performs well when combined with multi-task scenario, there are some
problems in practical applications. Firstly, this method may not be able to demonstrate its advantages when there are
too few labeled samples to constitute multi-task, which limits its scope of application. Secondly, it is time-consuming
and labor-intensive to label samples accurately with various embedding rates and steganography algorithms
為了分析現(xiàn)實(shí)世界的實(shí)用場景,這篇文章只關(guān)注只有少量標(biāo)記樣本的實(shí)際場景(practiacl scenario)。
實(shí)驗(yàn)
第一階段用 labeled data 去 fune-tune pretrained language model
第二階段用 unlabeled data去進(jìn)行 self-training(這個(gè)沒太懂場景和效果問題)
總結(jié)的文本分析所用的方法和模型。👆
這是作者所用的模型,她提出了一個(gè)概念是,在slef-training的模型中,通過無標(biāo)簽(不知道是否是stego還是正常的cover)的文本來進(jìn)行分析,選擇more obvious and easier samples去標(biāo)記pseudo-labeled(偽標(biāo)記) dataset--------- D p D_p Dp?。 D p D_p Dp?便于后續(xù)的訓(xùn)練過程,提取和學(xué)習(xí)足夠和更明顯的特征,逐漸澄清分布差異。我們可以重復(fù)這個(gè)過程,然后得到了一種有效的少鏡頭語言步進(jìn)分析方法。
basic model
對于基礎(chǔ)模型,通過已標(biāo)記數(shù)據(jù)集 D l D_l Dl?來訓(xùn)練模型 B W ( ? ) B^W(*) BW(?)(Bert)。
訓(xùn)練的損失函數(shù)是:
N s N_s Ns?是batch size,y_hat是預(yù)測結(jié)果,y是真實(shí)結(jié)果。
Self-Training Framework
其中的MC dropout是一種選擇模型確定性較大的label給數(shù)據(jù)貼上。(個(gè)人理解類似于max_pooling,通過多次的選取特征明顯的值來獲取模型最能分辨的一些語句)。
MC dropout
其中 6 ,7 ,8 ,9 ,10幾個(gè)公式在論文中展示了,效果就是從無標(biāo)簽的文本中選出最大特征的數(shù)據(jù)(這種數(shù)據(jù)對于basic model的訓(xùn)練效果最佳),從而實(shí)現(xiàn)對于整個(gè)模型的正循環(huán)的訓(xùn)練。
實(shí)驗(yàn)
dataset
使用IMDB和Twitter、News的文本,然后使用BERT-LSTM的架構(gòu)訓(xùn)練一個(gè)VAE-stego的加密模型,對于每個(gè)模型,都使用了HC(Huffman Coding)和AC(Arithmetic Coding)兩種編碼方式來實(shí)現(xiàn)。
選擇了嵌入率是,HC的candidate pool size 設(shè)為了32,每個(gè)單詞的平均嵌入bit約為5。
AC的candidate pool size 設(shè)為了dictionary size,每個(gè)單詞的平均嵌入bit約為7。
experimental settings
實(shí)驗(yàn)?zāi)P褪褂玫腷ert,12層transformer,hidden dimension為768, 最大句子長度是128。
相同的steganalysis methods,做了對比試驗(yàn),都使用bert作為基本模型,使用了 Zou,SeSy和FSStega進(jìn)行了對比,在訓(xùn)練labeled sample小于等于10的情況下,作者的準(zhǔn)確率(acc)要高于其他幾個(gè)10%左右。
performance on unlabeled dataset
為了模擬真實(shí)場景(因?yàn)檎鎸?shí)場景所含有的加密的樣本比較少),作者把Cover:Stego的比例從2:1調(diào)整到1:0。然后在IMDB數(shù)據(jù)集上面的AC編碼進(jìn)行訓(xùn)練。由于訓(xùn)練的樣本較少,基礎(chǔ)模型不穩(wěn)地,所以這次訓(xùn)練選擇使用30個(gè)banlance labeled samples對之前的basic model進(jìn)行再訓(xùn)練,然后再用unbalanced(正負(fù)樣本比例不均衡) 和 unlabeled dataset對self-training進(jìn)行訓(xùn)練。
Performance on Unlabeled Datasets With Mixed Language Styles
把三個(gè)數(shù)據(jù)集混合進(jìn)行訓(xùn)練,按占比不同做新的數(shù)據(jù)集訓(xùn)練,然后按照訓(xùn)練的步驟再進(jìn)行實(shí)驗(yàn)分類。
a是只進(jìn)行basic model訓(xùn)練后的分類結(jié)果,b是通過unlabeled數(shù)據(jù)集訓(xùn)練后的分類結(jié)果,c是把a(bǔ)和b訓(xùn)練好的最終模型,來進(jìn)行分類的結(jié)果(b產(chǎn)生的sample再進(jìn)行a訓(xùn)練,把a(bǔ)的模型訓(xùn)練到最佳)。
Generality Test
一共六個(gè)數(shù)據(jù)集,選用了IMDB的AC編碼的數(shù)據(jù)集,來進(jìn)行對其他5個(gè)數(shù)據(jù)集的驗(yàn)證測試。
Efficiency Test
訓(xùn)練好的模型,做加密分析檢測一次所需要的時(shí)間/內(nèi)(顯)存👆。
Hyper-Parameters Adoption
其中 θ θ θ是當(dāng)unlableed產(chǎn)生假標(biāo)記的數(shù)據(jù)后,labeled的數(shù)據(jù)(原始數(shù)據(jù))再放進(jìn)去訓(xùn)練basic model的比例(100%)則為完全的有監(jiān)督學(xué)習(xí)。
其中的 α α α是等式9的可更改選擇加標(biāo)簽數(shù)據(jù)的比例。
作者做的實(shí)驗(yàn)是真的全面,佩服!