網(wǎng)站seo應(yīng)用微信營(yíng)銷軟件排行榜
0 概述
論文:A literature review on one?class classification and its potential applications in big data
發(fā)表:Journal of Big Data
在嚴(yán)重不平衡的數(shù)據(jù)集中,使用傳統(tǒng)的二分類或多分類通常會(huì)導(dǎo)致對(duì)具有大量實(shí)例的類的偏見(jiàn)。在這種情況下,對(duì)少數(shù)類實(shí)例的建模和檢測(cè)是非常困難的。一分類(OCC)是一種檢測(cè)與已知類實(shí)例相比較的異常數(shù)據(jù)點(diǎn)的方法,可以用于解決與嚴(yán)重不平衡數(shù)據(jù)集相關(guān)的問(wèn)題,這在大數(shù)據(jù)中尤其常見(jiàn)。我們對(duì)近十年來(lái)出版的與OCC相關(guān)的文獻(xiàn)作品進(jìn)行了詳細(xì)的調(diào)查。我們將不同的工作分為三類: 異常值檢測(cè)、新穎性檢測(cè)、深度學(xué)習(xí)和OCC。我們仔細(xì)檢查和評(píng)估有關(guān)OCC的選定作品,以便在綜述中呈現(xiàn)出方法、手段和應(yīng)用領(lǐng)域的良好橫截面。討論了OCC中常用的離群值檢測(cè)技術(shù)和新穎性檢測(cè)技術(shù)。我們觀察到,在與OCC相關(guān)的文獻(xiàn)中,有一個(gè)領(lǐng)域在很大程度上被忽略了,那就是OCC在大數(shù)據(jù)中的應(yīng)用背景及其固有的相關(guān)問(wèn)題,如嚴(yán)重的類失衡、類稀缺、噪聲數(shù)據(jù)、特征選擇和數(shù)據(jù)約簡(jiǎn)。我們認(rèn)為這項(xiàng)綜述將受到大數(shù)據(jù)領(lǐng)域研究人員的歡迎。
1 引言
大數(shù)據(jù)的五個(gè)v是體積(volume)、種類(variety)、價(jià)值(value)、準(zhǔn)確性(veracity)和速度(velocity)。巨大的大數(shù)據(jù)量帶來(lái)了獨(dú)特的挑戰(zhàn),例如,在二分類問(wèn)題中,與負(fù)類的實(shí)例數(shù)量相比,正類(感興趣的類)的實(shí)例數(shù)量微不足道。這就帶來(lái)了一些問(wèn)題,如如何處理大數(shù)據(jù)中非常高的類別不平衡,大數(shù)據(jù)中積極類別實(shí)例的類別稀缺性[1-4],以及對(duì)消極類別(興趣較少的類別)的建模偏差。多樣性表明大數(shù)據(jù)可以有多個(gè)來(lái)源的數(shù)據(jù)。價(jià)值通常被認(rèn)為是大數(shù)據(jù)最重要的方面,這是因?yàn)橥诰蛉绱她嫶蟮臄?shù)據(jù)語(yǔ)料庫(kù)應(yīng)該產(chǎn)生對(duì)最終用戶具有實(shí)際業(yè)務(wù)價(jià)值的結(jié)果。大數(shù)據(jù)中的準(zhǔn)確性通常是指大數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的真實(shí)性,例如,缺失的數(shù)據(jù)點(diǎn)如何處理?如何清理數(shù)據(jù)集?數(shù)據(jù)點(diǎn)有多準(zhǔn)確?速度表示數(shù)據(jù)輸入的速度,以及它可能如何改變大數(shù)據(jù)量的特征。有限的實(shí)時(shí)數(shù)據(jù)是否比低速的大量數(shù)據(jù)更好?
雖然我們不打算在本文中關(guān)注大數(shù)據(jù)的每個(gè)方面,但我們關(guān)注的是一分類(OCC)如何幫助歸因于大數(shù)據(jù)的特定問(wèn)題。其中包括嚴(yán)重的類不平衡、類稀有、為提高數(shù)據(jù)質(zhì)量而進(jìn)行的數(shù)據(jù)清理、特征選擇和數(shù)據(jù)量減少。為此,清楚地理解數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域中的單分類領(lǐng)域是很重要的。在本文中,我們重點(diǎn)探討了在一分類中所做的各種工作。此外,我們還評(píng)論了在OCC與大數(shù)據(jù)方面是否已經(jīng)做了足夠的工作,為研究人員提供了解決上述大數(shù)據(jù)問(wèn)題的技術(shù)。我們認(rèn)為,當(dāng)前對(duì)OCC方法的調(diào)查將為解決大數(shù)據(jù)遇到的一些具體問(wèn)題提供深入的見(jiàn)解。
在具有正類和負(fù)類實(shí)例的二分類問(wèn)題中,傳統(tǒng)的機(jī)器學(xué)習(xí)算法旨在區(qū)分這兩個(gè)類,并建立一個(gè)預(yù)測(cè)模型,該模型可以準(zhǔn)確地對(duì)這兩個(gè)類的未標(biāo)記(以前未見(jiàn)過(guò))實(shí)例進(jìn)行分類。然而,在類不平衡的情況下,與正類(感興趣的類)中的實(shí)例數(shù)量相比,負(fù)類中的實(shí)例數(shù)量不成比例地高。在這種情況下,典型的分類器將傾向于具有較多實(shí)例的類,即負(fù)類。當(dāng)類失衡嚴(yán)重時(shí),使用傳統(tǒng)的二分類器對(duì)正類進(jìn)行準(zhǔn)確分類是非常具有挑戰(zhàn)性的,有時(shí)甚至是不切實(shí)際的。例如,在銀行非法交易的調(diào)查中,積極事例(非法交易)的數(shù)量遠(yuǎn)遠(yuǎn)少于消極事例(合法交易)的數(shù)量,因此存在嚴(yán)重的類不平衡。在這種情況下,如果積極實(shí)例上的數(shù)據(jù)可用,而消極實(shí)例上的數(shù)據(jù)要么不可用,要么未標(biāo)記,那么如何執(zhí)行基于分類的預(yù)測(cè)建模?為了解決這樣的問(wèn)題,可以使用基于單分類(OCC)概念的方法。
單分類是多類或二分類的一種特定類型,其中通過(guò)檢查和分析一個(gè)類(通常是感興趣的類)的實(shí)例來(lái)解決分類問(wèn)題。在OCC問(wèn)題場(chǎng)景中,正類的標(biāo)記實(shí)例要么不可用,要么數(shù)量不足,無(wú)法訓(xùn)練傳統(tǒng)的機(jī)器學(xué)習(xí)者。重新審視對(duì)合法/非法銀行交易進(jìn)行分類的問(wèn)題,OCC可以用來(lái)將以前看不見(jiàn)的交易分類為合法或非法。我們將在下一節(jié)中進(jìn)一步討論OCC。在本研究中,我們對(duì)過(guò)去10-11年(即2010-2021年)的文獻(xiàn)中關(guān)于OCC的方法、方法和算法進(jìn)行了綜述。綜述的目的是提供不同的方法和途徑的OCC和它的應(yīng)用綜述在過(guò)去10-11年的一個(gè)很好的橫截面,并不意味著是一個(gè)詳盡的綜述所有相關(guān)工作。
在我們的調(diào)查工作中,觀察到異常值檢測(cè)和新穎性檢測(cè)是一分類的主要應(yīng)用領(lǐng)域。此外,我們還在單分類的背景下基于深度學(xué)習(xí)的使用對(duì)綜述作品進(jìn)行了分類。離群點(diǎn)檢測(cè)和新穎性檢測(cè)在概念和應(yīng)用上有細(xì)微的差別。在新穎性檢測(cè)中,在測(cè)試數(shù)據(jù)集中檢測(cè)異常,而訓(xùn)練數(shù)據(jù)集中不包含任何異常數(shù)據(jù)點(diǎn)。在異常點(diǎn)檢測(cè)中,訓(xùn)練數(shù)據(jù)集可能包含正常和異常數(shù)據(jù)點(diǎn),任務(wù)是確定兩者之間的邊界。邊界隨后應(yīng)用于測(cè)試數(shù)據(jù)集,測(cè)試數(shù)據(jù)集也可能包含正常和異常數(shù)據(jù)點(diǎn)。
本文的其余部分結(jié)構(gòu)如下?!耙环诸悺币还?jié)提供了OCC及其主要類型的進(jìn)一步詳細(xì)信息?!罢{(diào)研成果總結(jié)”部分從離群值檢測(cè)、新穎性檢測(cè)、深度學(xué)習(xí)在OCC中的應(yīng)用等方面對(duì)OCC的調(diào)研成果進(jìn)行了詳細(xì)的總結(jié)。本節(jié)還討論了以前關(guān)于OCC的調(diào)查論文,以及本文與那些論文的不同之處?!坝懻摗辈糠痔峁┝藢?duì)調(diào)查工程和整體OCC問(wèn)題的討論。結(jié)語(yǔ)部分對(duì)本文進(jìn)行總結(jié),并對(duì)今后的工作提出建議。
2 一分類
在一些真實(shí)世界的數(shù)據(jù)集中,標(biāo)記的例子只能用于一個(gè)類。由于未標(biāo)記樣本的數(shù)量可能很大,這增加了標(biāo)準(zhǔn)分類方法的學(xué)習(xí)時(shí)間,這主要是由于數(shù)據(jù)集的規(guī)模很大。此時(shí),解決分類問(wèn)題的解決方案之一是采用一類分類,將看不見(jiàn)的交易分類為合法(正常)或非法(異常)。由于單類分類僅由一個(gè)類的實(shí)例執(zhí)行,因此需要更復(fù)雜的解決方案才能獲得準(zhǔn)確的結(jié)果。單類分類(OCC)是一種特定類型的多分類或二元分類任務(wù),僅由一個(gè)類的實(shí)例完成。其他類樣本要么不可用,要么數(shù)量不夠,無(wú)法訓(xùn)練更傳統(tǒng)的(非OCC)分類器。在某些情況下,采集的樣本數(shù)量不能令人滿意。
為了闡明OCC的概念,我們考慮一些例子??紤]一些具體的問(wèn)題,比如向客戶發(fā)放信用卡。在此示例中,提供信用卡的組織需要評(píng)估新客戶的申請(qǐng)或現(xiàn)有客戶的行為,以接受或拒絕它們。由于大多數(shù)客戶償還貸款,很少有人違約,我們沒(méi)有一個(gè)可接受的違約比例,數(shù)據(jù)集非常不平衡。又如,在渦輪機(jī)或海上平臺(tái)的健康監(jiān)測(cè)中,設(shè)備狀態(tài)的正常數(shù)據(jù)非常豐富。然而,異常狀態(tài)很少發(fā)生,專家們對(duì)檢測(cè)這些罕見(jiàn)情況很感興趣??梢砸闷渌愃频睦觼?lái)解釋OCC的使用和重要性。
假設(shè)訓(xùn)練集的樣本充足的類作為目標(biāo)類,而異常類實(shí)例非常稀疏或不可用。異常類的不可用性可能導(dǎo)致測(cè)量困難,或者收集樣本的成本高。在一些單分類算法中,尋找訓(xùn)練集上的決策邊界是一個(gè)目標(biāo)。OCC的主要特點(diǎn)是它可以通過(guò)單類學(xué)習(xí)來(lái)區(qū)分一個(gè)類對(duì)象和其他對(duì)象。這意味著即使沒(méi)有其他類的示例,OCC也是適用的。此外,由于OCC的目標(biāo)之一是識(shí)別目標(biāo)類樣本的隱藏異常值,因此產(chǎn)生魯棒決策邊界是OCC的基本部分。單類分類器的目標(biāo)可以通過(guò)不同的類型來(lái)獲得,例如分配一個(gè)類標(biāo)簽,考慮一個(gè)類周圍的區(qū)域,或者一個(gè)對(duì)象屬于(和不屬于)一個(gè)類。使用OCC的流行原因之一是它在檢測(cè)異常對(duì)象或異常值或可疑模式方面的效力。僅使用目標(biāo)類對(duì)象進(jìn)行訓(xùn)練,使OCC成為離群點(diǎn)檢測(cè)和新穎性檢測(cè)的實(shí)用選擇。
缺乏來(lái)自單分類的實(shí)例可能會(huì)破壞分類過(guò)程。只有一個(gè)訓(xùn)練有素的類使得其示例之間的決策邊界區(qū)分變得困難。此外,單個(gè)類實(shí)例給特征選擇帶來(lái)了問(wèn)題[5,6],因?yàn)榕c傳統(tǒng)的二元或多類問(wèn)題相比,我們只需要處理一個(gè)類。因此,在類之間找到具有適當(dāng)分離的最佳特征子集是一項(xiàng)繁重的工作。由于沒(méi)有離群值實(shí)例,訓(xùn)練集只包含目標(biāo)實(shí)例,使得數(shù)據(jù)邊界非凸[7]。因此,與更傳統(tǒng)或傳統(tǒng)的多/二分類問(wèn)題相比,需要額外的實(shí)例數(shù)量來(lái)訓(xùn)練模型。在典型的單類分類中,決定接受一個(gè)數(shù)據(jù)點(diǎn)為內(nèi)樣點(diǎn)還是離群點(diǎn)是基于兩個(gè)參數(shù):一個(gè)是計(jì)算樣本到目標(biāo)類的距離的參數(shù),另一個(gè)是用戶定義的比較距離和接受或拒絕該對(duì)象為內(nèi)樣點(diǎn)的閾值限制[8]。Khan等人[9]基于分類器的模型、被分析的數(shù)據(jù)類型和特征的時(shí)間關(guān)系對(duì)OCC技術(shù)進(jìn)行了分類。分類器的模型分為基于密度的、基于邊界的和基于重構(gòu)的三種類型。
基于密度的單類分類方法基于估計(jì)訓(xùn)練數(shù)據(jù)密度來(lái)執(zhí)行,該密度與閾值(模型參數(shù))進(jìn)行比較。這些類型的方法適用于具有大量訓(xùn)練樣本的良好采樣數(shù)據(jù)。高斯法、混合高斯法和帕森密度法被歸類為基于密度的方法。在基于邊界的方法中,建立了一個(gè)封閉的邊界和內(nèi)層周圍的邊界,這使得邊界的優(yōu)化成為建模的挑戰(zhàn)。任何在邊界外的樣本都被認(rèn)為是一個(gè)離群值。一類支持向量機(jī)(OCSVM)是基于支持向量機(jī)(svm)的一種基于核的方法。OCSVM是通過(guò)開(kāi)發(fā)一個(gè)超平面來(lái)構(gòu)建的,該超平面使離原點(diǎn)距離最大化,并將離群點(diǎn)與內(nèi)線點(diǎn)分離[10]。另一種基于核的一類分類方法是支持向量數(shù)據(jù)描述(SVDD),它構(gòu)建一個(gè)半徑最小的超球,該超球由目標(biāo)樣本組成,任何在超球之外的樣本都被視為離群值[11]。與基于密度的方法相比,基于邊界的方法需要更少的數(shù)據(jù)樣本來(lái)獲得相似的性能。在基于重構(gòu)的方法中,在生成模型時(shí)需要特定領(lǐng)域的歷史數(shù)據(jù)(先驗(yàn)知識(shí))作為假設(shè)。異常樣本通常不符合模型中嵌入的歷史數(shù)據(jù)假設(shè),因此,任何具有高重構(gòu)誤差的樣本都被認(rèn)為是異常樣本。在該方法中,輸入模式被表示為輸出,重構(gòu)誤差被最小化?;?span id="vxwlu0yf4" class="katex--inline"> k k k均值聚類的一類分類器[12],基于主成分分析(PCA)的一類分類器[13],基于學(xué)習(xí)向量量化(LVQ)的一類分類器[14],以及Auto-Encoder[15]或多層感知器(multilayer Perceptron (MLP)[16]方法都是基于重構(gòu)的模型。
基于集成的單類分類器是多個(gè)單類分類器的組合,以共同受益于每個(gè)分類器。Desir 等人[17] 提出了單類隨機(jī)森林 (OCRF),它增強(qiáng)了一些弱分類器,并集成了人工離群點(diǎn)生成過(guò)程,將單分類變?yōu)槎獙W(xué)習(xí)器?;谝活惥垲惖募?OCClustE)從特征空間構(gòu)建聚類[18]。這種方法大大減少了處理時(shí)間。一類線性規(guī)劃(One-Class Linear Programming, OCLP)是一種檢測(cè)不相似表示的有效方法[19]。OCLP方法的優(yōu)點(diǎn)是減少了測(cè)試對(duì)象的數(shù)量?;趫D的OCSVM半監(jiān)督一類分類方法用于檢測(cè)正常樣本較少的異常肺音[20]。作者建立了一個(gè)譜圖來(lái)顯示樣本之間的關(guān)系。[21]對(duì)基于極限學(xué)習(xí)(ELM)的單類分類進(jìn)行了全面比較,其中包括兩種基于邊界的方法和基于重建的方法。Krawczyk和Wozniak提出了增量學(xué)習(xí)和遺忘的加權(quán)單類支持向量機(jī)[22]。在增量學(xué)習(xí)中,定期使用數(shù)據(jù)來(lái)增加模型知識(shí),從而改變先前的決策邊界。該方法可用于數(shù)據(jù)流建模和分析。
3 已有工作概述
本節(jié)總結(jié)了一組關(guān)于單分類的精選著作。精選組是在過(guò)去十年(2010-2021)的OCC相關(guān)作品中獲得的。雖然不打算對(duì)所有OCC相關(guān)作品進(jìn)行詳盡的調(diào)查,但我們?cè)噲D呈現(xiàn)一個(gè)很好的橫截面(據(jù)我們所知)在過(guò)去十年中出版的單分類作品。根據(jù)概述工作的重點(diǎn)和方法,我們將其分為三類: 異常值檢測(cè)和OCC、新穎性檢測(cè)和OCC、深度學(xué)習(xí)和OCC。
3.1 異常值檢測(cè)和OCC
Bartkowiak[7]提出了一個(gè)在計(jì)算機(jī)系統(tǒng)調(diào)用中檢測(cè)異常模式(或偽裝者)的案例研究。該數(shù)據(jù)集表示50個(gè)用戶,每個(gè)用戶有15000個(gè)系統(tǒng)調(diào)用序列。系統(tǒng)調(diào)用的集合被抽象為兩個(gè)集合,即50個(gè)塊(A部分)和100個(gè)塊(B部分),每個(gè)塊包含100個(gè)調(diào)用。在A部分中沒(méi)有假面者,而在B部分中,一些區(qū)塊被20個(gè)冒充假面者的用戶的區(qū)塊所取代。這里的OCC問(wèn)題是檢測(cè)這些偽裝塊。對(duì)一個(gè)用戶的異常塊進(jìn)行了詳細(xì)的分析,該用戶的異常塊大約有20個(gè)。在偽裝器檢測(cè)中,使用OCC對(duì)數(shù)據(jù)密度建模來(lái)建立決策邊界。構(gòu)造基于經(jīng)典高斯分布、魯棒高斯分布和支持向量機(jī)。作者表明,在案例研究的背景下,應(yīng)用OCC方法監(jiān)測(cè)異常事件是可行的。研究還表明,重建方法可能是有用的,因?yàn)橛脩粽{(diào)查了大約一半的植入塊(偽裝者)需要被檢測(cè)到。除了案例研究之外,本文還討論了統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法在網(wǎng)絡(luò)異常檢測(cè)中的優(yōu)勢(shì)。如果實(shí)際的外來(lái)(未經(jīng)授權(quán)的)用戶參與數(shù)據(jù)集并被檢測(cè)到,該研究可能會(huì)對(duì)偽裝者檢測(cè)有更可靠的吸引力。此外,具有大量用戶和系統(tǒng)調(diào)用的案例研究將有助于改進(jìn)工作的泛化性。
Leng 等人[23]提出了一種基于極端學(xué)習(xí)機(jī)(ELM)的單類分類器,其中神經(jīng)網(wǎng)絡(luò)的隱層不需要調(diào)整,輸出權(quán)重通過(guò)分析計(jì)算得出,因此學(xué)習(xí)時(shí)間相對(duì)較短。他們將自己提出的方法與自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)進(jìn)行了比較,并采用重構(gòu)方法建立了單類分類器。離群點(diǎn)檢測(cè)分析 對(duì)七個(gè) UCI 數(shù)據(jù)集和三個(gè)人工生成的數(shù)據(jù)集進(jìn)行了離群點(diǎn)檢測(cè)分析。雖然隨機(jī)特征映射和內(nèi)核都可用于所提議的分類器,但后者比前者能產(chǎn)生更好的結(jié)果。主要比較研究 基于 ELM 的模型和自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)之間的主要比較研究表明,前者有一個(gè)分析解決方案,可以獲得更好的泛化性能,而且在網(wǎng)絡(luò)學(xué)習(xí)時(shí)間相對(duì)較短的情況下也是如此。而且網(wǎng)絡(luò)學(xué)習(xí)時(shí)間相對(duì)較短。這項(xiàng)研究的一個(gè)缺點(diǎn)是,研究中調(diào)查的數(shù)據(jù)集相對(duì)較少。本研究的不足之處在于,研究中調(diào)查的數(shù)據(jù)集規(guī)模相對(duì)較小,因此在如何將所建議的方法擴(kuò)展到更大的規(guī)模方面還存在研究空白。特別是由于神經(jīng)網(wǎng)絡(luò)以學(xué)習(xí)速度相對(duì)較慢而臭名昭著。作者基于 ELM 的 方法如何在大數(shù)據(jù)中有效發(fā)揮作用?
Gautam等人[21]提出了六種OCC方法,分為兩類: 三種基于重建的OCC方法和三種基于邊界的OCC方法。所提出的OCC方法基于ELM和在線順序極限學(xué)習(xí)機(jī)(OSELM)。作者討論了OCC的在線和離線方法。在四種離線方法中,兩種方法執(zhí)行隨機(jī)特征映射,另外兩種方法執(zhí)行核特征映射。案例研究數(shù)據(jù)集由兩個(gè)人工創(chuàng)建的數(shù)據(jù)集和來(lái)自不同領(lǐng)域的八個(gè)基準(zhǔn)數(shù)據(jù)集組成,用于評(píng)估OCC模型的性能。作者指出,所提出的分類器比十個(gè)傳統(tǒng)的OCC和兩個(gè)基于elm的分類器性能更好。在OCC背景下,ELM也被其他研究使用,例如Dai等[24]和Leng等[23]。 雖然作者使用了一些基準(zhǔn)數(shù)據(jù)集,但他們的分析和結(jié)論也是基于人工生成的數(shù)據(jù)集。
Dreiseitl等[25]研究了一類支持向量機(jī)在黑色素瘤異常預(yù)后檢測(cè)中的異常值檢測(cè)。一類分類旨在模擬未獲得轉(zhuǎn)移狀態(tài)的黑色素瘤患者的分布,在這種情況下,這是黑色素瘤患者的正常類別(病例)。案例研究數(shù)據(jù)來(lái)自維也納醫(yī)科大學(xué)皮膚學(xué)系。清洗后的數(shù)據(jù)集包括270個(gè)血清學(xué)血液測(cè)試,其中包括37名轉(zhuǎn)移性疾病患者和233名無(wú)轉(zhuǎn)移性疾病患者。將一類支持向量機(jī)方法與常規(guī)兩類支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)(ANN)算法進(jìn)行了比較。使用WEKA數(shù)據(jù)挖掘工具對(duì)這些進(jìn)行了調(diào)查[26]。他們的實(shí)證工作表明,一類支持向量機(jī)是標(biāo)準(zhǔn)分類算法的一個(gè)很好的替代方案,在這種情況下,只有少數(shù)病例來(lái)自感興趣的類別,即在這種情況下,轉(zhuǎn)移性疾病的患者。當(dāng)一類支持向量機(jī)模型在少數(shù)類中使用的案例數(shù)少于一半時(shí),一類支持向量機(jī)模型的性能優(yōu)于兩類支持向量機(jī)模型。本研究的一個(gè)潛在問(wèn)題是案例研究的數(shù)據(jù)集規(guī)模非常小,以及他們的方法是否可擴(kuò)展到更大的數(shù)據(jù)集,如大數(shù)據(jù)。
Mouro- miranda等[27]提出了一種用一類支持向量機(jī)(OCSVM)對(duì)患者腦活動(dòng)進(jìn)行分類的方法。該方法分析了功能性磁共振成像(fMRI)對(duì)抑郁癥患者悲傷面部表情的反饋。他們檢查了這些患者的功能磁共振成像,將他們與健康(非抑郁)患者進(jìn)行比較,并得出結(jié)論,抑郁患者的功能磁共振成像反應(yīng)被歸類為異常值。數(shù)據(jù)集包括19名抑郁癥患者和19名非抑郁癥患者。OCSVM分類顯示,健康患者邊界與抑郁癥漢密爾頓評(píng)定量表之間存在很強(qiáng)的相互聯(lián)系。此外,OCSVM在患者中發(fā)現(xiàn)了兩個(gè)亞類。這些子類別是根據(jù)患者對(duì)治療的反應(yīng)進(jìn)行分類的。為了將個(gè)體劃分為抑郁和健康,該算法使用了兩種類型的大腦數(shù)據(jù),如全腦和大腦區(qū)域的體素(體素大小是圖像的空間3D分辨率),它提取了大約500個(gè)全腦特征和348個(gè)區(qū)域特征。考慮腦區(qū)域圖像并使用OCSVM對(duì)患者進(jìn)行治療,使本研究成為OCC在醫(yī)療保健中應(yīng)用的一個(gè)值得注意的工作。案例研究的數(shù)據(jù)集非常小,很難得出廣泛的泛化結(jié)論,特別是在大數(shù)據(jù)的背景下。
Bartkowiak和Zimroz[28]研究了行星齒輪箱(安裝在斗輪挖掘機(jī)上)的振動(dòng)信號(hào)并檢測(cè)到離群數(shù)據(jù)。他們從分割的振動(dòng)信號(hào)頻譜中收集了兩個(gè)數(shù)據(jù)集,分別作為“好”數(shù)據(jù)集和“壞”數(shù)據(jù)集。在齒輪箱處于不良狀態(tài)時(shí),產(chǎn)生的諧波信號(hào)較多,信噪比較高,而在齒輪箱處于良好狀態(tài)時(shí),諧波和信噪比相對(duì)較低。好的數(shù)據(jù)集的樣本數(shù)為951,有15個(gè)屬性。他們應(yīng)用神經(jīng)尺度技術(shù)(一種可視化方法)將屬性減少到兩個(gè)特征,因此,數(shù)據(jù)可以繪制在x-y平面上。為了估計(jì)數(shù)據(jù)的分布,作者使用了三種方法,包括Parzen窗口,支持向量數(shù)據(jù)描述(SVDD)和混合高斯。由于這些方法都是邊界方法,所以對(duì)好的數(shù)據(jù)建立一類決策邊界,用壞的數(shù)據(jù)對(duì)模型進(jìn)行檢驗(yàn)。結(jié)果表明,在測(cè)試數(shù)據(jù)集上,模型識(shí)別出98%是壞的,即異常值。這項(xiàng)工作是在機(jī)械系統(tǒng)中發(fā)現(xiàn)異常值作為故障的一個(gè)很好的例子,因?yàn)檫@些信息在系統(tǒng)診斷中是有用的。
Desir等人[29]提出了一項(xiàng)實(shí)證研究,研究了他們之前提出的一類隨機(jī)森林(OCRF)[17]的行為,該方法基于隨機(jī)森林學(xué)習(xí)器和一種新的離群值生成過(guò)程。后者既減少了要?jiǎng)?chuàng)建的人工異常值的數(shù)量,也減少了生成異常值的特征空間的大小。在[29]中,作者在幾個(gè)UCI數(shù)據(jù)集的背景下,對(duì)OCRF與一些參考的一類分類算法(即高斯密度模型、Parzen估計(jì)器、高斯混合模型和一類支持向量機(jī))進(jìn)行了比較案例研究。他們的工作表明,帶有離群值生成的ocf方法的性能與上述參考算法相似或更好。此外,他們提出的解決方案在高維特征空間中表現(xiàn)出穩(wěn)定的性能,而其他一些OCC算法可能表現(xiàn)不佳。雖然沒(méi)有在[29]中進(jìn)行探討,但我們認(rèn)為他們的方法可以潛在地用于大數(shù)據(jù),其中大量特征通常是一個(gè)有問(wèn)題的問(wèn)題。
Krawczyk等[18]提出了一種基于加權(quán)單類支持向量機(jī)(OCSVM)的多分類器系統(tǒng),并對(duì)目標(biāo)類中的數(shù)據(jù)點(diǎn)進(jìn)行聚類。多分類器系統(tǒng)構(gòu)建一個(gè)分類器的集合,在這種情況下,它是基于從目標(biāo)類的實(shí)例池派生的集群構(gòu)建的分類器。作者提出了“一個(gè)彈性和高效的框架來(lái)完成這項(xiàng)任務(wù),它只需要選擇幾個(gè)組件,即聚類算法、個(gè)體分類器模型和融合方法[18]?!?基于多個(gè)基準(zhǔn)數(shù)據(jù)集(包括來(lái)自UCI庫(kù)的19個(gè)數(shù)據(jù)集)的實(shí)證案例研究表明,該方法優(yōu)于幾種OCC方法,包括單類和多類問(wèn)題的OCSVM。作者沒(méi)有與SVDD進(jìn)行比較,SVDD是一種有效的OCC方法,基于我們對(duì)調(diào)查中探索的各種研究的觀察。此外,所有的案例研究數(shù)據(jù)集的規(guī)模都相對(duì)較小,這就把模型的可擴(kuò)展性問(wèn)題擺在了前面。
Lang等人[20]提出了一種使用基于圖的半監(jiān)督OCSVM的新方法。應(yīng)用領(lǐng)域是異常肺音的檢測(cè),在遠(yuǎn)程醫(yī)療中肺部疾病的診斷和患者監(jiān)護(hù)中具有重要意義。該方法利用少量標(biāo)記的正常實(shí)例和大量未標(biāo)記的實(shí)例來(lái)描述正常的肺音并檢測(cè)異常的肺音。構(gòu)建了一個(gè)譜圖來(lái)表示所有樣本之間的關(guān)系,這豐富了只有少數(shù)標(biāo)記的正態(tài)樣本所提供的信息。然后,建立了基于圖的半監(jiān)督OCSVM模型,并給出了求解方法。利用譜圖中的信息,提高了識(shí)別和泛化的效果,這是有效檢測(cè)異常肺音的關(guān)鍵?!盵20]。該方法的性能隨著未標(biāo)記異常實(shí)例數(shù)量的增加而提高。
Krawczyk和Wo?niak[22]解決了處理數(shù)據(jù)流的問(wèn)題,特別是在存在概念漂移的情況下。討論了OCC在數(shù)據(jù)流分析中是一個(gè)很有前途的研究方向,可用于單類實(shí)例的二值分類、離群值檢測(cè)和新穎性檢測(cè)。提出了一種新的加權(quán)OCSVM,該算法可以處理逐漸的概念漂移。所提出的OCC可以使其決策邊界適應(yīng)新的傳入數(shù)據(jù),因?yàn)樗€采用了一種遺忘方案,提高了分類器跟蹤模型變化的能力。此外,本文還提出了不同的增量學(xué)習(xí)和遺忘策略,并在幾個(gè)案例研究的背景下進(jìn)行了評(píng)估。主要結(jié)論是所提出的OCC對(duì)于存在概念漂移的數(shù)據(jù)流分類問(wèn)題具有有效的可用性。在大數(shù)據(jù)概念漂移的背景下,觀察所提出的解決方案的有效性將是一件有趣的事情。與其他流行的OCC方法的比較將為所提出的方法提供更強(qiáng)的驗(yàn)證。
Das等人[30]在智能家居中應(yīng)用傳感器網(wǎng)絡(luò)監(jiān)測(cè)癡呆癥患者活動(dòng)的背景下研究了OCC。監(jiān)測(cè)這些事件總是與檢測(cè)錯(cuò)誤相關(guān)聯(lián),在[30]的背景下,這意味著(癡呆癥患者)沒(méi)有正確完成一項(xiàng)活動(dòng)?;顒?dòng)完成和錯(cuò)誤問(wèn)題被表述為異常值檢測(cè)的一類分類。個(gè)案研究的基礎(chǔ)是監(jiān)測(cè)諸如吸塵、除塵、澆花、接電話等常見(jiàn)家庭活動(dòng)的完成情況或缺乏情況。完全完成一項(xiàng)活動(dòng)的問(wèn)題被認(rèn)為是一個(gè)異常值。不同類型的運(yùn)動(dòng)檢測(cè)和壓力檢測(cè)振動(dòng)傳感器用于數(shù)據(jù)收集。提出的分類模型,檢測(cè)實(shí)時(shí)活動(dòng)錯(cuò)誤(DERT),是由580個(gè)數(shù)據(jù)點(diǎn)組成的無(wú)錯(cuò)誤數(shù)據(jù)(即一個(gè)類)訓(xùn)練的?;贠CSVM的DERT表現(xiàn)優(yōu)于簡(jiǎn)單的基線離群值檢測(cè)方法。所提議的方法的驗(yàn)證需要通過(guò)與其他OCC技術(shù)(包括SVDD)的比較研究來(lái)支持。
Deng等人[31]重點(diǎn)研究了物聯(lián)網(wǎng)傳感器數(shù)據(jù)中的異常值檢測(cè)問(wèn)題。他們開(kāi)發(fā)了一類支持塔克機(jī)(OCSTuM),這是一種涉及塔克分解技術(shù)的無(wú)監(jiān)督異常值檢測(cè)方法。塔克分解通過(guò)產(chǎn)生一個(gè)核心張量和因子矩陣來(lái)表示張量。案例研究數(shù)據(jù)存在高維問(wèn)題,需要將特征子集選擇作為解決方案的一部分。作者提出了一種應(yīng)用遺傳算法改進(jìn)OCSTuM的特征選擇和離群點(diǎn)檢測(cè)的方法(稱為GA-OCSTuM)。他們的工作涉及多個(gè)數(shù)據(jù)集,包括Montes傳感器數(shù)據(jù)集、TAO項(xiàng)目傳感器數(shù)據(jù)集、日常和體育活動(dòng)數(shù)據(jù)集(DSAD)、開(kāi)放采樣設(shè)置中的氣體傳感器陣列數(shù)據(jù)集(GSAOSD)和南佛羅里達(dá)大學(xué)步態(tài)數(shù)據(jù)集(USFGD)。OCC訓(xùn)練數(shù)據(jù)集是干凈的,沒(méi)有任何異常值,但測(cè)試數(shù)據(jù)混合了5%的異常值樣本。將所提算法與基線方法(如OCSVM)進(jìn)行比較。實(shí)證結(jié)果表明,GA-OCSTuM方法在所有數(shù)據(jù)集上都優(yōu)于基線方法(包括SVDD、R-SVDD、OCSVM和OCSTuM)。在OCC離群值檢測(cè)的背景下,研究中考慮的數(shù)據(jù)集與其說(shuō)是一個(gè)大數(shù)據(jù)問(wèn)題,不如說(shuō)是一個(gè)高維問(wèn)題。此外,已知遺傳算法(GAs)的計(jì)算性能較慢,并且該研究并未揭示遺傳算法對(duì)所提出的GA-OCSTuM解決方案的時(shí)間性能的影響。
Gautam等人[32]開(kāi)發(fā)了一種基于深度核的單類分類器(DKRLVOC)模型,通過(guò)一對(duì)自編碼器的幫助來(lái)減少對(duì)象方差并改善特征學(xué)習(xí)。該方法在18個(gè)數(shù)據(jù)集和2個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行了測(cè)試,其中包括fMRI數(shù)據(jù)集檢測(cè)阿爾茨海默氏癥和病理圖像數(shù)據(jù)集檢測(cè)乳腺癌。提出的基于最小方差嵌入深度核的一類分類方法包括三層:基于最小方差嵌入核的自編碼器、基于核的自編碼器和基于核的OCC。該方法與三種基于核的極限學(xué)習(xí)機(jī)方法OCKELM、VOCKELM[33]和ML-OCKELM進(jìn)行了比較。關(guān)于這些模型的更多細(xì)節(jié)見(jiàn)[32]。實(shí)證結(jié)果表明,對(duì)于較小的生物醫(yī)學(xué)數(shù)據(jù)集,所提出的方法在F1得分方面表現(xiàn)最好。對(duì)于中等規(guī)模的生物醫(yī)學(xué)數(shù)據(jù)集,本文方法的有效性高于ML-OCKELM和OCKELM,但低于VOCKELM。這組作者在小型和中型生物醫(yī)學(xué)數(shù)據(jù)集的背景下比較了不同的模型,這讓人們對(duì)他們推薦的方法如何在更大的數(shù)據(jù)集(如大數(shù)據(jù))上執(zhí)行產(chǎn)生了一些懷疑。
Kauffmann等人[34]開(kāi)發(fā)了一種方法,一類深度泰勒分解(OCDTD),用于解釋一類支持向量機(jī)中的異常值。在異常值檢測(cè)過(guò)程之后,提供解釋性解釋是有益的,這表明這些輸入負(fù)責(zé)產(chǎn)生異常值。這種解釋最大限度地發(fā)揮了由神經(jīng)網(wǎng)絡(luò)創(chuàng)建的結(jié)構(gòu)的優(yōu)勢(shì)。在他們的方法中,OCSVM被輸入到一個(gè)“神經(jīng)化”的過(guò)程中,以揭示異常值解釋的結(jié)構(gòu)。隨后,將結(jié)構(gòu)饋送到深度泰勒分解中,并將預(yù)測(cè)反向傳播到顯示有效生成異常值的輸入。在生成離群值時(shí)最具影響力的特征表示為熱圖。為了最大化使用神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),應(yīng)用了分層相關(guān)傳播技術(shù),其中應(yīng)用了一組傳播規(guī)則來(lái)向后傳播預(yù)測(cè)[35]。鑒于神經(jīng)網(wǎng)絡(luò)環(huán)境中使用了反向傳播,計(jì)算時(shí)間性能研究將為實(shí)驗(yàn)結(jié)果和研究分析提供更好的見(jiàn)解。
Aguilera等人[36]在OCC背景下提出了k- strong - strengths (kSS)算法[37]的兩種變體。這兩種算法分別被命名為OCC-kSS和Global Strength Classifier (gSC),并使用抑郁癥和厭食癥基準(zhǔn)數(shù)據(jù)集進(jìn)行評(píng)估。此外,作者在kSS方法的背景下引入了質(zhì)量,作為確定社交媒體數(shù)據(jù)中抑郁癥和厭食癥文本相關(guān)性的措施。算法使用四個(gè)數(shù)據(jù)集進(jìn)行評(píng)估,分別為Dep2017、Dep2018、Anx2018和Anx2019,這些數(shù)據(jù)集來(lái)自2017-2109版本的eRisk共享任務(wù)。結(jié)果表明,gSC算法總體上優(yōu)于OCC-kSS算法。這項(xiàng)工作缺乏與其他現(xiàn)有OCC方法的比較,特別是本文中討論的幾個(gè)方法。
Wang等人[38]使用KDD入侵檢測(cè)數(shù)據(jù)集(簡(jiǎn)稱NSL-KDD)的修改版本,提出了一種在網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)(NIDS)背景下進(jìn)行異常檢測(cè)的組合方法。該方法結(jié)合子空間聚類(SSC)和OCSVM進(jìn)行NIDS異常檢測(cè),并與K-means、DBSCAN和SSC- ea方法進(jìn)行比較[39]。基于真陽(yáng)性率、假陽(yáng)性率和ROC曲線(兩個(gè)閾值),作者證明了他們的方法比其他三種方法產(chǎn)生更好的性能。據(jù)報(bào)道,該方法的計(jì)算時(shí)間高于K-means和DBSCAN。KDD數(shù)據(jù)集及其變體在網(wǎng)絡(luò)安全和入侵檢測(cè)方面有點(diǎn)過(guò)時(shí)。在該領(lǐng)域有更多的當(dāng)前數(shù)據(jù)集供研究人員探索,然而,在他們的研究中沒(méi)有這樣做。
在橋梁自主結(jié)構(gòu)健康監(jiān)測(cè)的背景下,Favarelli和Giorgetti[40]提出了一種機(jī)器學(xué)習(xí)方法,用于從振動(dòng)數(shù)據(jù)中自動(dòng)檢測(cè)橋梁結(jié)構(gòu)中的異常。他們提出了兩種異常檢測(cè)方法:一類分類器神經(jīng)網(wǎng)絡(luò)OCCNN和OCCNN2。案例研究數(shù)據(jù)基于一座橋梁結(jié)構(gòu)(Z-24)的加速度測(cè)量數(shù)據(jù)數(shù)據(jù)庫(kù)[40]。OCCNN采用粗邊界估計(jì)和細(xì)邊界估計(jì)兩步方法檢測(cè)正常運(yùn)行條件下特征空間的正常類邊界。OCCNN2是基于將OCCNN方法的兩步方法與自關(guān)聯(lián)神經(jīng)網(wǎng)絡(luò)(ANN)相結(jié)合[40]。將這兩種方法與現(xiàn)有的一些異常檢測(cè)方法進(jìn)行了比較,包括:主成分分析、核主成分分析、高斯混合模型(GMM)和神經(jīng)網(wǎng)絡(luò)。與其他方法相比,OCCNN方法具有更好的準(zhǔn)確性和F1分?jǐn)?shù);然而,OCCNN2方法在響應(yīng)性、準(zhǔn)確性和F1分?jǐn)?shù)方面表現(xiàn)最佳。
Mahfouz等[41]提出了一種基于OCSVM的網(wǎng)絡(luò)入侵檢測(cè)模型,該模型在正常網(wǎng)絡(luò)流量樣本上進(jìn)行訓(xùn)練,形成n維特征空間中正常數(shù)據(jù)具有高概率密度的區(qū)域。隨后,不出現(xiàn)在或代表這些(正常)區(qū)域內(nèi)的數(shù)據(jù)樣本被標(biāo)記為異常(即入侵)。雖然他們對(duì)網(wǎng)絡(luò)指令異常檢測(cè)的定義并不新穎,但本文的主要貢獻(xiàn)在于創(chuàng)建并用于案例研究的網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)集。作者實(shí)現(xiàn)了現(xiàn)代蜂蜜網(wǎng)絡(luò)(MHN),一個(gè)集中式服務(wù)器來(lái)管理和收集來(lái)自蜜罐的數(shù)據(jù)[41]。他們使用Excel創(chuàng)建了一個(gè)數(shù)據(jù)集工具,將來(lái)自不同蜜罐的獨(dú)立網(wǎng)絡(luò)監(jiān)視器的數(shù)據(jù)聚合到一個(gè)數(shù)據(jù)集中。訓(xùn)練和測(cè)試數(shù)據(jù)分割為70:30,所提出模型的準(zhǔn)確率略低于98%。作者沒(méi)有將他們的方法與現(xiàn)有的幾種網(wǎng)絡(luò)入侵異常檢測(cè)方法進(jìn)行比較。
在初步研究中,Zaidi和Lee[42]討論了軟件開(kāi)發(fā)中現(xiàn)有的bug分類方法無(wú)法為bug報(bào)告分配新添加的開(kāi)發(fā)人員。
“Bug分類是一個(gè)軟件工程問(wèn)題,其中一個(gè)開(kāi)發(fā)人員被分配到一個(gè)Bug報(bào)告中?!癧42]。作者引用了現(xiàn)有的方法,這些方法使用社交網(wǎng)絡(luò)分析、主題建模、挖掘存儲(chǔ)庫(kù)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)完成開(kāi)發(fā)人員分配給bug報(bào)告的任務(wù)。但是,這些方法不能將新添加的開(kāi)發(fā)人員分配給bug報(bào)告。他們的實(shí)證研究使用了Eclipse[43]和Mozilla[44]軟件項(xiàng)目中的Bug報(bào)告數(shù)據(jù)。利用正樣本建立OCSVM模型,實(shí)現(xiàn)對(duì)負(fù)樣本的檢測(cè)。作者聲明他們的經(jīng)驗(yàn)結(jié)果是可以接受的,并且對(duì)于分配新添加的開(kāi)發(fā)人員到bug報(bào)告的挑戰(zhàn)性問(wèn)題進(jìn)行額外的研究是有保證的。
表1總結(jié)了OCC和離群值檢測(cè)綜述工作的關(guān)鍵信息。
3.2 新穎性檢測(cè)和OCC
如前所述,異常值檢測(cè)和新穎性檢測(cè)在概念和應(yīng)用上有著微妙的區(qū)別。在新穎性檢測(cè)中,在測(cè)試數(shù)據(jù)集中檢測(cè)異常,而訓(xùn)練數(shù)據(jù)集中不包含任何異常數(shù)據(jù)點(diǎn)。在離群點(diǎn)檢測(cè)中,訓(xùn)練數(shù)據(jù)集可能同時(shí)包含正常和異常數(shù)據(jù)點(diǎn),任務(wù)是確定兩者之間的邊界,然后將該邊界應(yīng)用于同樣可能包含正常和異常數(shù)據(jù)點(diǎn)的測(cè)試數(shù)據(jù)集。
Clifton等[45]利用改進(jìn)的OCSVM方法在基于生命體征健康數(shù)據(jù)(如呼吸頻率、血氧飽和度、心率等)識(shí)別患者惡化的背景下進(jìn)行新穎性檢測(cè)。新穎性檢測(cè)模型通過(guò)正常數(shù)據(jù)進(jìn)行訓(xùn)練,然后對(duì)測(cè)試數(shù)據(jù)進(jìn)行檢測(cè),將測(cè)試數(shù)據(jù)分類為正?;虍惓?。訓(xùn)練數(shù)據(jù)是通過(guò)監(jiān)測(cè)19名患者收集的,產(chǎn)生了1500個(gè)實(shí)例的數(shù)據(jù)集。用該方法對(duì)高斯混合模型(GMM)和OCSVM兩種模型進(jìn)行了測(cè)試,結(jié)果表明OCSVM優(yōu)于GMM模型。案例研究數(shù)據(jù)是從降壓?jiǎn)卧?SDU)收集的,它的急性程度低于重癥監(jiān)護(hù)病房的數(shù)據(jù)。數(shù)據(jù)集的規(guī)模很小,這對(duì)所得結(jié)果和結(jié)論的泛化產(chǎn)生了一些懷疑。
Kemmler等[46]提出了一種基于高斯過(guò)程回歸和近似高斯分類的單類分類新穎性檢測(cè)框架。將該方法與SVDD的新穎性檢測(cè)方法和Parzen密度估計(jì)方法進(jìn)行了比較。實(shí)驗(yàn)使用來(lái)自多個(gè)領(lǐng)域的數(shù)據(jù)集,并使用不同的圖像核函數(shù)。案例研究結(jié)果表明,該方法的性能與其他兩種方法相似,甚至優(yōu)于其他兩種方法。他們的方法的應(yīng)用,特別是基于高斯過(guò)程回歸的OCC分?jǐn)?shù),將是理解大數(shù)據(jù)中的類稀缺性問(wèn)題的一個(gè)有趣的研究。
Beghi等[47]研究了一種用于HVAC系統(tǒng)新穎性檢測(cè)的OCSVM方法。預(yù)先監(jiān)測(cè)可能出現(xiàn)的故障有助于節(jié)省成本和能源。在如此的系統(tǒng)中,異常的數(shù)據(jù)很少,而且通常是不可用的。研究了冷凝器結(jié)垢、制冷機(jī)泄漏、蒸發(fā)器水流量減少和冷凝器水流量減少四種故障類型。調(diào)查的案例研究數(shù)據(jù)來(lái)自美國(guó)采暖、制冷和空調(diào)工程師協(xié)會(huì)(ASHRAE)。作者將主成分分析(PCA)與OCSVM模型相結(jié)合,觀察到與單獨(dú)使用OCSVM相比,主成分分析與OCSVM相結(jié)合的AUC性能有所提高。作者沒(méi)有與文獻(xiàn)中的其他新穎性檢測(cè)方法進(jìn)行比較,這限制了其工作在更廣泛意義上的推廣和應(yīng)用有效性。
Domingues等[48]提出了一種基于深度高斯過(guò)程(Deep Gaussian Processes, DGP)的自動(dòng)編碼器配置的無(wú)監(jiān)督新異檢測(cè)建模方法。所提出的DGP自編碼器通過(guò)使用隨機(jī)特征展開(kāi)來(lái)逼近DGP層,并通過(guò)對(duì)隨后的近似模型進(jìn)行隨機(jī)變分推理來(lái)訓(xùn)練。DGP自編碼器可以對(duì)復(fù)雜的數(shù)據(jù)分布進(jìn)行建模,并有助于提出一種新穎性檢測(cè)的評(píng)分方法。在7個(gè)UCI數(shù)據(jù)集和4個(gè)來(lái)自國(guó)際航空服務(wù)提供商的數(shù)據(jù)集的背景下,將所提出的模型與隔離森林和魯棒密度估計(jì)方法進(jìn)行了比較。實(shí)證結(jié)果表明,該模型優(yōu)于其他兩種方法。雖然作者在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),但其中大多數(shù)數(shù)據(jù)集的規(guī)模相對(duì)較小,因此無(wú)法深入了解他們的方法在大數(shù)據(jù)上的性能。
Sadooghi和Khadem[49]在OCSVM中引入了預(yù)處理步驟以提高其性能。他們的工作背景是旋轉(zhuǎn)系統(tǒng)軸承振動(dòng)信號(hào)的新穎性檢測(cè)。預(yù)處理包括一種新的去噪方案、特征提取、向量化、歸一化和降維,每一項(xiàng)都使用詳細(xì)的系統(tǒng)方法實(shí)現(xiàn)。案例研究來(lái)自case Western Reserve大學(xué)軸承數(shù)據(jù)中心、Tarbiat Modares大學(xué)試驗(yàn)臺(tái)數(shù)據(jù)和PRONOSTIA平臺(tái)數(shù)據(jù)。要了解這些數(shù)據(jù)資源的更多細(xì)節(jié),請(qǐng)參考[49]。本文提出的系統(tǒng)方法表明,非線性特征本身可以有效地提高新穎性檢測(cè)的性能,包括顯著提高OCSVM的分類率(在某些情況下可達(dá)到95%至100%)。所提出的OCSVM修正方案似乎與案例研究的領(lǐng)域緊密耦合,并且沒(méi)有確定這些方案在其他領(lǐng)域的應(yīng)用,這限制了它們?cè)谄渌I(lǐng)域的應(yīng)用。
Yin等人[50]研究并提出了一種基于主動(dòng)學(xué)習(xí)的方法來(lái)改進(jìn)新穎性檢測(cè)背景下的SVDD。SVDD是目前應(yīng)用最廣泛的新穎性檢測(cè)方法之一,對(duì)其進(jìn)行改進(jìn)是本文的一個(gè)很好的研究方向。然而,當(dāng)數(shù)據(jù)量太大或數(shù)據(jù)質(zhì)量差時(shí),SVDD可能會(huì)表現(xiàn)不佳。用少量的標(biāo)記樣本描述數(shù)據(jù)分布在機(jī)器學(xué)習(xí)中有它的好處,例如,可以保證有限的數(shù)據(jù)是無(wú)噪聲和高質(zhì)量的。提出的基于主動(dòng)學(xué)習(xí)的SVDD方法可以減少標(biāo)記數(shù)據(jù)的數(shù)量,推廣數(shù)據(jù)的分布,并利用局部密度來(lái)指導(dǎo)選擇過(guò)程,減少噪聲的影響。案例研究數(shù)據(jù)包括三個(gè)UCI數(shù)據(jù)集(電離層、Splice和圖像分割)和田納西東部過(guò)程基準(zhǔn)數(shù)據(jù)。 實(shí)證結(jié)果表明,基于主動(dòng)學(xué)習(xí)的SVDD在UCI數(shù)據(jù)集上具有明顯的優(yōu)勢(shì)。主動(dòng)學(xué)習(xí)是基于用專家(“專家”)標(biāo)記的數(shù)據(jù)取代未標(biāo)記的數(shù)據(jù),但幾乎沒(méi)有提供關(guān)于基于專家的數(shù)據(jù)標(biāo)記過(guò)程的信息。此外,雖然本文的目標(biāo)是將主動(dòng)學(xué)習(xí)與SVDD結(jié)合起來(lái)以提高其在大型數(shù)據(jù)集上的性能,但沒(méi)有進(jìn)行關(guān)于改變數(shù)據(jù)集大小和調(diào)查基于SVDD的主動(dòng)學(xué)習(xí)性能的研究。
Mohammadian等[51]研究了一種基于OCSVM的新穎檢測(cè)方法,用于檢測(cè)帕金森和自閉癥患者的異?;顒?dòng)。在帕金森和自閉癥譜系障礙(ASD)疾病中,使用可穿戴和慣性測(cè)量單元(IMU)傳感器進(jìn)行患者監(jiān)測(cè)已經(jīng)引起了相當(dāng)大的關(guān)注。早期發(fā)現(xiàn)病人不尋常的身體活動(dòng)對(duì)他們的護(hù)理和治療至關(guān)重要。本文采用深度規(guī)范建模的方法,彌補(bǔ)了OCSVM在大數(shù)據(jù)和噪聲數(shù)據(jù)中表現(xiàn)不佳的不足。由于標(biāo)記數(shù)據(jù)的限制,生成正常模型來(lái)展示患者的正常運(yùn)動(dòng),正常運(yùn)動(dòng)模型的大(實(shí)質(zhì)性)變化被認(rèn)為是異常。在步態(tài)凍結(jié)(FOG)和典型運(yùn)動(dòng)(SMMs)數(shù)據(jù)集上對(duì)該方法進(jìn)行了測(cè)試,結(jié)果表明該模型在相對(duì)較大的數(shù)據(jù)中是新穎性檢測(cè)的替代選擇,并且具有實(shí)時(shí)非典型運(yùn)動(dòng)檢測(cè)的潛力。作者指出,他們的方法僅限于基于距離的新穎性檢測(cè)方法,因此不適用于基于密度的新穎性檢測(cè)方法。
Sabokrou等人[52]提出了一種生成式對(duì)抗網(wǎng)絡(luò)(GAN)[53],用于不同圖像和視頻數(shù)據(jù)集背景下的新穎性檢測(cè)。作者提出了OCC問(wèn)題的端到端深度網(wǎng)絡(luò)。該體系結(jié)構(gòu)由R和d兩個(gè)模塊組成。R模塊對(duì)輸入進(jìn)行細(xì)化,并在學(xué)習(xí)過(guò)程中逐漸注入判別規(guī)則,以創(chuàng)建積極和新奇的實(shí)例(內(nèi)線和離群值),而第二個(gè)模塊(檢測(cè)器)將積極和新奇的實(shí)例分離開(kāi)來(lái)。他們的方法用兩個(gè)圖像數(shù)據(jù)集進(jìn)行了研究,包括MNIST和Caltech-256數(shù)據(jù)集。此外,他們還研究了一個(gè)視頻數(shù)據(jù)集UCSDPed2。對(duì)于圖像數(shù)據(jù)集,與局部離群因子(LOF)和區(qū)分重建自動(dòng)編碼器(DRAE)方法相比,該方法顯示出更高的f1分?jǐn)?shù)。對(duì)于視頻數(shù)據(jù)集,視頻數(shù)據(jù)中的行人被認(rèn)為是正類,其他任何東西都被認(rèn)為是異常。該異常檢測(cè)方法與一些新穎性檢測(cè)方法具有可比性。在Sabokrou等人[54]的相關(guān)工作中,提出了一種對(duì)抗訓(xùn)練模型來(lái)檢測(cè)端到端深度學(xué)習(xí)模型中的異常值。他們?cè)趫D像和視頻數(shù)據(jù)集上測(cè)試了他們的方法,并得出結(jié)論,所提出的模型可以有效地學(xué)習(xí)檢測(cè)異常值。他們的方法在圖像/視頻數(shù)據(jù)以外的領(lǐng)域,特別是大數(shù)據(jù)領(lǐng)域的效果還有待觀察。
Oosterlink等人[55]提出了一項(xiàng)新穎性檢測(cè)的研究,將單類分類與基于專家的兩類分類進(jìn)行了比較。作者研究了一種檢測(cè)電信公司訂閱新的移動(dòng)家庭計(jì)劃服務(wù)中的欺詐行為的方法。由于欺詐,組織和公司的經(jīng)濟(jì)損失可能相當(dāng)大,對(duì)這些交易的檢測(cè)很有吸引力。一個(gè)有效的欺詐檢測(cè)系統(tǒng)是每個(gè)服務(wù)提供商公司的關(guān)鍵前提。為了解決這一問(wèn)題,人類行為跟蹤在檢測(cè)人類活動(dòng)異常和欺詐檢測(cè)方面是實(shí)用的。作者探討了將專家制備的合成陰性樣品與陽(yáng)性樣品相結(jié)合的有效性。這項(xiàng)工作證實(shí),使用專家知識(shí)來(lái)構(gòu)建負(fù)樣本并將一類分類轉(zhuǎn)換為二元分類可以提高分類器的性能。兩類專家生成樣本方法優(yōu)于人工生成和傳統(tǒng)的一類分類方法。在建模過(guò)程中引入專家進(jìn)行決策可能會(huì)導(dǎo)致人為錯(cuò)誤,本文未對(duì)其對(duì)模型性能的影響進(jìn)行研究。
Xing和Liu[56]提出了一種結(jié)合OCSVM的改進(jìn)AdaBoost算法來(lái)提高單類分類的性能。AdaBoost[57]與支持向量機(jī)的結(jié)合總體上提高了二值和多類分類問(wèn)題的性能;然而,AdaBoost結(jié)合OCSVM并沒(méi)有提高OCC的性能。提出了一種基于魯棒AdaBoost的OCSVM集成方法,該方法利用牛頓-拉夫森技術(shù)改變AdaBoost的權(quán)重。案例研究數(shù)據(jù)包括兩個(gè)合成數(shù)據(jù)集,正弦離群值和平方離群值,以及來(lái)自UCI存儲(chǔ)庫(kù)的20個(gè)數(shù)據(jù)集。該方法優(yōu)于多種單類分類方法,包括AdaBoost OCSVM集成、基于隨機(jī)子空間方法的OCSVM集成、基于聚類的OCSVM集成和高斯核OCSVM。該方法的平均性能優(yōu)于大多數(shù)其他方法。由于所探索的所有數(shù)據(jù)集都相對(duì)較小,因此所提出的方法的可擴(kuò)展性需要進(jìn)一步研究。
Perera等人[58]提出了一種用于新穎性檢測(cè)的單類GAN (OCGAN)模型,其解決方案基于使用去噪自編碼器網(wǎng)絡(luò)學(xué)習(xí)類內(nèi)樣本的潛在表示。作者認(rèn)為,新穎性檢測(cè)涉及兩種類型的表征建模,包括確保類內(nèi)樣本得到很好的表征和確保類外樣本得到很差的表征。他們指出,在新穎性檢測(cè)方面,先前的現(xiàn)有工作尚未解決后者,而這正是他們的主要貢獻(xiàn)所在。他們提出的模型考慮了兩種類型的表示需求的建模。案例研究數(shù)據(jù)由四個(gè)公開(kāi)的多類目標(biāo)識(shí)別數(shù)據(jù)集組成,包括MNIST、FMNIST、COIL100和CIFAR10[58]。對(duì)于本文所考慮的四種數(shù)據(jù)集,該模型的新穎性優(yōu)于現(xiàn)有的一類新穎性檢測(cè)方法。不同技術(shù)之間的比較工作缺乏對(duì)模型性能的統(tǒng)計(jì)驗(yàn)證和驗(yàn)證。此外,作者沒(méi)有討論所提出的方法對(duì)非圖像數(shù)據(jù)集的適用性。
在圖像新穎性檢測(cè)方面,Zhang等[59]提出了“基于置信度估計(jì)的對(duì)抗學(xué)習(xí)一類新穎性檢測(cè)”模型。作者認(rèn)為,大多數(shù)現(xiàn)有的新穎性檢測(cè)方法,特別是那些使用深度學(xué)習(xí)技術(shù)的方法,都不是端到端的,并且往往對(duì)新穎性檢測(cè)預(yù)測(cè)過(guò)于自信。該模型包括兩個(gè)模塊:表示模塊和檢測(cè)模塊,這兩個(gè)模塊通過(guò)對(duì)抗性建模來(lái)協(xié)同訓(xùn)練和學(xué)習(xí)數(shù)據(jù)語(yǔ)料庫(kù)的早期分布。此外,該模型使用基于置信度的估計(jì)來(lái)確保其預(yù)測(cè)的更高效率。該模型使用四個(gè)公開(kāi)可用的圖像數(shù)據(jù)集進(jìn)行檢驗(yàn),即:MNIST, FMINST, COIL100,和CIFAR10,并與現(xiàn)有的幾種新穎性檢測(cè)方法進(jìn)行比較[59]。作者的結(jié)論是,他們提出的模型優(yōu)于幾種現(xiàn)有的一類新穎性檢測(cè)方法。此外,一項(xiàng)消融研究表明,所提出模型的每個(gè)模塊在其功能上都是至關(guān)重要的。與之前的研究類似,本研究中不同技術(shù)之間的比較工作缺乏對(duì)模型性能的統(tǒng)計(jì)驗(yàn)證和驗(yàn)證。
表2總結(jié)了OCC和新穎性檢測(cè)方面調(diào)查工作的關(guān)鍵信息。