海南做公司網(wǎng)站萬網(wǎng)創(chuàng)始人
【威脅情報綜述閱讀1】Cyber Threat Intelligence Mining for Proactive Cybersecurity Defense: A Survey and New Perspectives
- 寫在最前面
- 一、介紹
- 二、網(wǎng)絡(luò)威脅情報挖掘方法和分類
- A. 研究方法
- 1) 第 1 步 - 網(wǎng)絡(luò)場景分析:
- 2) 第 2 步 - 數(shù)據(jù)收集:
- 3) Step 3 - CTI相關(guān)信息蒸餾:
- 4) 第 4 步 - CTI 知識獲取:
- 5) 第 5 步 - 績效評估:
- 6) 第 6 步 - 決策:
- B. 網(wǎng)絡(luò)威脅情報挖掘定義和分類
- 1) 網(wǎng)絡(luò)安全相關(guān)實(shí)體和事件:
- 2) 網(wǎng)絡(luò)攻擊策略、技術(shù)和程序:
- 3)黑客的個人資料:
- 4) 妥協(xié)指標(biāo):
- 5) 漏洞利用和惡意軟件實(shí)施:
- 6)威脅搜尋:
- 三、最新研究:積極主動的防御視角
- A. 網(wǎng)絡(luò)安全相關(guān)實(shí)體和事件
- 1)代表工作總結(jié):
- 2)討論:
- B. 網(wǎng)絡(luò)攻擊策略、技術(shù)和程序
- 1)代表工作總結(jié):
- 2)討論:
- C. 黑客概況
- 1)代表工作總結(jié):
- 2)討論:
- D. 妥協(xié)指標(biāo)
- 1)代表工作總結(jié):
- 2)討論:
- E. 漏洞利用和惡意軟件實(shí)施
- 1)代表工作總結(jié):
- 2)討論:
- F. 威脅搜尋
- 1)代表工作總結(jié):
- 2)討論:
- 四、挑戰(zhàn)與未來方向
- A. 感知
- 1)未來方向1(從組合數(shù)據(jù)源中挖掘CTI):
- 2)未來方向(質(zhì)量評估,以最大限度地發(fā)揮CTI的影響):
- 3)未來方向3(具有領(lǐng)域特異性的上下文處理):
- B. 理解
- 1) 未來方向 4(邁向可理解、穩(wěn)健和可操作的 CTI 提取):
- 2) 未來方向 5(CTI 發(fā)現(xiàn)不斷變化的威脅):
- C. 投影
- 1)未來方向6(實(shí)際CTI實(shí)施):
- 2) 未來方向 7(CTI 威脅初步緩解應(yīng)用):
- 3)未來方向8(CTI攻擊預(yù)防應(yīng)用):
- 五、結(jié)束語
- A. 經(jīng)驗(yàn)教訓(xùn)
- B. 結(jié)語
前些天發(fā)現(xiàn)了一個人工智能學(xué)習(xí)網(wǎng)站,內(nèi)容深入淺出、易于理解。如果對人工智能感興趣,不妨點(diǎn)擊查看。
寫在最前面
承接上文
【威脅情報綜述閱讀1】引言 + 開源威脅情報挖掘框架 + 開源威脅情報采集與識別提取
【威脅情報綜述閱讀2】綜述:高級持續(xù)性威脅智能分析技術(shù) Advanced Persistent Threat intelligent profiling technique: A survey
Cyber Threat Intelligence Mining for Proactive Cybersecurity Defense: A Survey and New Perspectives
論文鏈接:https://ieeexplore.ieee.org/document/10117505
同名的機(jī)器學(xué)習(xí)項(xiàng)目,非論文參考代碼
https://www.youtube.com/watch?v=NmDsFe5JzYo
一、介紹
在 2020 年代 COVID 驅(qū)動的社會、經(jīng)濟(jì)和技術(shù)變革造成大規(guī)模破壞之后,網(wǎng)絡(luò)安全對手已經(jīng)改進(jìn)了他們的交易技巧,使其變得更加復(fù)雜。一系列備受矚目的攻擊接踵而至,例如SolarWinds供應(yīng)鏈攻擊[1],它震撼了許多組織,標(biāo)志著網(wǎng)絡(luò)安全的轉(zhuǎn)折點(diǎn)。作為收集、處理和分析有關(guān)威脅行為者動機(jī)、目標(biāo)和攻擊行為的信息的過程,網(wǎng)絡(luò)威脅情報 (CTI) 幫助組織、政府和個人互聯(lián)網(wǎng)用戶做出更快、更明智、數(shù)據(jù)支持的安全決策并改變他們的行為,以對抗威脅行為者從被動到主動。
CTI 有幾種定義。CTI被定義為“基于證據(jù)的知識,包括關(guān)于現(xiàn)有或新出現(xiàn)的資產(chǎn)威脅或危害的背景、機(jī)制、指標(biāo)、影響和可操作的建議,可用于為有關(guān)主體對該威脅或危害的反應(yīng)的決策提供信息”[2]。在[3]中,CTI指的是“收集、評估和應(yīng)用的關(guān)于安全威脅、威脅行為者、漏洞利用、惡意軟件、漏洞和妥協(xié)指標(biāo)的數(shù)據(jù)集”。Dalziel [4] 將 CTI 描述為“經(jīng)過提煉、分析或處理的數(shù)據(jù),使其具有相關(guān)性、可操作性和價值”。一般來說,CTI管道的輸入是關(guān)于網(wǎng)絡(luò)安全的原始數(shù)據(jù),而輸出是可以幫助未來主動網(wǎng)絡(luò)安全防御決策的知識,包括限制網(wǎng)絡(luò)攻擊的范圍和預(yù)防策略。
通過使用 CTI 來觀察網(wǎng)絡(luò)風(fēng)險,各種形式和規(guī)模的組織都可以更好地了解他們的攻擊者,更快地響應(yīng)事件,并主動領(lǐng)先于威脅行為者在不久的將來會采取的行動。對于中小型企業(yè)來說,CTI數(shù)據(jù)對他們有很大的好處,因?yàn)樗顾麄兡軌颢@得以前無法達(dá)到的保護(hù)級別。同時,擁有大型安全團(tuán)隊(duì)的企業(yè)可以通過利用外部CTI來降低成本并提高分析師的效率。
隨著人們越來越意識到積極努力實(shí)現(xiàn)網(wǎng)絡(luò)彈性,我們進(jìn)行了一些研究工作來審查相關(guān)工作。現(xiàn)有調(diào)查CTI總結(jié)在表二中。具體而言,研討會工作[5]提出了一項(xiàng)關(guān)于暗網(wǎng)的研究,作為監(jiān)控網(wǎng)絡(luò)活動和網(wǎng)絡(luò)安全攻擊的實(shí)用方法。這項(xiàng)研究[5]將暗網(wǎng)數(shù)據(jù)組件定義為掃描、反向散射和錯誤配置流量,并使用大量數(shù)據(jù)對協(xié)議、應(yīng)用程序和威脅進(jìn)行了詳細(xì)分析。Conficker 蠕蟲、Sality SIP 掃描僵尸網(wǎng)絡(luò)和最大的 DRDoS 攻擊等案例研究用于表征和定義暗網(wǎng)。該論文還通過分析從中提取的數(shù)據(jù)(包括網(wǎng)絡(luò)威脅和事件)以及與暗網(wǎng)相關(guān)的已識別技術(shù),回顧了暗網(wǎng)測量的貢獻(xiàn)。此外,Robertson等[6]提出了一個由爬蟲、解析器和分類器組成的系統(tǒng),用于定位安全分析師可以收集信息的站點(diǎn),以及一個基于博弈論的框架,用于模擬CTI挖掘過程中的攻擊者和防御者,并將其分析為涉及過去攻擊和安全專家的安全博弈。
表二 我們在網(wǎng)絡(luò)威脅情報挖掘方面的新貢獻(xiàn)以及它們與以前的調(diào)查有何不同。在主要議題類別下,“●”、“?”、“○”分別代表綜合審查、部分審查和不審查
此外,Tounsi和Rais[7]將現(xiàn)有的威脅情報類型分為戰(zhàn)略威脅情報、作戰(zhàn)威脅情報和戰(zhàn)術(shù)威脅情報。該工作[7]主要關(guān)注主要由妥協(xié)指標(biāo)(IOC)生成的戰(zhàn)術(shù)威脅情報(TTI),對TTI問題、新興研究趨勢和標(biāo)準(zhǔn)進(jìn)行了全面研究。隨著人工智能 (AI) 的進(jìn)步,Ibrahim 等人簡要討論了如何應(yīng)用 AI 和機(jī)器學(xué)習(xí) (ML) 方法來利用 CTI 阻止數(shù)據(jù)泄露。Rahman等[11],[12]進(jìn)一步全面討論了ML和自然語言處理(NLP)領(lǐng)域的各種技術(shù),用于從文本描述中自動提取CTI。由于CTI的使用是最大限度地提高其有效性的關(guān)鍵步驟之一,Wagner等[8]報告了對共享CTI的最新方法的調(diào)查,以及自動化共享過程的相關(guān)挑戰(zhàn),包括技術(shù)和非技術(shù)挑戰(zhàn)。Abu等[9]對CTI的定義、問題和挑戰(zhàn)進(jìn)行了全面調(diào)查。Ramsdale等[14]總結(jié)了共享CTI的可用格式和語言的現(xiàn)狀。他們還分析了 CTI 提要的樣本,包括它們包含的數(shù)據(jù)以及與聚合和共享這些數(shù)據(jù)相關(guān)的挑戰(zhàn)。
除了對CTI的研究工作外,CTI的使用和實(shí)施是政府組織和企業(yè)的普遍做法,反映了人們對網(wǎng)絡(luò)安全至關(guān)重要性的日益認(rèn)識。這兩方都有專門的團(tuán)隊(duì)負(fù)責(zé)收集、分析和傳播威脅情報信息,通常通過專門的 CTI 平臺和工具。例如,信息共享和分析中心 (ISAC) 是集中的非營利組織,旨在促進(jìn)其成員之間共享 CTI 和其他與安全相關(guān)的信息。ISAC 服務(wù)于各種行業(yè)和部門,包括關(guān)鍵基礎(chǔ)設(shè)施、金融服務(wù)、醫(yī)療保健、技術(shù)等。它們將來自特定行業(yè)或部門的組織聚集在一起,共享威脅情報和最佳實(shí)踐,并在事件響應(yīng)和緩解工作方面進(jìn)行協(xié)作。ISAC 通常得到政府機(jī)構(gòu)和其他組織的支持,它們通常遵循嚴(yán)格的安全和隱私協(xié)議,以確保敏感信息僅在授權(quán)個人之間受到保護(hù)和共享。
根據(jù) 2022 年 Crowdstrike 威脅情報報告,CTI 越來越被視為一種有價值的資產(chǎn),72% 的人計(jì)劃在 2022 年的未來三個月內(nèi)花更多錢 [15]。政府組織和企業(yè)都在投入大量資源來增強(qiáng)其 CTI 能力,因?yàn)樗麄冋J(rèn)識到在不斷變化的威脅形勢中保持領(lǐng)先地位需要不斷改進(jìn)和適應(yīng)。這些努力包括發(fā)展內(nèi)部專業(yè)知識,與其他組織和行業(yè)領(lǐng)導(dǎo)者建立伙伴關(guān)系,以及使用尖端技術(shù)和方法。政府組織和企業(yè)為提高CTI能力所做的努力表明了保護(hù)其關(guān)鍵資產(chǎn)和防范網(wǎng)絡(luò)威脅帶來的風(fēng)險的承諾。CTI是全面網(wǎng)絡(luò)安全戰(zhàn)略的重要組成部分,也是為組織和企業(yè)保護(hù)數(shù)字系統(tǒng)和網(wǎng)絡(luò)的持續(xù)努力中的重要工具。此外,根據(jù) Brown 和 Stirparo [13] 進(jìn)行的 2022 年 SANS CTI 調(diào)查,75% 的參與者認(rèn)為 CTI 改善了組織的安全預(yù)測、威脅檢測和響應(yīng)。調(diào)查還顯示,52%的受訪者認(rèn)為詳細(xì)和及時的信息是CTI未來最重要的特征。
由于近年來網(wǎng)絡(luò)攻擊的激增,大量攻擊工件已被公共在線資源廣泛報道,并被不同組織積極收集[16],[17]。通過挖掘 CTI,組織可以通過檢測威脅的早期跡象并不斷改進(jìn)其安全控制來發(fā)現(xiàn)基于證據(jù)的威脅并改善其安全狀況。挖掘CTI的源數(shù)據(jù)可以從私人渠道(如公司內(nèi)部網(wǎng)絡(luò)日志)以及公共渠道(如技術(shù)博客或公開的網(wǎng)絡(luò)安全報告)中檢索。特別是,用自然語言編寫的網(wǎng)絡(luò)安全信息占CTI的大部分。與網(wǎng)絡(luò)安全相關(guān)的數(shù)據(jù)可以從各種來源收集,這為挖掘CTI提供了墊腳石。然而,在跟上快速增長的網(wǎng)絡(luò)安全相關(guān)信息的同時,挖掘強(qiáng)大、可操作和真正的 CTI 具有挑戰(zhàn)性。盡管 CTI 的背景、分析和相關(guān)性水平呈上升趨勢,但在 2022 年 SANS CTI 調(diào)查中,21% 的參與者 [13] 認(rèn)為 CTI 并未改善其組織的整體安全狀況。目前,許多組織專注于基本使用方案,這些方案涉及將威脅數(shù)據(jù)源與其當(dāng)前的網(wǎng)絡(luò)和防火墻系統(tǒng)、入侵防御系統(tǒng)以及安全信息和事件管理系統(tǒng) (SIEM) 合并。然而,他們沒有充分利用這種新情報可以提供的寶貴知識。因此,以細(xì)粒度研究CTI采礦消耗以開發(fā)有效的工具非常重要。具體來說,就是要調(diào)查通過CTI挖礦可以獲得什么樣的CTI,實(shí)現(xiàn)CTI的方法,以及如何利用獲取的工件作為主動的網(wǎng)絡(luò)安全防御?;谏鲜鰟訖C(jī),我們對如何從各種數(shù)據(jù)源獲取CTI進(jìn)行了全面的文獻(xiàn)綜述,特別是從各種數(shù)據(jù)源中以自然語言文本形式編寫的信息中獲取CTI,以主動防御網(wǎng)絡(luò)安全攻擊。盡管在之前的文獻(xiàn)綜述中已經(jīng)廣泛研究了CTI,但現(xiàn)有的調(diào)查工作并未探討這一觀點(diǎn)。
本文的主要重點(diǎn)是回顧近年來關(guān)于CTI采礦的研究。特別是,我們的工作總結(jié)了CTI采礦技術(shù)和CTI知識獲取分類法。我們的文章介紹了一種分類法,該分類法根據(jù)其目標(biāo)對CTI采礦研究進(jìn)行分類。此外,我們還對CTI采礦的最新研究進(jìn)行了全面分析。我們還研究了CTI采礦研究中遇到的挑戰(zhàn),并提出了解決這些問題的未來研究方向。以下是本文重點(diǎn)介紹的貢獻(xiàn)摘要:
-
我們的綜述總結(jié)了一種六步方法,該方法通過感知、理解和預(yù)測,將網(wǎng)絡(luò)安全相關(guān)信息轉(zhuǎn)化為基于證據(jù)的知識,從而使用 CTI 挖礦進(jìn)行主動網(wǎng)絡(luò)安全防御。
-
我們收集并審查了最先進(jìn)的解決方案,并根據(jù)CTI消費(fèi)對收集到的工作進(jìn)行了深入分析,特別是通過攻擊者的眼睛來主動防御網(wǎng)絡(luò)威脅。
-
作為我們努力擴(kuò)大其他研究人員和 CTI 社區(qū)觀點(diǎn)的一部分,我們討論挑戰(zhàn)和開放研究問題,并確定新趨勢和未來方向。
以下是本次調(diào)查的概述。首先,第二部分概述了CTI采礦,包括CTI采礦的方法和分類。第三節(jié)根據(jù)我們提出的分類法,對CTI采礦領(lǐng)域的現(xiàn)有工作進(jìn)行了全面回顧。第四節(jié)討論了這一領(lǐng)域的挑戰(zhàn)和未來方向。最后,第五節(jié)結(jié)束了本文。表一列出并描述了本文中使用的縮略語。
二、網(wǎng)絡(luò)威脅情報挖掘方法和分類
在調(diào)查論文的基礎(chǔ)上,我們總結(jié)了CTI挖掘的方法和CTI知識獲取的分類法。CTI挖礦的過程逐漸演變出人們對網(wǎng)絡(luò)安全的見解,從對環(huán)境中數(shù)據(jù)的感知到對數(shù)據(jù)含義的理解,最后演變?yōu)閷ξ磥頉Q策的預(yù)測。此外,該分類法總結(jié)了CTI挖礦各種目的的最有價值的信息,并為CTI挖礦提供了新的視角。
A. 研究方法
如圖1所示,該方法由六個步驟組成:網(wǎng)絡(luò)場景分析、數(shù)據(jù)收集、CTI相關(guān)信息提煉、CTI知識獲取、績效評估和決策。網(wǎng)絡(luò)場景分析和數(shù)據(jù)收集可以跨時空感知特定環(huán)境。數(shù)據(jù)蒸餾和 CTI 知識獲取通過定位目標(biāo)和獲取有用信息來幫助理解前面步驟中感知的數(shù)據(jù)。最后兩個步驟,即評估和決策,構(gòu)成了預(yù)測階段,在這個階段,決策是高效和有效的。
1) 第 1 步 - 網(wǎng)絡(luò)場景分析:
CTI 挖掘是一個將原始數(shù)據(jù)轉(zhuǎn)化為可操作情報以進(jìn)行決策并根據(jù)需要立即采取行動的過程。作為威脅情報生命周期的第一步,網(wǎng)絡(luò)場景分析階段至關(guān)重要,因?yàn)樗鼮槲磥韺⒁M(jìn)行的特定威脅情報操作設(shè)定了路線圖。在所審查的研究中,有各種主要的網(wǎng)絡(luò)場景,包括金融科技安全、物聯(lián)網(wǎng)安全、關(guān)鍵基礎(chǔ)設(shè)施安全和基于云的CTI即服務(wù)。將有一個規(guī)劃階段,團(tuán)隊(duì)將根據(jù)網(wǎng)絡(luò)場景的要求,與參與項(xiàng)目的各種利益相關(guān)者就目標(biāo)以及情報計(jì)劃的方法達(dá)成一致。團(tuán)隊(duì)可能會發(fā)現(xiàn)以下內(nèi)容:(1)攻擊者是什么,他們的動機(jī)是什么,以及他們在特定網(wǎng)絡(luò)場景中是誰?(2) 是否有容易受到攻擊的表面積?(3)如果將來發(fā)生攻擊,如何加強(qiáng)他們的防御?我們回顧的研究中的主要網(wǎng)絡(luò)場景示例:金融科技安全、物聯(lián)網(wǎng)安全、關(guān)鍵基礎(chǔ)設(shè)施和 CTI 即服務(wù)。
2) 第 2 步 - 數(shù)據(jù)收集:
作為保護(hù)組織和安全社區(qū)免受快速發(fā)展的網(wǎng)絡(luò)威脅的一種方式,已經(jīng)為共享威脅情報做出了許多努力。毫無疑問,公共資源是CTI的重要貢獻(xiàn)者,無論使用什么平臺訪問它。為了共享未分類的 CTI,已經(jīng)建立了一些方法,例如 AlienVault OTX [18]、OpenIOC DB [19]、IOC Bucket [20] 和 Facebook ThreatExchange [21]。這些平臺上共享的信息可以幫助組織識別和減輕安全風(fēng)險,確定其安全工作的優(yōu)先級,并更有效地應(yīng)對網(wǎng)絡(luò)威脅。作為眾包平臺的一個例子,Facebook ThreatExchange [21] 對任何組織開放,并允許參與者共享實(shí)時威脅情報信息,包括有關(guān)惡意軟件、網(wǎng)絡(luò)釣魚活動和其他類型的網(wǎng)絡(luò)攻擊的信息。CTI 數(shù)據(jù)一旦在在線平臺上發(fā)布,通??捎糜?Web 爬蟲。例如,我們可以從國家漏洞數(shù)據(jù)庫(NVD)[22]中獲取漏洞記錄,以及Verizon年度數(shù)據(jù)泄露調(diào)查報告(DBIR)[23]中的歷史數(shù)據(jù)泄露報告。技術(shù)來源(即安全工具和系統(tǒng))生成的數(shù)據(jù),包括日志文件、網(wǎng)絡(luò)流量和系統(tǒng)警報,被用作預(yù)測網(wǎng)絡(luò)安全事件的寶貴來源[24]。此外,各種社交媒體(如 Twitter)都提供 API,用于分析這些社交媒體站點(diǎn)中的數(shù)據(jù)并收集個人和組織共享的威脅信息。對于受限制的評估CTI,已經(jīng)創(chuàng)建了諸如國防工業(yè)基地(DIB)自愿信息共享計(jì)劃[25]之類的平臺,以幫助組織更好地保護(hù)自己和客戶免受網(wǎng)絡(luò)威脅。這些平臺為認(rèn)證參與者之間交換威脅情報信息提供了一個安全的協(xié)作環(huán)境。例如,僅限于 DIB 參與者的 DIB 自愿信息共享計(jì)劃是專門為國防工業(yè)基地設(shè)計(jì)的,旨在提高 DIB 抵御網(wǎng)絡(luò)威脅的安全性和彈性。該計(jì)劃允許 DIB 參與者共享威脅情報信息,并共同努力增強(qiáng) DIB 的安全性,以應(yīng)對網(wǎng)絡(luò)威脅、外國干擾和其他安全風(fēng)險。最后但并非最不重要的一點(diǎn)是,值得一提的是,通過暗網(wǎng)來源的非法在線市場和論壇可以提供有關(guān)正在進(jìn)行的網(wǎng)絡(luò)威脅的信息。
3) Step 3 - CTI相關(guān)信息蒸餾:
收集數(shù)據(jù)后,重要的是要提煉出與 CTI 相關(guān)的信息(即文章、段落或句子),以便為 CTI 知識獲取做好準(zhǔn)備。分類是對與CTI相關(guān)或無關(guān)的目標(biāo)信息進(jìn)行分類的廣泛采用的方法之一。研究人員使用來自各種注釋類(例如,CTI 相關(guān)或非 CTI 相關(guān))的示例,構(gòu)建了機(jī)器學(xué)習(xí)分類模型來預(yù)測看不見的數(shù)據(jù)的類別。無監(jiān)督機(jī)器學(xué)習(xí)算法可以被認(rèn)為是一種基于聚類數(shù)據(jù)內(nèi)容之間的相似性來提取與CTI相關(guān)的信息的替代方法。
4) 第 4 步 - CTI 知識獲取:
在完成CTI相關(guān)信息提煉后,需要以CTI知識獲取的形式進(jìn)行數(shù)據(jù)分析,根據(jù)用戶的要求,精確定位和定位相關(guān)、準(zhǔn)確的信息。研究人員和 CTI 社區(qū)采用 NLP 和 ML 技術(shù)從文本數(shù)據(jù)中提取 CTI。圖 2 顯示了基于收集的文獻(xiàn)對 CTI 知識獲取的六個特定類別的詳細(xì)分類,分別是與網(wǎng)絡(luò)安全相關(guān)的實(shí)體和事件、網(wǎng)絡(luò)攻擊策略、技術(shù)和程序、黑客概況、入侵指標(biāo)、漏洞利用和惡意軟件實(shí)施以及威脅搜尋。
5) 第 5 步 - 績效評估:
在第五步中,我們根據(jù)預(yù)期目標(biāo)評估提取的CTI的性能。它通常根據(jù)各種指標(biāo)進(jìn)行衡量,以評估性能。大多數(shù)分類或聚類任務(wù)都涉及使用一些標(biāo)準(zhǔn)指標(biāo),包括準(zhǔn)確率、召回率、精確率、誤報率 (FPR) 和 F1 分?jǐn)?shù)。為了描述收益和成本之間的權(quán)衡,使用了圖形圖,例如在 y 軸上繪制 TPR 和 x 軸上繪制 FPR 的受試者工作特征 (ROC) 曲線。ROC 曲線下方的面積表示 ROC 曲線的累積強(qiáng)度。此外,人們期望通過實(shí)時 CTI 體驗(yàn)減少提取所需信息所花費(fèi)的時間。網(wǎng)絡(luò)安全任務(wù)(包括 CTI 知識獲取)的一個主要挑戰(zhàn)通常是 FPR,因?yàn)檎`報會導(dǎo)致與手動驗(yàn)證相關(guān)的成本過高,這在許多情況下是誤報的結(jié)果。以一種前所未有的方式,新興的CTI有望首次發(fā)現(xiàn),追求性能的目標(biāo)通常是在最小化FPR的同時最大化TPR。通過利用綜合評估指標(biāo),可以確定特定的 CTI 知識獲取方法是否產(chǎn)生令人滿意的結(jié)果。如果結(jié)果不令人滿意,建議重復(fù)該過程并進(jìn)行所需的交替。
6) 第 6 步 - 決策:
根據(jù)CTI在不同類別中的提取方式,它可以用于各種決策目的。以下是獲得CTI在決策過程中的關(guān)鍵應(yīng)用總結(jié),包括CTI共享、警報生成、威脅態(tài)勢、搜索引擎、教育和對策。
CTI華測檢測共享:這是一種共享與網(wǎng)絡(luò)安全相關(guān)的各種信息的做法,以識別風(fēng)險、漏洞、威脅和內(nèi)部安全問題,并分享這方面的良好做法。在各種類別下提取的CTI預(yù)計(jì)將在多個組織之間共享,包括政府機(jī)構(gòu),IT安全公司,網(wǎng)絡(luò)安全研究人員等。 CTI共享通常由法律和監(jiān)管因素(例如,通用數(shù)據(jù)保護(hù)條例(GDPR)[26])以及經(jīng)濟(jì)因素(例如,降低解決數(shù)據(jù)泄露后果的成本)驅(qū)動。
警報生成:根據(jù)美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)[27]的定義,針對組織信息系統(tǒng)的特定攻擊的信息稱為網(wǎng)絡(luò)安全警報。有關(guān)當(dāng)前漏洞、漏洞利用和其他安全問題的警報,這些安全問題通常是人類可讀的,可以直接從提取的 CTI 中生成各種類別??梢陨啥鄠€輸出,包括漏洞說明、公告和建議。
威脅態(tài)勢:威脅態(tài)勢是指在特定時期內(nèi)影響特定行業(yè)、組織或用戶組的所有潛在和公認(rèn)的網(wǎng)絡(luò)安全威脅。隨著每天都有新的網(wǎng)絡(luò)威脅出現(xiàn),威脅形勢也在不斷變化。使用從文本中提取的 CTI,安全專家可以根據(jù)提取的 CTI 更深入地了解威脅態(tài)勢。
網(wǎng)絡(luò)安全域名搜索引擎:提取的CTI可以作為網(wǎng)絡(luò)安全搜索引擎的基礎(chǔ)。一般來說,信息檢索是指從文本、圖像和聲音中查找信息的科學(xué),以及從描述正在搜索的數(shù)據(jù)的元數(shù)據(jù)中查找信息的科學(xué)[28]。通過搜索引擎,可以在互聯(lián)網(wǎng)上找到信息。網(wǎng)絡(luò)安全領(lǐng)域搜索引擎越來越關(guān)注可解釋的網(wǎng)絡(luò)安全上下文,以強(qiáng)調(diào)用戶消化的信息量不取決于返回的數(shù)量,而是取決于他們對返回信息的理解。例如,Shodan [29] 是用于互聯(lián)網(wǎng)連接設(shè)備的網(wǎng)絡(luò)安全搜索引擎。
教育與培訓(xùn):目前,全球范圍內(nèi)缺乏合格的網(wǎng)絡(luò)安全專業(yè)人員。根據(jù) AustCyber 的數(shù)據(jù),到 2023 年,澳大利亞的這種短缺可能達(dá)到 18,000 人。通過提供網(wǎng)絡(luò)安全背景的可解釋和結(jié)構(gòu)化說明,提取的CTI將有助于網(wǎng)絡(luò)安全教育和培訓(xùn)。一方面,教育系統(tǒng)通過建立行業(yè)內(nèi)熟練的專業(yè)人員管道,幫助解決熟練網(wǎng)絡(luò)專業(yè)人員的短缺問題。另一方面,網(wǎng)絡(luò)安全教育也有望幫助對網(wǎng)絡(luò)安全領(lǐng)域知識缺乏深入了解的人提高對網(wǎng)絡(luò)安全事件和威脅的認(rèn)識。
風(fēng)險管理:通過使用 CTI,組織可以增強(qiáng)其風(fēng)險管理程序,獲得有關(guān)最新漏洞、攻擊方法和漏洞利用的寶貴情報。及時了解新出現(xiàn)的風(fēng)險和漏洞可以使組織采取先發(fā)制人的措施,在風(fēng)險被利用之前識別和管理風(fēng)險,最終降低安全事件的潛在成本和影響。
B. 網(wǎng)絡(luò)威脅情報挖掘定義和分類
據(jù)我們所知,網(wǎng)絡(luò)威脅情報挖掘沒有正式的定義。然而,計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)分析領(lǐng)域的一些研究人員和從業(yè)者已經(jīng)提出了數(shù)據(jù)挖掘的定義。根據(jù) IBM 的定義,數(shù)據(jù)挖掘,也稱為數(shù)據(jù)中的知識發(fā)現(xiàn),是從大型數(shù)據(jù)集中發(fā)現(xiàn)模式和其他有價值信息的過程。作為Fayyad等人[30]提供的最廣泛引用的定義之一,“數(shù)據(jù)挖掘是應(yīng)用特定算法從數(shù)據(jù)中提取模式”。Chakrabarti等[31]進(jìn)一步將Fayyad等[30]的定義解釋為“在大型數(shù)據(jù)集中提取和發(fā)現(xiàn)模式的過程,涉及機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫系統(tǒng)交叉的方法”。通過限制數(shù)據(jù)挖掘概念中的數(shù)據(jù)范圍,在本次調(diào)查中,我們將網(wǎng)絡(luò)威脅情報挖掘定義為收集和分析來自各種網(wǎng)絡(luò)威脅情報數(shù)據(jù)源的大量信息,以識別與網(wǎng)絡(luò)威脅、攻擊和有害事件相關(guān)的信息。
如第II-A節(jié)所述,如圖1所示,CTI挖礦方法基本上將與網(wǎng)絡(luò)安全廣泛相關(guān)的數(shù)據(jù)轉(zhuǎn)化為易于理解的CTI,以便做出最終決策。作為連接感知和投射階段的橋梁,理解階段在提煉與CTI相關(guān)的信息和根據(jù)各種目標(biāo)定位有用信息方面發(fā)揮著作用。如圖2所示,以CTI理解階段為起點(diǎn),根據(jù)CTI知識獲取的目的,對CTI挖掘的綜述工作進(jìn)行分類。為了更清楚地闡明已確定的六類CTI采礦背后的基本原理,在下文中,我們將CTI采礦與通用疾病治療過程進(jìn)行了類比。
1) 網(wǎng)絡(luò)安全相關(guān)實(shí)體和事件:
CTI挖礦中與網(wǎng)絡(luò)安全相關(guān)的實(shí)體和事件的識別就像一個診斷步驟,可以識別特定疾病或疾病的性質(zhì)。在網(wǎng)絡(luò)安全實(shí)體和事件提取中,非結(jié)構(gòu)化文本中的命名實(shí)體被定位并分類為預(yù)定義的網(wǎng)絡(luò)安全類別,例如受影響的組織、位置、漏洞等,而事件則被分類為預(yù)定義的網(wǎng)絡(luò)攻擊類別,例如網(wǎng)絡(luò)釣魚、分布式拒絕服務(wù) (DDoS) 攻擊等。
2) 網(wǎng)絡(luò)攻擊策略、技術(shù)和程序:
在此任務(wù)類別中,目標(biāo)是通過分析網(wǎng)絡(luò)威脅參與者和黑客的戰(zhàn)術(shù)、技術(shù)和程序 (TTP) 來確定網(wǎng)絡(luò)威脅參與者和黑客如何準(zhǔn)備和執(zhí)行網(wǎng)絡(luò)攻擊。這類似于醫(yī)療保健中的病理學(xué)研究,旨在了解疾病或傷害的原因和影響。
3)黑客的個人資料:
CTI挖礦分類法中的第三類稱為黑客檔案,用于追蹤網(wǎng)絡(luò)攻擊的來源。建立黑客檔案旨在發(fā)現(xiàn)威脅行為者的來源和資源,包括網(wǎng)絡(luò)威脅歸因和黑客資產(chǎn)。這類似于生物學(xué)中病原體的鑒定,后者是指發(fā)現(xiàn)任何可能產(chǎn)生疾病的生物體或病原體(例如細(xì)菌或病毒)的步驟。
4) 妥協(xié)指標(biāo):
IoC 的提取旨在查找提供組織系統(tǒng)上潛在惡意活動證據(jù)的取證數(shù)據(jù),例如惡意軟件的名稱、簽名和哈希值。IOC 類似于身體或精神癥狀,表明疾病狀況。
5) 漏洞利用和惡意軟件實(shí)施:
此類別包括有關(guān)研究分析文檔的文獻(xiàn),例如文獻(xiàn)和用戶手冊,以發(fā)現(xiàn)特定產(chǎn)品或服務(wù)下的漏洞、預(yù)測漏洞利用以及查找有關(guān)惡意軟件實(shí)施的信息以預(yù)測軟件特征。與潛在疾病的并發(fā)癥一樣,利用漏洞和實(shí)施惡意軟件與網(wǎng)絡(luò)威脅的后果高度相關(guān)。
6)威脅搜尋:
此類任務(wù)的目的是識別組織網(wǎng)絡(luò)中以前未知或正在進(jìn)行的未修正威脅。這一過程可以類似于在一般疾病治療過程中進(jìn)行的基因檢測,后者可以預(yù)測健康個體未來患特定疾病的可能性[32]。
三、最新研究:積極主動的防御視角
A. 網(wǎng)絡(luò)安全相關(guān)實(shí)體和事件
網(wǎng)絡(luò)安全攻擊和事件很普遍,具有廣泛的后果和影響,從數(shù)據(jù)泄露到潛在的生命損失和關(guān)鍵基礎(chǔ)設(shè)施的中斷[24]。根據(jù)媒體報道的網(wǎng)絡(luò)事件的權(quán)威記錄及其關(guān)鍵維度(例如,被利用的漏洞、受影響的系統(tǒng)、事件的持續(xù)時間)來開發(fā)網(wǎng)絡(luò)防御至關(guān)重要。以精細(xì)粒度記錄的網(wǎng)絡(luò)安全事件詳細(xì)信息可以幫助各種分析工作,包括識別網(wǎng)絡(luò)攻擊、開發(fā)攻擊預(yù)測指標(biāo)、跟蹤時間和空間上的網(wǎng)絡(luò)攻擊,并將其集成到網(wǎng)絡(luò)安全圖中以協(xié)助自動分析。在本節(jié)中,我們回顧了通過CTI挖礦獲取網(wǎng)絡(luò)安全相關(guān)實(shí)體和事件知識的相應(yīng)作品。
1)代表工作總結(jié):
NLP 中的實(shí)體提取技術(shù)會自動從非結(jié)構(gòu)化文本中提取特定數(shù)據(jù),并根據(jù)預(yù)定義的類別對其進(jìn)行分類。此外,對句子中存在的實(shí)體的了解可以提供有助于確認(rèn)事件類別和預(yù)測事件觸發(fā)器的信息。研究人員正在研究用于CTI挖掘的網(wǎng)絡(luò)安全相關(guān)實(shí)體和事件提取,這是處理異構(gòu)數(shù)據(jù)源和大量網(wǎng)絡(luò)安全相關(guān)信息的關(guān)鍵。代表性研究的調(diào)查摘要列于表三。
表三 挖礦網(wǎng)絡(luò)安全相關(guān)實(shí)體和事件的最新作品
作為一項(xiàng)初步研究,提出了幾種方法[33],[34]來快速提取網(wǎng)絡(luò)安全事件,而無需為訓(xùn)練過程添加標(biāo)記數(shù)據(jù)。[34]提出了一種弱監(jiān)督的ML方法,沒有訓(xùn)練階段要求從Twitter流數(shù)據(jù)中快速提取事件。該研究[34]重點(diǎn)關(guān)注三類高影響的網(wǎng)絡(luò)安全攻擊,包括數(shù)據(jù)泄露、DDoS和賬戶劫持,以演示如何基于卷積內(nèi)核和依賴解析來識別網(wǎng)絡(luò)安全事件。在這項(xiàng)工作中,成功檢測網(wǎng)絡(luò)安全相關(guān)事件的最高精度可以達(dá)到80%[34]。此外,工作[33]利用無監(jiān)督ML模型(即潛在狄利克雷分配(LDA))對黑客論壇中的相關(guān)帖子進(jìn)行聚類,展示了一種可以在網(wǎng)絡(luò)安全事件方面有效提取CTI的方法。盡管Deliu等[33]僅評估了估計(jì)的網(wǎng)絡(luò)安全事件在主題數(shù)量和經(jīng)過時間上的性能,但該工作展示了快速提取相關(guān)網(wǎng)絡(luò)安全主題和事件的方法。
隨著帶有注釋的數(shù)據(jù)集的引入以及 NLP 和深度學(xué)習(xí)技術(shù)的發(fā)展,自動識別的網(wǎng)絡(luò)安全相關(guān)實(shí)體和事件的類別也在增長。Dionísio等[35]用5類實(shí)體(如表III所示)注釋了與網(wǎng)絡(luò)安全相關(guān)的Twitter數(shù)據(jù),并考慮了歐洲網(wǎng)絡(luò)和信息安全局(ENISA)風(fēng)險管理詞匯表[39]的描述。在這項(xiàng)工作[35]中,實(shí)現(xiàn)了雙向長短期記憶(BiLSTM)神經(jīng)網(wǎng)絡(luò)(NN)用于名稱實(shí)體識別。預(yù)訓(xùn)練詞嵌入是指在一個特定任務(wù)中學(xué)習(xí)的嵌入,用于解決另一個類似任務(wù),包括 GloVE [40] 和 Word2Vec [41],用于為語義值提供起點(diǎn)。BiLSTM 模型在識別六類網(wǎng)絡(luò)安全相關(guān)實(shí)體方面的平均 F1 得分為 92%。工作中內(nèi)置的注釋數(shù)據(jù)(即網(wǎng)絡(luò)安全相關(guān)實(shí)體)[35]可通過其GitHub網(wǎng)站公開獲得,1該網(wǎng)站為CTI域中的名稱實(shí)體識別提供了基本事實(shí)。Satyapanich等[36]進(jìn)一步擴(kuò)展了其他與網(wǎng)絡(luò)安全相關(guān)的實(shí)體和事件,創(chuàng)建了一個包含1000篇英文新聞文章的語料庫2,這些文章標(biāo)有豐富的、基于事件的注釋,涵蓋了網(wǎng)絡(luò)攻擊和與漏洞相關(guān)的網(wǎng)絡(luò)安全攻擊。除了BiLSTM層,這項(xiàng)工作[36]還應(yīng)用了注意力機(jī)制,這些機(jī)制在NLP中得到了極大的應(yīng)用,并被證明用于學(xué)習(xí)文本中突出顯示的重要部分。此外,該工作[36]在詞嵌入層中使用了Word2Vec[41]和BERT[42]嵌入,并進(jìn)一步將嵌入語言學(xué)特征串聯(lián)起來形成嵌入層,包括詞性(PoS)、詞的位置等??偣捕x了20個網(wǎng)絡(luò)安全相關(guān)實(shí)體(例如文件、設(shè)備、軟件)和5個事件(例如網(wǎng)絡(luò)釣魚),并且可以通過所提出的方法自動檢測[36]。
圖神經(jīng)網(wǎng)絡(luò)(GNN)將數(shù)據(jù)表示為圖,旨在從圖級學(xué)習(xí)特征以對節(jié)點(diǎn)進(jìn)行分類,這開始應(yīng)用于信息提取領(lǐng)域[43]。網(wǎng)絡(luò)安全領(lǐng)域?qū)嶓w的復(fù)雜性使得在名稱實(shí)體識別中難以捕獲非本地和非順序的依賴關(guān)系[37]。因此,最近的研究[37],[38]提出使用GNN提取的本地上下文和圖級非本地依賴關(guān)系來進(jìn)行網(wǎng)絡(luò)安全實(shí)體識別。在[37]的工作中,Fang等人旨在從網(wǎng)絡(luò)安全文章中識別出四種類型的實(shí)體,分別由人員(PER)、組織(ORG)、位置(LOC)和安全(SEC)組成。在圖構(gòu)建過程中,圖中的每個節(jié)點(diǎn)代表每個句子中的一個單詞,每個邊構(gòu)造了局部上下文依賴和非局部依賴。此外,還應(yīng)用了詞級嵌入(即Word2Vec [41])和字符級嵌入,以捕獲句子中單詞的上下文信息。工作[37]中提出的CyberEyes模型最終可以獲得四種網(wǎng)絡(luò)安全實(shí)體的F1得分為90.28%。Trang等[38]對一個大型數(shù)據(jù)集進(jìn)行了注釋,該數(shù)據(jù)集包括網(wǎng)絡(luò)攻擊四個不同階段下的30個子類別網(wǎng)絡(luò)安全事件,分別是DISCOVER、PATCH、ATTACK和IMPACT?;诙嚯A圖注意力網(wǎng)絡(luò)的事件檢測(MOGANED)和注意力[44]方法應(yīng)用于Word2Vec [41]和BERT [42]嵌入。盡管通過使用文檔嵌入增強(qiáng)型雙向遞歸神經(jīng)網(wǎng)絡(luò) (RNN) 的帶注釋數(shù)據(jù)集 [38] 實(shí)現(xiàn)的網(wǎng)絡(luò)安全事件提取的最高 F1 分?jǐn)?shù)為 68.4%。當(dāng)MOGANED with BERT應(yīng)用于[36]提出的網(wǎng)絡(luò)安全實(shí)體數(shù)據(jù)集時,F1得分提高了6.56%,達(dá)到86.5%。
2)討論:
上一節(jié)回顧了七項(xiàng)具有代表性的研究,這些研究與網(wǎng)絡(luò)安全相關(guān)的實(shí)體和事件。表III列出了調(diào)查研究的摘要,其中我們顯示了每項(xiàng)工作的關(guān)鍵差異。具體而言,表四和表五總結(jié)了這些研究中定義的網(wǎng)絡(luò)安全相關(guān)實(shí)體和事件。
表四 代表作品中的網(wǎng)絡(luò)安全相關(guān)主體
表五 代表作品中的網(wǎng)絡(luò)安全相關(guān)事件
在我們回顧的研究中,用于挖掘網(wǎng)絡(luò)安全實(shí)體和事件的主要技術(shù)分為以下幾類:(1)無監(jiān)督學(xué)習(xí)方法,其中使用無監(jiān)督算法而沒有手工標(biāo)記的訓(xùn)練示例;(2)將特征工程與監(jiān)督學(xué)習(xí)算法結(jié)合使用的監(jiān)督學(xué)習(xí)方法。大多數(shù)被審查的工作都采用了基于深度學(xué)習(xí)(DL)的方法,通過神經(jīng)網(wǎng)絡(luò)中的多個層學(xué)習(xí)數(shù)據(jù)的分層表示來自動發(fā)現(xiàn)分類表示。基于深度學(xué)習(xí)的方法在檢測與網(wǎng)絡(luò)安全相關(guān)的實(shí)體和事件方面特別有效,并且發(fā)展迅速。傳統(tǒng)的基于特征的方法需要大量的特征工程技能和領(lǐng)域?qū)I(yè)知識,但基于深度學(xué)習(xí)的數(shù)據(jù)挖掘可以有效地從原始數(shù)據(jù)中學(xué)習(xí)有用的表示和潛在因素。借助 DL,可以更高效地設(shè)計(jì)實(shí)體識別功能。此外,非線性激活函數(shù)使基于深度學(xué)習(xí)的模型能夠從數(shù)據(jù)中學(xué)習(xí)復(fù)雜而復(fù)雜的特征。與線性模型(例如線性鏈條件隨機(jī)場 (CRF)相比,非線性映射是從輸入到輸出生成的,這有利于網(wǎng)絡(luò)安全實(shí)體和事件識別。
對評論作品的比較研究表明,它們都依賴于非結(jié)構(gòu)化文本,例如推文、安全文章和黑客論壇。這表明迫切需要一個結(jié)構(gòu)化的數(shù)據(jù)庫來存儲CTI數(shù)據(jù)。在使用的不同模型中,采用名稱實(shí)體識別 (NER) 方法、神經(jīng)網(wǎng)絡(luò)和 BiLSTM 的模型表現(xiàn)更好。這是因?yàn)镹ER可以識別和提取句子中的實(shí)體,確保不相關(guān)的單詞不被視為CTI實(shí)體,從而獲得更好的性能。此外,F-1得分最高的兩部作品[35]和[36]利用基于字符的嵌入來補(bǔ)充基于單詞的嵌入的不足?;谧址那度肟梢圆东@前綴和后綴等形態(tài)信息,這些信息在基于單詞的嵌入中可能會丟失,從而獲得更準(zhǔn)確和更強(qiáng)大的性能。總體而言,這些發(fā)現(xiàn)表明,使用NER和基于字符的嵌入可以顯著提高CTI模型在識別和緩解網(wǎng)絡(luò)威脅方面的準(zhǔn)確性和有效性。
在自然語言處理的背景下,詞嵌入技術(shù)被廣泛認(rèn)為是深度學(xué)習(xí)的重大突破。向量可以轉(zhuǎn)換為相對低維的空間,稱為嵌入。在處理大型輸入(例如表示單詞的稀疏向量)時,使用嵌入可以更輕松地進(jìn)行機(jī)器學(xué)習(xí)。通過在嵌入空間中將語義相似的輸入放在一起,嵌入可以捕獲輸入的一些語義。可以在模型之間學(xué)習(xí)和重用嵌入。在本小節(jié)調(diào)查的論文中,七分之六的工作使用了預(yù)訓(xùn)練的詞嵌入,包括 Word2Vec [41]、GloVE [40] 和 BERT [42]。此外,一些網(wǎng)絡(luò)安全實(shí)體以靈活的方式使用單詞。例如,單詞 Gh0st 是指同時包含大寫和小寫字母的遠(yuǎn)程訪問木馬。使標(biāo)識更加復(fù)雜的是實(shí)體內(nèi)的不規(guī)則縮寫和嵌套問題。為了解決上述挑戰(zhàn),基于字符的嵌入被應(yīng)用并在工作[35]中得到證明,以提高實(shí)體提取性能。單詞的最終表示通?;趩卧~級和字符級表示,以及附加信息(例如,語言特征[36]和語言依賴性[34],然后將其輸入上下文編碼層。
值得注意的是,大多數(shù)被審查的工作只關(guān)注與網(wǎng)絡(luò)相關(guān)的實(shí)體和事件的提取,而不是實(shí)體之間的關(guān)系的提取。在事件標(biāo)注過程中,遇到了許多挑戰(zhàn),包括標(biāo)注實(shí)體、事件以及事件之間的共指關(guān)系。例如,在網(wǎng)絡(luò)攻擊的描述中可以包含幾個不同的操作。在執(zhí)行信息提取任務(wù)(如名稱識別、關(guān)系提取、事件提取和共指解析)時,跨句子合并全局上下文或考慮短語之間的非局部依賴關(guān)系是有益的[45]。例如,對共指關(guān)系的了解可以深入了解所提到的難以分類的實(shí)體類型。此外,句子的實(shí)體可以用作事件提取的輸入,這可以導(dǎo)致有關(guān)事件觸發(fā)器的有用信息。作為未來的方向,實(shí)體、事件和事件共指關(guān)系將被組合起來,通過挖掘相同或相鄰句子中的實(shí)體之間的挖掘來挖掘聯(lián)合CTI潛力,而動態(tài)更新將對長期跨句子關(guān)系進(jìn)行建模。
B. 網(wǎng)絡(luò)攻擊策略、技術(shù)和程序
戰(zhàn)術(shù)、技術(shù)和程序 (TTP) 的概念對 CTI 至關(guān)重要。識別 TTP 的目標(biāo)是識別可用于防御惡意行為者采用的特定威脅和策略的行為模式。TTP 是指網(wǎng)絡(luò)威脅行為者和黑客用來準(zhǔn)備和執(zhí)行網(wǎng)絡(luò)攻擊的行為,包括方法、工具和策略。根據(jù)美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)[46]的定義,策略是對這種行為的最高級別的描述,技術(shù)在策略的上下文中給出了更詳細(xì)的解釋,而程序在技術(shù)的上下文中提供了更詳細(xì)的描述。本節(jié)回顧了關(guān)于網(wǎng)絡(luò)攻擊策略、技術(shù)和程序的 CTI 挖掘工作。
1)代表工作總結(jié):
在網(wǎng)絡(luò)威脅情報中,TTP描述了與特定威脅行為者相關(guān)的攻擊行為[53]。收集此類信息后,可以有效地識別、緩解和應(yīng)對網(wǎng)絡(luò)威脅。圖 3 顯示了結(jié)構(gòu)化威脅信息壓縮 (STIX) 模式 [54] 中的 TTP 示例。如表六所示,針對挖掘TTP的工作是有限的,但由于TTP在識別網(wǎng)絡(luò)威脅方面發(fā)揮著強(qiáng)大的作用,因此正在出現(xiàn)。
表六 關(guān)于采礦策略、技術(shù)和程序的代表性著作
圖 3.[47] 中 STIX 模式中的 TTP 示例。
Husari等[48]的研究使用名為TTPDrill的威脅行動本體描述了網(wǎng)絡(luò)威脅的攻擊模式和技術(shù)。該本體基于MITRE的CAPEC [50]和ATT&CK [49]威脅存儲庫構(gòu)建,涵蓋了利用前和利用后惡意操作的過程。從微觀層面(例如,刪除日志文件)到宏觀層面(例如,防御規(guī)避)捕獲了威脅行動和相應(yīng)的戰(zhàn)術(shù)和技術(shù)殺傷鏈上下文。他們的工作提出了一種基于已建立本體的方法,該方法以結(jié)構(gòu)化方式將提取的非結(jié)構(gòu)化數(shù)據(jù)源中的TTP映射到已建立的本體,例如CTI中廣泛使用的STIX攻擊模式模式[54]。一個名為Stanford類型依賴解析器[55]的NLP工具用于識別和提取候選威脅操作。此外,還為開發(fā)的本體中的常見對象構(gòu)建了一組正則表達(dá)式,以解析威脅報告中使用的特殊術(shù)語(例如,字符串fil_1.exe),從而混淆了NLP工具。應(yīng)用候選威脅操作生成詞袋查詢,并基于相似度分?jǐn)?shù)的計(jì)算映射到本體中的威脅操作。
You等[52]提出了一種新的威脅情境增強(qiáng)TTP情報挖掘(TIM)框架,用于從非結(jié)構(gòu)化威脅數(shù)據(jù)中提取TTP情報。TIM 框架利用 TCENet(即威脅上下文增強(qiáng)網(wǎng)絡(luò))從文本數(shù)據(jù)中識別和分類 TTP 描述,定義為三個連續(xù)的句子。You等[52]在描述中利用TTP的元素特征,進(jìn)一步提高了TCENet的TTP分類精度。評價結(jié)果表明,所提方法在6個TTP類別中的平均分類準(zhǔn)確率為94.1%。此外,與僅使用文本特征相比,添加 TTP 元素特征可提高分類準(zhǔn)確性。TCENet 優(yōu)于以前的文檔級 TTP 分類工作和其他流行的文本分類方法,即使在少量訓(xùn)練樣本的情況下也是如此。由此產(chǎn)生的 TTP 情報和規(guī)則可幫助防御者部署有效的長期威脅檢測并執(zhí)行更真實(shí)的攻擊模擬以加強(qiáng)防御。
Ge 和 Wang 提出了 SeqMask 作為使用多實(shí)例學(xué)習(xí) (MIL) 方法識別和提取 CTI TTP 的解決方案。SeqMask 使用來自 CTI 的行為關(guān)鍵字,通過條件概率預(yù)測 TTP 標(biāo)簽。為了保證提取關(guān)鍵詞的有效性,SeqMask采用了兩種機(jī)制,一種是專家經(jīng)驗(yàn)驗(yàn)證,另一種是屏蔽現(xiàn)有關(guān)鍵詞,以評估其對分類準(zhǔn)確性的影響。使用 SeqMask 進(jìn)行的實(shí)驗(yàn)結(jié)果表明,TTP 分類的 F1 得分很高(即 86.07%),并且從全尺寸 CTI 和惡意軟件中提取 TTP 的能力有所提高。
盡管基于本體的TTP挖掘能夠涵蓋MITRE的CAPEC [50]和ATT&CK [49]威脅存儲庫中定義的策略和技術(shù)的綜合列表,但很難適應(yīng)各種網(wǎng)絡(luò)場景,例如電子商務(wù)策略。如研究[47]所示,當(dāng)應(yīng)用TTPDrill發(fā)現(xiàn)電子商務(wù)TTP時,召回率、準(zhǔn)確率和F1得分分別下降到50.25%、22.38%和30.97%。TTPDrill 在網(wǎng)絡(luò)攻擊的傳統(tǒng)步驟(即網(wǎng)絡(luò)殺傷鏈階段)捕獲了 TTP。由于攻擊發(fā)生在購買過程之前、期間和之后,電子商務(wù)地下市場無法完全映射到傳統(tǒng)的殺傷鏈。為了應(yīng)對這一挑戰(zhàn),Wu等[47]建立了一個TTP半自動生成器(即TAG),該生成器結(jié)合了NLP技術(shù),包括主題詞提取和名稱實(shí)體識別,用于識別電子商務(wù)TTP。根據(jù)TTP中主題術(shù)語通常具有相似的語義和詞匯結(jié)構(gòu)的觀察結(jié)果,新出現(xiàn)的主題術(shù)語是基于語義和結(jié)構(gòu)與[47]中流行主題術(shù)語的相似性來捕獲的。此外,第III-A節(jié)中介紹的名稱實(shí)體識別技術(shù)與規(guī)則學(xué)習(xí)(即一組基于語法結(jié)構(gòu)的TTP實(shí)體識別規(guī)則)相結(jié)合,用于從非結(jié)構(gòu)化數(shù)據(jù)源中自動提取TTP實(shí)體。在識別TTP術(shù)語后,[47]提出的STIX TTP生成器將從非結(jié)構(gòu)化數(shù)據(jù)中提取的TTP術(shù)語轉(zhuǎn)換為STIX模式[54]。TAG共識別了6,042個TTP,準(zhǔn)確率為80%,通過分析識別出的TTP,為以前未知的電子商務(wù)CTI趨勢提供了新的線索。
2)討論:
表六總結(jié)了所審查的工作,表七列出了網(wǎng)絡(luò)攻擊策略、技術(shù)和程序。由于改變攻擊策略、技術(shù)和程序?qū)κ謥碚f代價高昂,因此 TTP 被認(rèn)為比 IOC 更強(qiáng)大、更持久。例如,對手使用IOC(例如,不同的惡意域)比更改其TTP(例如,防彈托管基礎(chǔ)設(shè)施)更容易[47]。IOC 是顯示系統(tǒng)已被攻擊滲透的取證工件之一,而 TTP 是與單個或一組攻擊者關(guān)聯(lián)的模式或活動組之一。通過提供 TTP,可以在各種情況下使用特定 TTP 調(diào)查網(wǎng)絡(luò)攻擊下的非法活動。在最近的電子商務(wù)繁榮時期,出現(xiàn)了許多攻擊模式(例如訂單剝頭皮),這些模式已被公共在線資源廣泛報道。通過快速分析威脅并將TTP部署到各種安全系統(tǒng),可以實(shí)現(xiàn)對不同類型的安全威脅的檢測、響應(yīng)和遏制。為了使 TTP 易于處理,需要標(biāo)準(zhǔn)化和結(jié)構(gòu)化的表示。
表七 代表著作中的網(wǎng)絡(luò)攻擊策略、技術(shù)和程序
與開放領(lǐng)域語料庫相比,網(wǎng)絡(luò)安全語料庫缺乏注釋,這意味著 NLP 社區(qū)需要投入更多的注意力和精力。Husari等[48]利用基于本體的方法,根據(jù)網(wǎng)絡(luò)殺傷鏈對TTP相關(guān)術(shù)語進(jìn)行梳理。在工作[47]中,NER與人工驗(yàn)證一起使用,以保證電子商務(wù)TTP領(lǐng)域下關(guān)鍵輸出的質(zhì)量。通過使用機(jī)器學(xué)習(xí),TTP可以從以前的TTP自動生成,作為基本事實(shí),新的上下文不斷提高TTP的精度。從[48]和[47]中提取的TTP涉及不同的語言,分別是英文和中文。依賴分析和語言處理在很大程度上依賴于語言模式。例如,語言處理的一個關(guān)鍵先決條件是單詞的分割。在亞洲語言(如中文、日語和泰語)中,單詞不像英語那樣用空格分隔。然而,TTP也可以從英語以外的語言中提取。人們非常期待在該領(lǐng)域跨語言提取和轉(zhuǎn)換 TTP。
盡管基于ML的方法在發(fā)現(xiàn)TTP方面表現(xiàn)不錯,但由于其黑盒性質(zhì),這些方法在提高準(zhǔn)確性和解釋結(jié)果方面面臨挑戰(zhàn)。目前的提取方法存在三個主要局限性,即數(shù)據(jù)不足、驗(yàn)證不完整和過程復(fù)雜。雖然識別方法決定了分類的準(zhǔn)確性,但它們并不能提供其預(yù)測背后的推理。需要一種簡單而全面的方法,將數(shù)據(jù)解釋和高精度相結(jié)合,以獲得TTP標(biāo)簽和證據(jù)的完整圖片。
C. 黑客概況
這是網(wǎng)絡(luò)安全攻擊者和防御者之間永無止境的游戲。通過利用各種資源,攻擊者在執(zhí)行黑客活動時變得更加高效和智能。為了更好地計(jì)算黑客攻擊企圖,重要的是要確定威脅參與者的來源和資源。本節(jié)回顧了挖掘CTI以識別黑客檔案的工作,包括網(wǎng)絡(luò)威脅歸因和黑客資產(chǎn)。
1)代表工作總結(jié):
識別對攻擊負(fù)責(zé)的實(shí)體很復(fù)雜,通常需要有經(jīng)驗(yàn)的安全專家的協(xié)助[61]。根據(jù)Hettema[62]的說法,由于互聯(lián)網(wǎng)的技術(shù)架構(gòu)和地理環(huán)境,歸因是與新興領(lǐng)域相關(guān)的最棘手的問題之一。如表八所示,在不同的網(wǎng)絡(luò)場景(如移動惡意軟件、金融科技安全)下,對應(yīng)的攻擊者檔案與歸屬和資產(chǎn)相得益彰。
表八 挖礦黑客簡介代表著作
Grisham等[60]以移動惡意軟件威脅行為者為出發(fā)點(diǎn),使用長短期記憶(LSTM)RNN架構(gòu)在在線黑客論壇中識別CTI的移動惡意軟件附件。此外,本研究還進(jìn)一步利用了社會網(wǎng)絡(luò)分析[60],通過了解威脅行為者的社會群體和能力來識別關(guān)鍵威脅行為者。通過使用網(wǎng)絡(luò)和圖論,社會網(wǎng)絡(luò)分析研究了社會結(jié)構(gòu)[63]。網(wǎng)絡(luò)結(jié)構(gòu)的特征是節(jié)點(diǎn)(即單個參與者)和它們之間的邊緣(即關(guān)系或相互作用)。特別是,在工作[60]中,對于論壇上下文,包含兩種不同類型節(jié)點(diǎn)的雙模式網(wǎng)絡(luò)(即與事件節(jié)點(diǎn)相關(guān)的參與者節(jié)點(diǎn))被轉(zhuǎn)移到單模式網(wǎng)絡(luò),參與者通過共享線程中的帖子相互鏈接。因此,計(jì)算威脅行為者網(wǎng)絡(luò)的潛在中心性度量(例如,緊密性、中介性)并進(jìn)一步識別工作中的關(guān)鍵威脅行為者是適應(yīng)性的[60]。但是,同一惡意軟件有可能被多個參與者重復(fù)使用。使用惡意軟件進(jìn)行攻擊的參與者可能與惡意軟件的作者不同。除了使用的惡意軟件外,還可以從事件期間收集的信息中收集有關(guān)攻擊者身份的許多線索。Perry等[58]提出了一種基于CTI報告的名為SMOBI(即SMOthed BInary向量)的攻擊歸因識別方法,以識別以前未見過的新型威脅行為者以及已知威脅行為者之間的相似性。基于詞嵌入的網(wǎng)絡(luò)安全相關(guān)文檔的向量表示(即基于20,630篇網(wǎng)絡(luò)安全文章和帖子生成的特定領(lǐng)域詞嵌入)[58]以增強(qiáng)算法并充分發(fā)揮所提出的攻擊歸因識別方法的潛力。
為了防御數(shù)據(jù)泄露,工作[56]利用直接來自地下黑客社區(qū)的黑客源代碼、教程和附件來識別惡意資產(chǎn),如加密器、鍵盤記錄器、SQL注入和密碼破解程序,以開發(fā)主動CTI。在他們的工作[56]中,實(shí)現(xiàn)了分類模型,如支持向量機(jī)(SVM),對編碼語言進(jìn)行分類。之后,LDA被用來分析論壇的代碼,以及評論、帖子內(nèi)容和附件,以識別惡意話題。作為最后一步,與惡意主題相關(guān)的元數(shù)據(jù)用于構(gòu)建社交網(wǎng)絡(luò),以識別已識別惡意主題的歸屬(即關(guān)鍵黑客)。
銀行和金融部門通常是出于財務(wù)動機(jī)的網(wǎng)絡(luò)威脅行為者(CTA)的“首選目標(biāo)”[64]。因此,確保金融科技 (FinTech) 受到保護(hù)并免受來自不同 CTA 的復(fù)雜網(wǎng)絡(luò)攻擊,包括國家支持或國家附屬行為者,是必要和緊迫的。Noor等[57]開發(fā)了一個基于機(jī)器學(xué)習(xí)的金融科技CTA框架。在他們的工作[57]中,根據(jù)通過自然語言處理從CTI報告中提取的高級攻擊模式(例如,從ATT&CK [49] MITRE [49]中提取的策略,技術(shù)和程序)對網(wǎng)絡(luò)威脅行為者進(jìn)行了分析。具有深度學(xué)習(xí)的分類模型的準(zhǔn)確率為94%。
2)討論:
建立黑客檔案具有挑戰(zhàn)性,因?yàn)樗麄兛偸窃噲D隱藏自己的身份和他們在黑客攻擊中使用的資產(chǎn)。為了對黑客進(jìn)行分析,對來自各種CTI的數(shù)據(jù)源進(jìn)行了混合分析,包括代碼分析、惡意軟件附件分析、文檔(例如,地下論壇中的帖子和評論)和網(wǎng)絡(luò)分析,如表八所示。
為了有效,可操作的CTI不僅應(yīng)包括傳統(tǒng)的內(nèi)部方法,還應(yīng)包括外部的開放信息[65]。這使 CTI 能夠更加主動地識別威脅,在威脅發(fā)生之前識別威脅,幫助了解攻擊者并識別黑客策略。有必要將數(shù)據(jù)與上下文信息相結(jié)合,以提供相關(guān)的威脅(即具有外部知識的內(nèi)部事件)。特別是,在線黑客論壇是一個豐富的外部數(shù)據(jù)源,可用于開發(fā)主動式 CTI。黑客使用許多場所進(jìn)行交流和共享信息,包括互聯(lián)網(wǎng)中繼聊天(IRC)、梳理店、暗網(wǎng)市場和黑客論壇[66]。地下論壇或黑客論壇是黑客可以自由分享惡意工具(例如惡意附件)的方式之一[67],它為了解威脅行為者的運(yùn)作方式和建立黑客檔案提供了實(shí)用資源。研究人員發(fā)現(xiàn),關(guān)鍵黑客(例如,論壇版主或高級成員)對他們的社區(qū)做出了重大貢獻(xiàn)[68]。因此,通過與其他黑客的互動找到關(guān)鍵威脅參與者并識別他們的團(tuán)體至關(guān)重要。
D. 妥協(xié)指標(biāo)
入侵指標(biāo) (IOC) 可作為系統(tǒng)或網(wǎng)絡(luò)潛在入侵的取證證據(jù)。信息安全專業(yè)人員和研究界可以使用這些工件來檢測入侵企圖或其他惡意活動。此外,IOC 還提供可在社區(qū)內(nèi)共享的可操作威脅情報,以提高事件響應(yīng)和補(bǔ)救效率。本節(jié)回顧了挖掘CTI以提取IOC及其關(guān)系的工作。
1)代表工作總結(jié):
年,網(wǎng)絡(luò)攻擊正在廣泛蔓延并造成嚴(yán)重后果,包括數(shù)據(jù)泄露、經(jīng)濟(jì)損失、硬件損壞等[76]。鑒于網(wǎng)絡(luò)攻擊的傳播速度很快,必須根據(jù)記錄的網(wǎng)絡(luò)攻擊事件報告和日志文件,主動制定預(yù)防方法。IOC 是用于識別組織系統(tǒng)上潛在惡意活動(例如系統(tǒng)日志條目或文件)的取證數(shù)據(jù)。IOC的示例包括攻擊者名稱、漏洞、IP/域、哈希(MD5、SHA1等)、文件名和地址以及服務(wù)器[69]。IOC 的使用有助于信息安全和 IT 專業(yè)人員檢測數(shù)據(jù)泄露、惡意軟件感染和其他威脅。在表IX中,我們總結(jié)了基于IOC獲得CTI的最新工作。
表九 關(guān)于妥協(xié)的采礦指標(biāo)的代表性著作
工作[69]提出了從非結(jié)構(gòu)化文本中自動提取IOC。Liao等[69]提出了一種方法,首先抓取博客并刪除不相關(guān)的文章。在將每篇文章拆分為多個句子后,該方法應(yīng)用上下文術(shù)語和正則表達(dá)式來查找這些句子可能具有 IOC。這項(xiàng)工作[69]首先提出了一種方法,將IOC候選者及其之間的關(guān)系轉(zhuǎn)換為圖挖掘問題,以便根據(jù)圖相似性檢測關(guān)系。對于這兩部作品,查找 IOC 文章和提取 IOC 和關(guān)系的精度最高可達(dá) 98%。
雙向長短期記憶神經(jīng)網(wǎng)絡(luò) (BiLSTM) 和條件隨機(jī)場 (BiLSTM-CRF) 旨在處理名稱實(shí)體識別任務(wù),這些任務(wù)已被證明應(yīng)用于 IOC 識別領(lǐng)域。周等[70]是第一個將BiLSTM-CRF應(yīng)用于攻擊報告中的IOC提取的人。所提出的方法[70]使用基于注意力和Word2Vec嵌入對輸入序列進(jìn)行編碼。這項(xiàng)工作[70]即使使用一些標(biāo)記拼寫功能限制了訓(xùn)練數(shù)據(jù)的數(shù)量,也能很好地發(fā)揮作用。自動提取和標(biāo)記IOC的平均工作精度[70]為90.4%?;谥艿萚70]的工作,Long等[71]使用BiLSTM方法改進(jìn)了神經(jīng)網(wǎng)絡(luò)模型,使用了多頭自注意力模塊以及更多特征,并將其方法應(yīng)用于英文和中文數(shù)據(jù)集。該模型[71]具有更多的標(biāo)記特征,用于提高有限數(shù)量數(shù)據(jù)的性能,包括拼寫特征、上下文特征和特征的使用(即拼寫特征和上下文特征的連接)。該模型在從英文和中文數(shù)據(jù)集中識別IOC的工作中的平均精度得分分別為93.1%和82.9%。此外,工作[72]提出了一種多粒度注意力Bi-LSTM-CRF模型,用于從多源威脅文本中提取不同粒度的IOC,并使用異構(gòu)信息網(wǎng)絡(luò)(HIN)對IOC的上下文進(jìn)行建模。該研究[72]手動定義了元路徑,以呈現(xiàn)多個IOC之間的關(guān)系,以便更好地探索上下文,重點(diǎn)關(guān)注六種常見的IOC類別,包括攻擊者、漏洞、設(shè)備、平臺、惡意文件和攻擊類型。在IOC提取工作中,最高精度為99.86%,盡管提取不同的項(xiàng)目精度不同。在所有試驗(yàn)方法中,多粒度模型的威脅實(shí)體識別精度為98.72%。
鑒于網(wǎng)絡(luò)攻擊中使用的多階段和多樣的技術(shù),知識圖譜在全面描述整個攻擊過程和識別與其他攻擊的相似之處方面具有明顯的優(yōu)勢。例如,Li等[75]提出了AttacKG,這是一種新方法,用于聚合來自多個CTI報告的威脅情報,并創(chuàng)建一個攻擊圖,在技術(shù)層面總結(jié)攻擊工作流程。他們[75]引入了技術(shù)知識圖譜(TKG)的概念,通過總結(jié)攻擊圖中的因果技術(shù)來描述CTI報告中的完整攻擊鏈。Li等[75]解析了CTI報告,以提取與攻擊相關(guān)的實(shí)體和依賴關(guān)系,并使用了基于MITRE ATT&CK [49]知識庫中的過程示例構(gòu)建的技術(shù)模板。然后設(shè)計(jì)了一個修訂后的圖形對齊算法,以匹配攻擊圖中的技術(shù)模板,對齊和優(yōu)化實(shí)體,并構(gòu)建 TKG。該技術(shù)模板在 CTI 報告中聚合來自真實(shí)世界攻擊場景的新情報,攻擊圖利用這些知識創(chuàng)建 TKG,以增強(qiáng)知識介紹報告。
從CTI數(shù)據(jù)中提取整個攻擊過程具有挑戰(zhàn)性,盡管這是了解黑客活動和制定防御策略的先決條件。幸運(yùn)的是,可以通過識別 IOC 及其關(guān)系來預(yù)測攻擊過程。Zhu 和 Dumitras [73] 以及 Liu 等人 [74] 將惡意軟件傳播活動分為不同的階段,以便更好地分析攻擊過程。Zhu和Dumitras[73]采用自然語言工具包(Natural Language ToolKit,NTLK)和Stanford CoreNLP將句子表示為有向圖,以描述IOC之間的行動。采用Word2Vec計(jì)算語義相似度,采用命名實(shí)體識別(NER)技術(shù)定位IOC候選者。設(shè)計(jì)了四個二元神經(jīng)網(wǎng)絡(luò)來對 IOC 進(jìn)行分類并確定候選者是否是 IOC。STIX [54]的四個階段(即誘餌、開發(fā)、安裝和命令與控制)將該過程定義為一組指標(biāo)和工作階段[73]??傊?#xff0c;研究[73]在檢測IOC方面取得了91.9%的最高精度得分,在對活動階段進(jìn)行分類方面的平均精度為78.2%。類似地,Liu等[74]設(shè)計(jì)了一個觸發(fā)增強(qiáng)系統(tǒng),從非結(jié)構(gòu)化文本中生成CTI,提取IOC,并描述IOC和活動之間的聯(lián)系。特別是,在抓取報告和預(yù)處理后,系統(tǒng)[74]利用正則表達(dá)式和微調(diào)BERT模型來識別IOC。這項(xiàng)工作[74]重點(diǎn)研究了六種常見的IOC(即IP地址、域名、URL、哈希、電子郵件地址和CVE)。通過IOC和相關(guān)句子,觸發(fā)向量可以高度解釋競選階段。該系統(tǒng)在對活動階段進(jìn)行分類的工作中可以達(dá)到的最高精度為 86.55%。
2)討論:
如表X所示,調(diào)查研究中的所有六項(xiàng)研究都采用了數(shù)據(jù)預(yù)處理(例如,將圖像轉(zhuǎn)換為文本,將文本分解為句子等),IOC候選物識別以及IOCs之間關(guān)系提取的方法。
表十 挖掘關(guān)鍵步驟總結(jié):入侵指標(biāo)及其關(guān)系
表十一 漏洞挖掘和惡意軟件實(shí)施的代表性著作
表十二 威脅搜尋代表性著作
在國際奧委會候選人的識別中,所有六項(xiàng)研究都使用REGular EXpression(即REGEX)作為一種快速有效的方法,搜索具有特定格式的單詞或模式作為標(biāo)記拼寫特征,以選擇國際奧委會候選人。設(shè)計(jì)一組好的 REGEX 有助于快速識別 IOC 候選術(shù)語并提高模型的性能。
在這六項(xiàng)著作中,關(guān)系提取的方法可以分為以下幾類:1.將IOC句子轉(zhuǎn)換為依賴圖或樹,并發(fā)現(xiàn)IOC之間的關(guān)系[69],[73]。2.將那些能夠呈現(xiàn)相鄰詞特征的詞視為上下文關(guān)鍵詞,并從IOC候選詞的關(guān)鍵詞中生成上下文特征[70],[71]。3. 創(chuàng)建元路徑來描述多個 IOC 之間的關(guān)系鏈 [72]。依賴關(guān)系樹是一個有向圖,可以表示句子中所有單詞之間的關(guān)系。但是,依賴關(guān)系樹可以表示句子中的每個單詞,包括無用的單詞。上下文功能捕獲每個 IOC 周圍的上下文,但是,在某些情況下,它需要找到難以與 IOC 術(shù)語區(qū)分開來的關(guān)鍵字。元路徑方法可以很容易地提取IOC之間的關(guān)系,但元路徑需要手動定義,并且元路徑的數(shù)量會隨著IOC類型數(shù)量的增加而呈指數(shù)增長[77]。預(yù)計(jì)這些方法將被組裝成一種有效的方法,可以推廣到各種類型的IOC關(guān)系提取。
值得一提的是,大多數(shù)綜述研究主要集中在IOC識別上,少數(shù)研究集中在關(guān)系提取上。未來研究的一個可能方向是根據(jù)提取的 IOC 及其關(guān)系預(yù)測可能損壞我們的硬件或軟件的網(wǎng)絡(luò)攻擊。提取攻擊的詳細(xì)信息和特征,包括但不限于攻擊類型、漏洞利用和目標(biāo)受害者,可以生成攻擊報告,供網(wǎng)絡(luò)安全專家預(yù)測網(wǎng)絡(luò)攻擊并制定防御策略。例如,使用 IOC 和關(guān)系定期構(gòu)建一系列知識圖譜,然后通過挖掘圖之間的變化并預(yù)測下一個可能的事件來學(xué)習(xí)進(jìn)化圖譜是一個可行的解決方案。
E. 漏洞利用和惡意軟件實(shí)施
暴露于網(wǎng)絡(luò)安全風(fēng)險和惡意軟件威脅變得越來越普遍和危險。有各種各樣的漏洞可能導(dǎo)致數(shù)據(jù)泄露,威脅代理可以利用它們來破壞安全網(wǎng)絡(luò)。盡管使用代碼語義對漏洞和惡意軟件檢測給予了極大的關(guān)注,但在發(fā)現(xiàn)有關(guān)漏洞利用和惡意軟件實(shí)施的實(shí)用信息方面,挖掘代碼之外的 CTI 源是有限的。在本節(jié)中,我們?nèi)婊仡櫫送ㄟ^CTI挖掘成功識別可能被利用的漏洞和惡意軟件實(shí)施的代表性作品。
1)代表工作總結(jié):
最近,被利用的軟件漏洞數(shù)量有所增加。漏洞是網(wǎng)絡(luò)犯罪分子可以利用的弱點(diǎn),以未經(jīng)授權(quán)訪問計(jì)算機(jī)系統(tǒng)。利用漏洞可導(dǎo)致惡意代碼被運(yùn)行、惡意軟件安裝以及敏感數(shù)據(jù)被網(wǎng)絡(luò)攻擊竊取。因此,有必要通過評估哪些漏洞可能被利用并排除那些沒有被利用的漏洞來優(yōu)先應(yīng)對新的披露。此外,惡意軟件檢測越來越依賴于專注于代碼語義的機(jī)器學(xué)習(xí)技術(shù),以便將惡意軟件與良性軟件區(qū)分開來。例如,人類的直覺和知識是這些技術(shù)有效性的關(guān)鍵。鑒于攻擊者試圖逃避檢測,以及有關(guān)在線惡意軟件行為的可用資源越來越多,特征工程可能會利用這些來源的一小部分。因此,預(yù)計(jì)將查閱多個數(shù)據(jù)源,以獲取有關(guān)代碼本身之外的漏洞利用和惡意軟件實(shí)施的知識。
在工作[78]中,Sabottke等人研究了野外與漏洞相關(guān)的信息,以便在漏洞公開披露之前進(jìn)行早期漏洞檢測。該研究挖掘了Twitter上傳播的大量包含網(wǎng)絡(luò)安全漏洞信息的信息,并構(gòu)建了一個機(jī)器學(xué)習(xí)模型,以檢測哪個漏洞在現(xiàn)實(shí)世界中更有可能被利用。除了挖掘推文文本的單詞特征和Twitter流量的統(tǒng)計(jì)特征外,還收集了來自國家漏洞數(shù)據(jù)庫(NVD)[22]和開源漏洞數(shù)據(jù)庫(OSVDB)[85]的信息,并將其用于漏洞檢測器。據(jù)我們所知,這項(xiàng)工作[78]是第一個使用社交媒體早期檢測現(xiàn)實(shí)世界漏洞的技術(shù)。此外,Nunes等[86]開發(fā)了一個操作系統(tǒng),用于收集和識別來自暗網(wǎng)和深網(wǎng)討論的漏洞利用和惡意軟件開發(fā)信息,特別是來自黑客論壇和市場的信息。在實(shí)時從網(wǎng)頁中提取和構(gòu)建信息后,他們[86]結(jié)合了監(jiān)督和半監(jiān)督方法,以發(fā)現(xiàn)與惡意黑客相關(guān)的產(chǎn)品和主題。這提供了有關(guān)尚未在網(wǎng)絡(luò)攻擊中部署的新開發(fā)的惡意軟件和漏洞利用的威脅警告。由于暗網(wǎng)和深網(wǎng)上可用的標(biāo)記數(shù)據(jù)有限,所提出的方法需要更少的專業(yè)知識和成本,從而達(dá)到了 80% 的精度。
為了檢測惡意軟件,研究人員提出了越來越多的源自人類知識和直覺的特征,這些特征用于表征惡意軟件行為。由于攻擊者努力逃避檢測和有關(guān)惡意軟件行為的出版物不斷增加,特征工程過程可能會利用一小部分可用數(shù)據(jù)。為了從大量關(guān)于惡意軟件行為的CTI中獲得更大的收益,Zhu和Dumitra?提出的FeatureSmith[79]采用科學(xué)論文作為信息來源,自動發(fā)現(xiàn)和收集惡意軟件檢測功能。通過數(shù)據(jù)收集、文獻(xiàn)行為提取、行為過濾和加權(quán)、語義網(wǎng)絡(luò)構(gòu)建、特征生成和解釋生成等管道,FeatureSmith 識別了與惡意軟件相關(guān)的抽象行為,然后將它們呈現(xiàn)為惡意軟件檢測的具體特征。作為概念驗(yàn)證,FeatureSmith 的自動設(shè)計(jì)功能在檢測真實(shí)世界的 Android 惡意軟件方面沒有性能損失,與手動生成的最先進(jìn)的功能集相比,真陽性率為 92.5%,誤報率為 1%。
最近的文獻(xiàn)探討了 NLP 如何顯著提高人類對網(wǎng)絡(luò)安全環(huán)境的理解。在漏洞利用和惡意軟件實(shí)施領(lǐng)域,工作[80]引入了一種注釋惡意軟件報告的方法,該方法提供了文本的語義級信息,并幫助研究人員快速了解特定惡意軟件的功能。Lim 等人使用惡意軟件屬性枚舉和表征 (MAEC) 詞匯表中的屬性標(biāo)簽注釋了高級持續(xù)威脅 (APT) 報告,作為 NLP 任務(wù)的基本事實(shí)。他們首先對句子是否與惡意軟件相關(guān)進(jìn)行分類,然后根據(jù)描述惡意軟件的文本預(yù)測標(biāo)記、標(biāo)記之間的關(guān)系、屬性標(biāo)簽和惡意軟件簽名。此外,[81]的工作利用了各種資源,包括未標(biāo)記的文本、人工注釋和關(guān)于惡意軟件屬性的規(guī)范(即MAEC詞匯)來進(jìn)行惡意軟件歸屬識別。WAE(Word Annotation Embedding)用于對異構(gòu)信息進(jìn)行編碼。在SemEval SecureNLP分類任務(wù)[87]上測試的結(jié)果表明,在所提出的注釋方法生成的特征上訓(xùn)練的模型優(yōu)于[80]提出的注釋方法以及[88]學(xué)習(xí)的嵌入特征。
在最近的研究中,已經(jīng)表明軟件文檔可用于預(yù)測軟件漏洞,而無需完全依賴程序代碼。Chen等[82]開發(fā)了一種工具,可以自動檢查系統(tǒng)安全規(guī)范文檔,而不是依靠程序代碼分析(例如模型檢查)來預(yù)測支付聯(lián)合服務(wù)中的邏輯漏洞。他們根據(jù)支付模型和支付服務(wù)的安全要求,探索了使用NLP從聯(lián)合開發(fā)人員指南中發(fā)現(xiàn)邏輯漏洞。他們擴(kuò)展了有限狀態(tài)機(jī)(FSM),該機(jī)通常是手動提取的,用于評估支付服務(wù),方法是使用開發(fā)人員指南中的依賴關(guān)系解析樹來提取參與流程的各方以及他們之間傳輸?shù)膬?nèi)容。針對所提出的方法對特定于軟件文檔的 NLP 技術(shù)進(jìn)行了微調(diào)。此外,Chen等[83]不斷應(yīng)用NLP技術(shù),包括文本蘊(yùn)涵和依賴解析,來分析地窖網(wǎng)絡(luò)的長期演化(LTE)文檔,以查找危害指標(biāo)(HIs)。在LTE非接入層文檔中共發(fā)現(xiàn)了42個漏洞,并通過Chen等[83]提出的方法向授權(quán)方報告,證明了這種漏洞查找方法的有效性。
此外,知識圖譜 (KG) 有助于將自由文本網(wǎng)絡(luò)安全轉(zhuǎn)換為更具結(jié)構(gòu)化的格式,并具有語義豐富的知識表示見解。Piplai等[84]提出了一個基于惡意軟件后行動報告(AAR)的網(wǎng)絡(luò)安全KG示例,其中包含對網(wǎng)絡(luò)安全事件的深刻分析,并因此向安全分析師提供可靠的信息。AAR 可以通過將模式與預(yù)定義事件進(jìn)行匹配來幫助處理未識別的網(wǎng)絡(luò)安全事件,因?yàn)樗鼈兲峁┝擞嘘P(guān)檢測和緩解技術(shù)的關(guān)鍵數(shù)據(jù)。具體來說,在工作[84]中,基于Stanford NER [89]的惡意軟件實(shí)體提取器是為構(gòu)建網(wǎng)絡(luò)安全KG而創(chuàng)建的,并且它基于CVE和安全博客的數(shù)據(jù)進(jìn)行訓(xùn)練,以識別網(wǎng)絡(luò)安全KG所需的實(shí)體。
2)討論:
面對龐大的源代碼和技術(shù)的進(jìn)步,自動化漏洞分析和檢測已成為當(dāng)前的研究熱點(diǎn)。對漏洞和惡意軟件檢測的研究預(yù)計(jì)將從分析源代碼擴(kuò)展到從多個數(shù)據(jù)源挖掘 CTI。如果可以挖掘有關(guān)漏洞利用和惡意軟件實(shí)施的見解知識,它將顯著增強(qiáng)識別、優(yōu)先排序和修復(fù)漏洞的能力。
及早識別漏洞可以防止與其利用漏洞相關(guān)的災(zāi)難性后果。有關(guān)漏洞和惡意軟件的信息可在各種來源獲得,包括開源和機(jī)密數(shù)據(jù)。有幾個關(guān)于漏洞和惡意軟件的結(jié)構(gòu)化和半結(jié)構(gòu)化信息存儲庫,包括 NVD [22]、IBM 的 XFORCE [90]、US-CERT 的漏洞說明數(shù)據(jù)庫 [91] 等。非正式來源,如計(jì)算機(jī)論壇、黑客博客、社交媒體等,也為這些知識庫做出了貢獻(xiàn)。雖然這些非結(jié)構(gòu)化來源嘈雜、冗余,并且通常包含錯誤信息,但它們可以被挖掘和匯總,以跟蹤新惡意軟件和漏洞的傳播,并提醒安全專家采取行動。ML 和 NLP 技術(shù)使強(qiáng)大的自動特征提取技術(shù)能夠從文檔中挖掘特征,使其成為更可行和及時的策略,以識別相關(guān)語義信息并了解多個數(shù)據(jù)源中的漏洞,從而取代手動檢測。
F. 威脅搜尋
威脅搜尋是主動搜索潛伏在網(wǎng)絡(luò)中未被發(fā)現(xiàn)的網(wǎng)絡(luò)威脅的做法。根據(jù)IBM的定義,威脅搜尋是一種主動方法,用于識別組織網(wǎng)絡(luò)中以前未知的或正在進(jìn)行的未修復(fù)威脅[59]。在威脅搜尋期間,將檢查可能被視為已解決但未解決或已遺漏的可疑活動模式。本節(jié)回顧了挖掘CTI以進(jìn)行威脅搜尋的工作。
1)代表工作總結(jié):
威脅搜尋的重要性在于,復(fù)雜的威脅可以通過自動化的網(wǎng)絡(luò)安全系統(tǒng)[100]。準(zhǔn)備充分的攻擊者將能夠滲透任何網(wǎng)絡(luò),并平均避免檢測長達(dá)280天[59]。攻擊者可以通過利用有效的威脅搜尋來減少入侵和發(fā)現(xiàn)之間的時間,從而減少損害。有關(guān)網(wǎng)絡(luò)安全威脅(例如,APT 活動中使用的惡意軟件)的知識包含在各種 CTI 資源中,并以各種格式呈現(xiàn),包括自然語言、結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化形式。由于黑客通常在網(wǎng)上開會討論最新的黑客技術(shù)或工具[101],工作[92]應(yīng)用文本挖掘來識別與在線聊天中出現(xiàn)的網(wǎng)絡(luò)威脅相關(guān)的術(shù)語,例如Twitter和暗網(wǎng)論壇。此外,[93]提出了一個歷時圖嵌入框架,該框架有助于動態(tài)捕獲黑客術(shù)語隨時間的演變。
然而,網(wǎng)絡(luò)威脅的碎片化視圖可以通過專注于提取與新興威脅相關(guān)的術(shù)語的方法進(jìn)行提取,例如簽名(例如,工件的哈希值)、文件名、IP 地址和時間戳。使用預(yù)定義的規(guī)則,例如使用啟發(fā)式方法關(guān)聯(lián)可疑威脅,我們可以發(fā)現(xiàn)新出現(xiàn)的威脅。很難且缺乏精確度,無法全面了解威脅是如何演變的,尤其是在很長一段時間內(nèi)。因此,最近的研究工作致力于關(guān)聯(lián)威脅術(shù)語(即 IOC 工件)之間的關(guān)系,并以圖表的形式表示攻擊者的步驟,其中包括有關(guān)攻擊行為的線索。在這種情況下,即使黑客更新了他們的策略(例如,簽名)來進(jìn)行攻擊,與僅專注于威脅術(shù)語相比,威脅搜尋仍然有效。Satvat等[94]從CTI報告中提取了攻擊行為的全貌,并將其表示為一個組來識別APT。通過所提出的方法[94],CTI報告中的復(fù)雜描述被處理為一個來源圖,其中節(jié)點(diǎn)表示實(shí)體(例如,域名,用戶名和文件),邊緣指向系統(tǒng)調(diào)用(例如,寫入,發(fā)送,解碼和記錄)。此外,Milajerdi等[96]通過在低級系統(tǒng)調(diào)用視圖和高級APT殺傷鏈視圖之間構(gòu)建中間層,彌合了它們之間的差距。中間層是基于 MITRE 的 ATT&CK [49] 威脅存儲庫建立的,該存儲庫描述了數(shù)百種定義為 TTP 的行為模式,該存儲庫總結(jié)了來自來源圖中節(jié)點(diǎn)和邊緣的觀察結(jié)果。
預(yù)計(jì)威脅情報將從多個來源收集信息,以提供更多見解。Gao等[95]提出了一種方法,描述了涉及不同類型的威脅基礎(chǔ)設(shè)施節(jié)點(diǎn)(即域名、IP地址、惡意軟件哈希和電子郵件地址)和邊緣(即節(jié)點(diǎn)之間的關(guān)系矩陣)的CTI實(shí)例。通過利用開源CTI(如CVE)[102]來發(fā)現(xiàn)利用同一漏洞的關(guān)系,可以發(fā)現(xiàn)兩個惡意軟件哈希之間的更多信息。使用異構(gòu)圖卷積網(wǎng)絡(luò),提出了一種基于威脅基礎(chǔ)設(shè)施相似度量的方法,用于建模和識別CTI中涉及的威脅(例如惡意代碼、僵尸網(wǎng)絡(luò)和未經(jīng)授權(quán)的訪問)[95]。在工作[95]中定義了元路徑和元圖,以從各種語義意義中捕獲節(jié)點(diǎn)之間的高級關(guān)系。Milajerdi等[97]采用一種新的相似性指標(biāo)來評估從IOC開放標(biāo)準(zhǔn)中提取的攻擊行為圖與從內(nèi)核審計(jì)日志中提取的系統(tǒng)行為圖之間的一致性。此外,GAO等人[99]創(chuàng)建的THREATRAPTOR系統(tǒng)通過使用開源網(wǎng)絡(luò)威脅情報(OSCTI)實(shí)現(xiàn)了威脅搜尋過程。該系統(tǒng)通過開發(fā)一個無監(jiān)督的 NLP 管道來實(shí)現(xiàn)這一點(diǎn),該管道從非結(jié)構(gòu)化的開源 CTI 中提取有組織的操作??梢允褂媒ㄗh的特定于域的查詢語言、查詢綜合機(jī)制和查詢執(zhí)行引擎毫不費(fèi)力地搜索這些有組織的操作。
2)討論:
隨著企業(yè)努力領(lǐng)先于最新威脅,跟上網(wǎng)絡(luò)威脅并快速響應(yīng)潛在攻擊變得越來越重要[103]。有效的威脅搜尋策略是主動搜索潛伏在網(wǎng)絡(luò)中未被發(fā)現(xiàn)的網(wǎng)絡(luò)威脅的策略。威脅搜尋深入挖掘目標(biāo)環(huán)境,以查找繞過其端點(diǎn)安全措施的惡意行為者。潛入網(wǎng)絡(luò)后,攻擊者可以訪問數(shù)據(jù)、機(jī)密信息或登錄憑據(jù),從而允許以后移動。一旦對手逃避檢測并穿透其防御,組織通常缺乏高級檢測功能來檢測高級持續(xù)性威脅。因此,威脅搜尋是任何防御策略的重要組成部分。因此,威脅搜尋是任何防御策略的重要組成部分。
在企業(yè)內(nèi)部進(jìn)行威脅搜尋存在一些挑戰(zhàn):(1)攻擊者通常會在很長一段時間內(nèi)執(zhí)行攻擊步驟,例如,在發(fā)現(xiàn)之前潛伏數(shù)月[59]。通過這種方式,可以通過竊取數(shù)據(jù)并暴露足夠的機(jī)密信息來進(jìn)一步訪問,從而引發(fā)重大數(shù)據(jù)泄露。因此,由于攻擊活動在很長一段時間內(nèi)發(fā)生,因此需要一種將相關(guān)IOC鏈接在一起的方法[104]。(2) 有效的威脅搜尋必須能夠識別攻擊活動是否會影響系統(tǒng),即使攻擊者修改了文件哈希和 IP 地址等工件以避免檢測。因此,穩(wěn)健的方法應(yīng)該發(fā)現(xiàn)整個威脅場景,而不是孤立地尋找匹配的IOC[24]。(3)為了讓網(wǎng)絡(luò)分析師及時分析和響應(yīng)威脅事件,該方法必須有效且不會產(chǎn)生許多誤報,以便可以啟動適當(dāng)?shù)木W(wǎng)絡(luò)響應(yīng)操作[97]。
為了克服上述限制并構(gòu)建強(qiáng)大的威脅搜尋檢測系統(tǒng),重要的是要考慮入侵指標(biāo)之間的相關(guān)性。CTI 報告以各種形式提供有關(guān)網(wǎng)絡(luò)安全威脅的信息,例如自然語言、結(jié)構(gòu)化和半結(jié)構(gòu)化。安全社區(qū)采用了 STIX [54] 和 OpenIOC [19] 等開放標(biāo)準(zhǔn),以促進(jìn) IOC 形式的 CTI 交換并實(shí)現(xiàn) TTP 的表征。標(biāo)準(zhǔn)對指標(biāo)或可觀察對象的描述通常說明了它們之間的關(guān)系,以便更好地感知攻擊[7]。IOC工件之間的關(guān)系為受感染系統(tǒng)內(nèi)部的攻擊提供了重要線索,這些線索與攻擊者的目標(biāo)有關(guān),因此很難改變[97]。
四、挑戰(zhàn)與未來方向
如第三節(jié)所述,許多調(diào)查提倡使用CTI挖礦來實(shí)現(xiàn)主動的網(wǎng)絡(luò)安全防御,但仍有許多挑戰(zhàn)需要解決。本節(jié)將深入探討該領(lǐng)域遇到的困難。為了應(yīng)對這些挑戰(zhàn),將根據(jù)第二節(jié)和圖 4 中描述的感知、理解和預(yù)測過程管道概述潛在的未來方向。
圖 4.網(wǎng)絡(luò)威脅情報挖掘的未來方向,用于主動安全防御。
A. 感知
1)未來方向1(從組合數(shù)據(jù)源中挖掘CTI):
近年來,在與公共數(shù)據(jù)相關(guān)的網(wǎng)絡(luò)安全事件規(guī)模不斷擴(kuò)大和備受矚目的影響下,我們已經(jīng)看到理解和防御不斷變化的網(wǎng)絡(luò)威脅的范式轉(zhuǎn)變,從主要是被動檢測到主動預(yù)測[24]。來自多個來源的網(wǎng)絡(luò)安全信息量正在迅速增加,包括開源網(wǎng)絡(luò)威脅情報和受限訪問的機(jī)密信息。
雖然大量的信息源使得挖掘比以往任何時候都更有價值的CTI成為可能,但威脅報告通常包含大量不相關(guān)的文本[105]。換句話說,報告中只有一小部分專門用于描述攻擊行為。例如,描述攻擊者的地理來源是有意義的。但是,如果未提供該信息,則無助于澄清攻擊活動中的攻擊行為。此外,在以前的研究中,大多數(shù)工作只使用一種數(shù)據(jù)來源,即使不同的研究使用不同的來源。例如,表III總結(jié)了最近在挖掘網(wǎng)絡(luò)安全相關(guān)實(shí)體和事件方面的工作,其中大多數(shù)工作僅使用來自單一來源的數(shù)據(jù)。
預(yù)計(jì)未來將通過聚合來自這些不同資源的信息,從多個數(shù)據(jù)源中提取 CTI。此外,預(yù)計(jì)將調(diào)查這些數(shù)據(jù)源之間的關(guān)系,以便通過使用有關(guān)CTI的多級信息(例如借助異構(gòu)知識圖譜)來提供攻擊活動的整體情況。此外,在提取 CTI 時,檢查與質(zhì)量相關(guān)的問題也很重要,例如誤報和一致性。
2)未來方向(質(zhì)量評估,以最大限度地發(fā)揮CTI的影響):
CTI 可以從各種來源獲得,包括但不限于政府機(jī)構(gòu)、安全供應(yīng)商、研究組織和開源信息。挑戰(zhàn)在于確定可信和可靠的CTI來源,因?yàn)樾畔⒌馁|(zhì)量可能差異很大。此外,CTI 的動態(tài)特性意味著信息在不斷變化和發(fā)展,因此在嘗試了解和預(yù)測潛在的網(wǎng)絡(luò)威脅時,仔細(xì)評估信息及其來源的質(zhì)量至關(guān)重要。收集高質(zhì)量的CTI是一項(xiàng)挑戰(zhàn),需要對信息來源有透徹的了解,并采用系統(tǒng)的方法來評估信息的可信度和可靠性,最終決定CTI的影響。
近年來,關(guān)于獲取CTI及其來源的質(zhì)量進(jìn)行了一些研究[106],[107],[108]。例如,Schaberreiter等[106]和Griffioen等[107]提出了參數(shù)的定量評估,以評估CTI的質(zhì)量,如廣泛性、維護(hù)性、合規(guī)性、及時性、完整性等。Schlette等[108]提出了一系列質(zhì)量維度,并展示了如何使質(zhì)量評估透明化。網(wǎng)絡(luò)安全領(lǐng)域在不斷發(fā)展,對CTI及其質(zhì)量的探索是一個持續(xù)的追求。隨著對 CTI 動態(tài)和影響其質(zhì)量的因素的了解越來越多,組織可以更好地評估他們收到的 CTI,并就其安全態(tài)勢做出更明智的決策。持續(xù)開發(fā)評估 CTI 質(zhì)量的方法和框架將有助于確保組織能夠有效地使用 CTI 來改善其安全態(tài)勢。
此外,考慮CTI對評估其質(zhì)量和來源質(zhì)量的影響至關(guān)重要。CTI質(zhì)量的評估應(yīng)基于確鑿的證據(jù),而不是主觀意見。例如,在Liao等[69]的一項(xiàng)研究中,作者利用IOC跟蹤新出現(xiàn)的網(wǎng)絡(luò)威脅,并通過評估其IOC的全面性、及時性和可靠性來確定高質(zhì)量的情報來源。這種既考慮信息質(zhì)量又考慮其影響的綜合方法提供了對CTI的更全面的評估。開發(fā)一種系統(tǒng)和基于證據(jù)的方法來評估CTI及其來源的質(zhì)量,對于確保信息準(zhǔn)確可靠并可有效用于防范網(wǎng)絡(luò)攻擊至關(guān)重要。
3)未來方向3(具有領(lǐng)域特異性的上下文處理):
此外,所評價研究的假設(shè)之一是CTI報告的文本結(jié)構(gòu)遵循相對簡單的結(jié)構(gòu)[109]。例如,在語法上遵循特定的模式,假設(shè)網(wǎng)絡(luò)安全相關(guān)術(shù)語可以通過正則表達(dá)式捕獲,同時考慮到句子中主語、動詞和賓語形式的穩(wěn)定語法關(guān)系。事實(shí)上,CTI報告通常比大多數(shù)其他報告包含更復(fù)雜的特定領(lǐng)域上下文[110]。由于 CTI 報告的句法和語義結(jié)構(gòu)復(fù)雜、技術(shù)術(shù)語的普遍存在以及這些報告中缺乏適當(dāng)?shù)臉?biāo)點(diǎn)符號,這些因素很容易影響報告的解釋方式和攻擊行為的提取方式。
一些研究工作致力于創(chuàng)建網(wǎng)絡(luò)安全領(lǐng)域地面實(shí)況數(shù)據(jù)集。Satyapanich等[36]創(chuàng)建并發(fā)布了一個包含5種網(wǎng)絡(luò)安全攻擊類型1000個注釋的語料庫,從而為簡化從原始數(shù)據(jù)中提取網(wǎng)絡(luò)安全相關(guān)信息的過程和促進(jìn)特定領(lǐng)域基礎(chǔ)事實(shí)的發(fā)展奠定了基礎(chǔ)。Behzadan等[111]手動標(biāo)記了21,000條與網(wǎng)絡(luò)安全相關(guān)的推文,以備將來使用。此外,與一般的預(yù)訓(xùn)練模型(例如,word2vec [88],手套[40])相比,網(wǎng)絡(luò)安全特定的NER模型和詞嵌入(例如,由EmTaggeR [113]修改的sec2vec [112])被證明可以提高處理復(fù)雜領(lǐng)域特定上下文的性能[36],[114]。
B. 理解
1) 未來方向 4(邁向可理解、穩(wěn)健和可操作的 CTI 提取):
近年來,研究人員在從多個數(shù)據(jù)源提取CTI的自動化方面做出了重大貢獻(xiàn)[12]。然而,仍有一些挑戰(zhàn)需要克服:(1)由于經(jīng)驗(yàn)豐富的專業(yè)人員嚴(yán)重短缺,許多組織無法處理大量的CTI提要,導(dǎo)致他們負(fù)擔(dān)沉重。(2)由于攻擊者生成的虛假CTI,可能會發(fā)生誤報。此外,攻擊者可以利用虛假的 CTI 來破壞網(wǎng)絡(luò)防御系統(tǒng)。(3) 提取的 CTI 可能難以用于可操作的建議,例如,優(yōu)先考慮以下網(wǎng)絡(luò)安全防御行動。為了克服這些挑戰(zhàn),下一代CTI必須易于理解、穩(wěn)健和可操作。首先,易于理解的CTI為沒有強(qiáng)大網(wǎng)絡(luò)安全領(lǐng)域知識的人提供了對關(guān)鍵安全要素的解釋。例如,在工作[115]中,通過基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督方法從文本中提取和索引了15類與網(wǎng)絡(luò)安全事件相關(guān)的實(shí)體。提取與網(wǎng)絡(luò)安全相關(guān)的信息,例如安全事件的受影響日期、時間和組織,并用于解釋特定的網(wǎng)絡(luò)安全事件。通過對注釋實(shí)體的解釋,CTI 變得更容易訪問和理解,以便進(jìn)行進(jìn)一步分析。CTI 的可解釋性可以通過包含更多的實(shí)體和多樣性來提高,這些實(shí)體和多樣性將通過擴(kuò)大真實(shí)數(shù)據(jù)和嵌入補(bǔ)充語義特征來擴(kuò)展實(shí)體以與詞嵌入連接起來,從而促進(jìn) CTI 的解釋。此外,由于網(wǎng)絡(luò)安全事件與語言無關(guān),因此預(yù)計(jì)將研究將來自不同語言來源的非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化格式。
其次,強(qiáng)大的CTI確保提取的數(shù)據(jù)是真實(shí)的,而不是對手偽造的。偽造的CTI示例被用作腐敗網(wǎng)絡(luò)防御系統(tǒng)的輸入,攻擊者通過對錯誤輸入的訓(xùn)練模型來實(shí)現(xiàn)惡意需求[116]。最近的研究[116]表明,GPT-2轉(zhuǎn)換器生成的大多數(shù)虛假CTI樣本甚至被網(wǎng)絡(luò)安全專業(yè)人員和威脅獵人標(biāo)記為真實(shí)。生成轉(zhuǎn)換器通常產(chǎn)生的語言錯誤和不流暢性,但很少被期望作為提煉真正 CTI 的關(guān)鍵特征進(jìn)行探索和利用。為了檢測虛假的CTI樣本,通過分析用戶對真實(shí)和虛假網(wǎng)絡(luò)新聞的傳播和感知[117],確定的美學(xué)、可讀性、來源可信度、新穎性和傳播性等方面值得研究。
最后但并非最不重要的一點(diǎn)是,可操作的 CTI 提供與消費(fèi)組織相關(guān)且值得信賴的完整準(zhǔn)確信息。如果CTI與組織的運(yùn)營相關(guān)且值得信賴,提供完整準(zhǔn)確的信息,并且可以攝取到CTI共享平臺中,則CTI可以稱為可操作的[12]。CTI挖礦的輸出旨在提供可操作的建議,包括風(fēng)險緩解、安全實(shí)踐建議以及提取的CTI之間的關(guān)系建立。例如,在公開可用的安全數(shù)據(jù)集、建議和知識圖譜的幫助下,應(yīng)向用戶提供可操作的 CTI 輸出,這些數(shù)據(jù)集、建議和知識圖譜代表了各種 CTI 之間的關(guān)系。
2) 未來方向 5(CTI 發(fā)現(xiàn)不斷變化的威脅):
網(wǎng)絡(luò)防御工具不斷更新,變得越來越復(fù)雜[118]。然而,我們?nèi)匀幻媾R著對不斷演變的網(wǎng)絡(luò)威脅的緩慢反應(yīng),例如竊取我們信息的網(wǎng)絡(luò)釣魚、加密我們的數(shù)據(jù)并要求贖金作為交換的勒索軟件,以及破壞我們關(guān)鍵基礎(chǔ)設(shè)施的惡意軟件。確保及時、自動地發(fā)現(xiàn)來自公開來源(如黑客論壇和威脅報告)的不斷變化的威脅,對于幫助組織跟上不斷變化的威脅形勢至關(guān)重要。然而,現(xiàn)有的威脅情報提取技術(shù)忽略了網(wǎng)絡(luò)威脅不斷變化的性質(zhì)。人工智能的最新發(fā)展通過利用能夠適應(yīng)攻擊、生成變體和逃避檢測的對手來使問題復(fù)雜化:“這個進(jìn)攻性人工智能的新時代利用各種形式的機(jī)器學(xué)習(xí)來增強(qiáng)網(wǎng)絡(luò)攻擊,導(dǎo)致不可預(yù)測的、情境化的、更快的和更隱蔽的攻擊,這可能會削弱未受保護(hù)的組織”,Forrester Consulting [119]。
目前提取開源CTI的方法,使用各種NLP和機(jī)器學(xué)習(xí)ML技術(shù),例如文本記憶、信息提取、命名實(shí)體識別、決策樹和神經(jīng)網(wǎng)絡(luò),來了解不同網(wǎng)絡(luò)攻擊的手段和后果。然而,目前的CTI工作有三個主要局限性:(1)靜態(tài)和孤立的CTI很難描述威脅攻擊的動態(tài)和威脅事件的廣闊景觀;(2)CTI的碎片化視圖,如可疑域名和工件哈希值,很難幫助安全分析師追蹤企業(yè)中高級持續(xù)性威脅的目標(biāo);(3)CTI之間的相互依賴性,這可以幫助我們揭示威脅行為如何被探索的大圖景。此外,人工智能驅(qū)動的自適應(yīng)網(wǎng)絡(luò)攻擊帶來了更多的挑戰(zhàn),這些不同的攻擊變體可能會發(fā)展,多種網(wǎng)絡(luò)攻擊甚至可以合作導(dǎo)致大規(guī)模的有組織犯罪??偟膩碚f,CTI提取對企業(yè)和個人來說都是一項(xiàng)重大且具有挑戰(zhàn)性的任務(wù),目前的工作無法解決這一日益嚴(yán)重的國家情報和安全問題。因此,為了開發(fā)從異構(gòu)開源中自動提取相互關(guān)聯(lián)和不斷發(fā)展的CTI的重點(diǎn)理論和技術(shù),構(gòu)建動態(tài)CTI知識圖譜,以揭示網(wǎng)絡(luò)攻擊如何演變以及多種網(wǎng)絡(luò)攻擊如何協(xié)調(diào)滲透系統(tǒng),有望在復(fù)雜系統(tǒng)中實(shí)現(xiàn)及時響應(yīng)的網(wǎng)絡(luò)威脅搜尋。
C. 投影
1)未來方向6(實(shí)際CTI實(shí)施):
CTI采礦研究面臨的挑戰(zhàn)是將研究轉(zhuǎn)化為CTI的實(shí)際實(shí)施和應(yīng)用,并最大限度地展示其實(shí)際意義。市場上有許多 CTI 工具,有助于收集、分析和共享 CTI 數(shù)據(jù)。在對現(xiàn)有CTI工具的回顧中,我們將其歸納為四類:(1)可以訪問威脅情報并提供高級管理選項(xiàng)(例如,包括過濾、分析、查找相關(guān)性、搜索在內(nèi)的功能)的開源和企業(yè)工具。(2) CTI 協(xié)議集是一組用于描述和共享 CTI 信息的語言。(3)CTI的共享平臺。(4)根據(jù)收集的CTI進(jìn)行事件響應(yīng)系統(tǒng)。
盡管許多組織希望共享他們的 CTI,但預(yù)計(jì) CTI 交換的格式會得到普遍接受。例如,為了促進(jìn)CTI交換,MITRE開發(fā)了STIX方案[54],該方案被研究和CTI應(yīng)用廣泛采用。重要的是,數(shù)據(jù)格式必須與利益攸關(guān)方的不同系統(tǒng)兼容。為了及時交換CTI,必須避免不必要的數(shù)據(jù)轉(zhuǎn)換。
CTI共享背后的核心思想是,通過在利益相關(guān)者之間共享有關(guān)最新威脅和漏洞的信息,以及盡快實(shí)施補(bǔ)救措施,利益相關(guān)者將了解情況[8]。CTI 共享提供了一種在共享利益相關(guān)者之間建立態(tài)勢感知的新方法。此外,人們認(rèn)為有必要為未來的攻擊做好準(zhǔn)備,以便先發(fā)制人,而不是像目前的做法那樣對它們作出反應(yīng)。CTI共享有望成為未來組織共享信息的主動網(wǎng)絡(luò)安全的一個組成部分。以及時消費(fèi)和傳播信息的方式實(shí)施CTI共享方式將對行業(yè)大有裨益,其未來取決于對CTI的理解和補(bǔ)救措施的實(shí)施程度。
2) 未來方向 7(CTI 威脅初步緩解應(yīng)用):
通過從一開始就采取更積極主動、更具前瞻性的方法,公司可以應(yīng)對和減輕未來的中斷和網(wǎng)絡(luò)威脅[120]。積極預(yù)防威脅可以促進(jìn)對網(wǎng)絡(luò)安全戰(zhàn)略的完全控制。這有助于確定風(fēng)險的優(yōu)先級并相應(yīng)地解決它們。通過及早識別漏洞,并提前為最壞的情況做好準(zhǔn)備,我們將能夠在網(wǎng)絡(luò)事件中迅速果斷地采取行動。雖然主動措施有助于防止違規(guī)行為,但如果發(fā)生違規(guī)行為,則會采取被動措施。2020年,主動安全市場價值2081萬美元,預(yù)計(jì)到2026年將增長到4567萬美元[121]。
威脅緩解是降低來自 IT 系統(tǒng)的物理、軟件、硬件等威脅嚴(yán)重性的過程。從CTI挖礦應(yīng)用的角度來看,我們說明了如何以主動的方式緩解威脅。首先,收購的 CTI 可以協(xié)助制定涉及物理安全措施、培訓(xùn)和教育的組織戰(zhàn)略。其次,在使用技術(shù)實(shí)現(xiàn)來緩解威脅的網(wǎng)絡(luò)策略方面,從CTI監(jiān)控網(wǎng)絡(luò)活動和預(yù)測網(wǎng)絡(luò)攻擊是潛在的未來方向。例如,Shen等[122]通過使用來自商業(yè)入侵防御系統(tǒng)的安全事件數(shù)據(jù),預(yù)測了攻擊者將采取的執(zhí)行網(wǎng)絡(luò)攻擊的具體步驟。對為組織定制的特殊安全解決方案的需求也在上升。預(yù)計(jì)組織可以獲得專門的安全專業(yè)知識,這些專業(yè)知識可以輕松分析系統(tǒng)并在短時間內(nèi)將其安全性從零轉(zhuǎn)變?yōu)橹匾墑e。例如,在最近的研究工作中[123]提出了一種將異構(gòu)數(shù)據(jù)集成到定制和可理解的網(wǎng)絡(luò)安全信息中的創(chuàng)新方法,該方法可以應(yīng)用于網(wǎng)絡(luò)安全咨詢和專業(yè)化的安全解決方案。
3)未來方向8(CTI攻擊預(yù)防應(yīng)用):
最近,網(wǎng)絡(luò)威脅的數(shù)量不斷增加?,F(xiàn)在的惡意軟件數(shù)量是十年前的十倍。越來越多的安全組織開始收集威脅詳細(xì)信息并采取措施防止它們。因此,威脅預(yù)測對于檢測和防止?jié)撛诘墓艉蛽p失至關(guān)重要。
通過從外部來源收集大量CTI報告和論壇,并提取有用的信息,包括攻擊名稱、特征、攻擊可能探索的漏洞、對象等,可以預(yù)測威脅是否可能攻擊特定設(shè)備[72]。例如,如果有攻擊報告說明攻擊通過探索漏洞破壞了設(shè)備,并且組織的設(shè)備中存在相同的漏洞,則該攻擊也可能損壞組織設(shè)備。因此,安全專家能夠在可能發(fā)生的未發(fā)生攻擊之前應(yīng)用防御措施。
但是,此方法只能預(yù)測發(fā)生的攻擊,這意味著只能預(yù)測收集的文本中出現(xiàn)的攻擊和威脅。如何預(yù)測未發(fā)生的攻擊一直是一個問題和挑戰(zhàn)。
五、結(jié)束語
A. 經(jīng)驗(yàn)教訓(xùn)
網(wǎng)絡(luò)威脅情報 (CTI) 挖掘是一種強(qiáng)大的工具,可以為潛在的網(wǎng)絡(luò)威脅和攻擊提供有價值的見解,從而采取主動防御措施。為了生成強(qiáng)大且可操作的情報,我們需要使用不同的數(shù)據(jù)源進(jìn)行 CTI 挖掘,包括開源和機(jī)密信息。這涉及各種技術(shù),例如數(shù)據(jù)收集、預(yù)處理、特征提取和機(jī)器學(xué)習(xí)算法,必須仔細(xì)選擇和優(yōu)化這些技術(shù)才能獲得準(zhǔn)確可靠的結(jié)果。然而,CTI挖礦也有其挑戰(zhàn)。數(shù)據(jù)量大、復(fù)雜性高、需要實(shí)時分析,以及難以區(qū)分真正的威脅和誤報,都可能造成重大障礙。質(zhì)量控制在CTI挖掘中至關(guān)重要,以確保提取的情報的準(zhǔn)確性和一致性,避免根據(jù)不完整或不準(zhǔn)確的信息做出決策的風(fēng)險。CTI挖礦是一個持續(xù)的過程,需要不斷監(jiān)控和調(diào)整,以跟上快速發(fā)展的威脅形勢。盡管如此,它對學(xué)術(shù)界和工業(yè)界都有重大好處。這些措施包括改進(jìn)威脅檢測和響應(yīng)、增強(qiáng)網(wǎng)絡(luò)安全態(tài)勢以及提高對新出現(xiàn)的威脅和趨勢的認(rèn)識。總體而言,我們對CTI挖礦的最新作品的回顧表明,該領(lǐng)域是復(fù)雜且具有挑戰(zhàn)性的,但最終是有價值的,能夠增強(qiáng)我們抵御網(wǎng)絡(luò)攻擊的能力。
B. 結(jié)語
在本次調(diào)查中,我們詳細(xì)回顧了迄今為止發(fā)表的關(guān)于CTI采礦的最重要著作。在本文中,我們提出了一種基于CTI知識獲取目的對現(xiàn)有研究工作進(jìn)行組織和分類的分類方案,并強(qiáng)調(diào)了現(xiàn)有研究所采用的方法。根據(jù)擬議的分類方案,我們徹底審查和討論當(dāng)前的工作,包括網(wǎng)絡(luò)安全相關(guān)實(shí)體和事件、網(wǎng)絡(luò)攻擊策略、技術(shù)和程序、黑客概況、入侵指標(biāo)、漏洞利用和惡意軟件實(shí)施以及威脅追蹤。此外,我們還討論了當(dāng)前的挑戰(zhàn)和未來的研究方向。在過去的幾十年里,人們對CTI挖礦產(chǎn)生了極大的興趣,特別是用于主動網(wǎng)絡(luò)安全防御。許多人已經(jīng)注意到,每年都有大量的新技術(shù)和模型被開發(fā)出來。希望這項(xiàng)調(diào)查能幫助讀者了解該領(lǐng)域的關(guān)鍵方面,澄清最顯著的進(jìn)展,并為未來的研究提供啟示。