灤平縣建設(shè)局網(wǎng)站國際新聞快報(bào)
目錄
摘要
1. 引言
2. 相關(guān)工作
2.1. 立場檢測
2.2.機(jī)器人檢測
3.數(shù)據(jù)集預(yù)處理
3.1.數(shù)據(jù)收集和清理
3.2.專家注釋
?3.3. 質(zhì)量評估
3.4.特征分析
4. 數(shù)據(jù)集構(gòu)建
4.1.特征表示構(gòu)造
4.2.關(guān)系圖構(gòu)建
5. 實(shí)驗(yàn)
5.1.實(shí)驗(yàn)設(shè)置
5.2.基準(zhǔn)性能
5.3訓(xùn)練集大小的研究
5.4 社會(huì)圖關(guān)系分析
6. 結(jié)論
7. 補(bǔ)充資料
7.1.特征分析
?7.2. 不同 BERT 模型的影響
?7.3實(shí)驗(yàn)細(xì)節(jié)
?
論文鏈接:https://arxiv.org/pdf/2301.01123.pdf
摘要
? ? ? ? 社交媒體用戶立場檢測和機(jī)器人檢測方法的發(fā)展嚴(yán)重依賴于大規(guī)模和高質(zhì)量的基準(zhǔn)。
? ? ? ? gap: 然而,除了注釋質(zhì)量低之外,現(xiàn)有基準(zhǔn)通常具有不完整的用戶關(guān)系,抑制了基于圖的帳戶檢測研究。
? ? ? ? 方案:為了解決這些問題,我們提出了一個(gè)基于多關(guān)系圖的 Twitter 帳戶檢測基準(zhǔn) (MGTAB),這是第一個(gè)用于帳戶檢測的基于圖的標(biāo)準(zhǔn)化基準(zhǔn)。
????????據(jù)我們所知,MGTAB 是基于該領(lǐng)域最大的原始數(shù)據(jù)構(gòu)建的,擁有超過 155 萬用戶和 1.3 億條推文。
????????MGTAB 包含 10,199 個(gè)專家標(biāo)注用戶和 7 種關(guān)系類型,保證了高質(zhì)量的標(biāo)注和多樣化的關(guān)系。
????????在MGTAB中,我們提取了信息增益最大的20個(gè)用戶屬性特征和用戶推文特征作為用戶特征。
????????此外,我們對 MGTAB 和其他公共數(shù)據(jù)集進(jìn)行了全面評估。
????????我們的實(shí)驗(yàn)發(fā)現(xiàn),基于圖的方法通常比基于特征的方法更有效,并且在引入多重關(guān)系時(shí)表現(xiàn)更好。
????????通過分析實(shí)驗(yàn)結(jié)果,我們確定了帳戶檢測的有效方法,并提供了該領(lǐng)域未來潛在的研究方向。
????????我們的基準(zhǔn)和標(biāo)準(zhǔn)化評估程序可在以下網(wǎng)址免費(fèi)獲得:https://github.com/GraphDetec/MGTAB。
1. 引言
? ? ? ? 背景:(引入之前的數(shù)據(jù)集)隨著互聯(lián)網(wǎng)的不斷發(fā)展,社交網(wǎng)絡(luò)已經(jīng)成為人們?nèi)粘I缃簧钪斜夭豢缮俚囊徊糠帧?Twitter 是全球訪問量最大的社交網(wǎng)絡(luò)之一,為全球數(shù)十億用戶提供在線新聞和信息交流。由于可用性,許多帳戶檢測基準(zhǔn)是基于 Twitter 數(shù)據(jù)構(gòu)建的 [9,15,17,47]。
? ? ? ? 介紹立場檢測和機(jī)器人檢測:立場檢測和機(jī)器人檢測是帳戶檢測中的基本任務(wù)。立場檢測旨在檢測用戶對某個(gè)主題或主張的立場。它是假新聞檢測 [25、31]、聲明驗(yàn)證 [1、27] 和社交媒體輿論分析等應(yīng)用中的一項(xiàng)關(guān)鍵技術(shù)。機(jī)器人檢測對于檢測社交媒體上的信息操縱至關(guān)重要。社交機(jī)器人是由計(jì)算機(jī)程序 [60] 操作的自動(dòng)用戶帳戶,經(jīng)常被用來濫用社交媒體平臺(tái) [10, 19] 來操縱公眾輿論 [9-11, 60]。
? ? ? ? 前人方法局限性:大多數(shù)帳戶檢測方法僅使用社交媒體中的部分信息(例如帖子、注冊信息等)進(jìn)行分類。很少考慮用戶之間的聯(lián)系[24],這使得確保檢測準(zhǔn)確性具有挑戰(zhàn)性。在立場檢測中,沉默的用戶通常不會(huì)直接發(fā)帖,而是通過行為表達(dá)他們的立場,例如關(guān)注他人和喜歡帖子 [24]。然而,大多數(shù)研究只關(guān)注活躍用戶的發(fā)帖內(nèi)容而忽略沉默用戶[24]。需要使用社交圖的特征來更好地檢測沉默用戶的立場 [1]。在機(jī)器人檢測中,由于大多數(shù)研究忽略了機(jī)器人的社交圖特征,機(jī)器人可以通過復(fù)雜的策略模擬真實(shí)用戶來逃避基于特征的檢測方法[10]。
????????最近在帳戶檢測方面的工作 [14、18、38] 側(cè)重于利用用戶之間的關(guān)系,與基于特征的方法相比性能有所提高。然而,現(xiàn)有的數(shù)據(jù)集在支持基于圖的方法方面有幾個(gè)缺點(diǎn),如下所示:
????????(a) 注釋質(zhì)量低。以前的帳戶檢測數(shù)據(jù)集主要由眾包進(jìn)行注釋,而眾包工作者缺乏領(lǐng)域知識導(dǎo)致注釋中出現(xiàn)明顯的噪音 [15]。
????????(b) 不完整的用戶關(guān)系。沒有一個(gè)姿態(tài)檢測數(shù)據(jù)集明確提供用戶之間的圖結(jié)構(gòu),只有機(jī)器人檢測數(shù)據(jù)集 Cresci-15 [9]、TwiBot-20 [17] 和 TwiBot-22 [15] 包含明確的圖結(jié)構(gòu)。此外,Cresci-15 和 TwiBot-20 僅包含 2 種類型的用戶關(guān)系,這對于基于圖形的檢測方法是不夠的。??
????????(c) 復(fù)雜的用戶信息。社交媒體用戶信息多種多樣,但大多數(shù)信息對帳戶檢測影響不大?,F(xiàn)有數(shù)據(jù)集缺乏基本用戶信息的提取和組織,使帳戶檢測成為一個(gè)難題。??????
????????為了解決上述缺點(diǎn),我們提出了基于多關(guān)系圖的 Twitter 帳戶檢測基準(zhǔn) (MGTAB),這是一個(gè)用于立場和機(jī)器人檢測的大型標(biāo)準(zhǔn)化專家注釋數(shù)據(jù)集。MGTAB 包含 10,199 個(gè)由專家手動(dòng)注釋的用戶和 400,000 個(gè)密切相關(guān)的未注釋用戶。此外,MGTAB 通過計(jì)算信息增益 (IG) 和用戶推文特征提取了 20 個(gè)最有效的用戶屬性特征。最后,MGTAB 簡化了社交圖并構(gòu)建了一個(gè)具有 7 種關(guān)系的用戶網(wǎng)絡(luò)。
????????本文的貢獻(xiàn)如下:
????????我們介紹了 MGTAB,這是一種用于立場檢測和機(jī)器人檢測的大規(guī)模專家注釋基準(zhǔn)。所有注釋均由專家進(jìn)行,并通過交叉驗(yàn)證提高注釋質(zhì)量。與以前的數(shù)據(jù)集相比,注釋質(zhì)量得到了顯著提高。
????????我們發(fā)布了第一個(gè)包含屬性特征、用戶推文特征和 7 種用戶關(guān)系類型的標(biāo)準(zhǔn)化數(shù)據(jù)集。我們構(gòu)建了一個(gè)用戶級社交圖,可應(yīng)用于最先進(jìn)的基于圖的帳戶檢測方法,使帳戶檢測更簡單。 MGTAB 數(shù)據(jù)集的發(fā)布將促進(jìn)基于圖形的帳戶檢測新方法的開發(fā)。
????????為了構(gòu)建 MGTAB,我們收集了超過 155 萬 Twitter 用戶和 1.35 億條推文。據(jù)我們所知,它是該領(lǐng)域中最大的數(shù)據(jù)。我們進(jìn)行了細(xì)致的數(shù)據(jù)清洗,保留了 40 萬密切相關(guān)的未標(biāo)記用戶,支持半監(jiān)督學(xué)習(xí)與賬戶檢測研究相結(jié)合。
????????我們的實(shí)驗(yàn)表明,在大多數(shù)情況下,基于圖形的檢測方法比基于特征的方法更有效。此外,我們發(fā)現(xiàn),當(dāng)引入多個(gè)關(guān)系時(shí),基于圖的方法的性能得到改善。結(jié)果表明,未來的研究應(yīng)側(cè)重于使用多重關(guān)系。
2. 相關(guān)工作
2.1. 立場檢測
????????現(xiàn)有的立場檢測方法可分為基于特征的方法和基于圖的方法。
????????基于特征的方法。先前的研究工作 [56, 58, 62] 使用機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)方法,例如支持向量機(jī) (SVM)、循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) [62] 和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 來自動(dòng)從大量原始數(shù)據(jù)中學(xué)習(xí)潛在特征。最近的幾項(xiàng)工作 [31、39、40、45、57] 側(cè)重于在立場檢測中使用來自 transformers (BERT) [12] 的雙向編碼器表示。戈什等人?[20] 探索了基于遷移學(xué)習(xí)的立場檢測,Li 等人?[39] 探索了基于 BERT 的數(shù)據(jù)增強(qiáng)模型。
????????基于圖形的方法。大多數(shù)關(guān)于立場檢測的研究都使用基于文本的特征 [40、47、62]。最近的一些工作表明使用用戶網(wǎng)絡(luò)圖作為特征的有效性 [1, 35]。圖神經(jīng)網(wǎng)絡(luò) (GNN) [34, 55] 由于其出色的處理圖信息的能力,已成為賬戶檢測的首選模型。李等?[38] 首先通過基于 GNN 的架構(gòu)實(shí)現(xiàn)了立場和謠言檢測,可以有效地捕獲用戶交互特征。盡管 GNN 在立場挖掘中表現(xiàn)良好,但現(xiàn)有立場檢測數(shù)據(jù)集中缺乏圖結(jié)構(gòu)限制了基于圖的檢測方法的發(fā)展。
? ? ? ? 立場檢測數(shù)據(jù)集。我們在 Tab 1中總結(jié)了現(xiàn)有的 Twitter 立場檢測數(shù)據(jù)集。 SemEval-2016 T6 數(shù)據(jù)集 [47] 是第一個(gè)用于 Twitter 立場檢測的數(shù)據(jù)集,其中包含眾包注釋的主題推文對。 SemEval-2019 T7 [25] 包含有關(guān) Reddit 帖子和推文中各種事件的謠言。COVID-19-Stance [23] 由手動(dòng)注釋的推文組成,涵蓋用戶對與 COVID-19 健康要求相關(guān)的四個(gè)目標(biāo)的立場。COVIDLies [30]、COVMis-Stance [31] 也是與 COVID 相關(guān)的數(shù)據(jù)集。 P-STANCE [40] 是在 2020 年美國大選期間收集的政治領(lǐng)域的大型立場檢測數(shù)據(jù)集。Conforti 等人?[7] 構(gòu)建了 WT-WT,這是一個(gè)包含專家執(zhí)行的推文和注釋的金融數(shù)據(jù)集。穆罕默德等人[46] 提出了由目標(biāo)對組成的立場數(shù)據(jù)集,這些目標(biāo)對注釋了高音炮對目標(biāo)的姿態(tài)。
????????我們介紹了 MGTAB,這是第一個(gè)帶有用戶網(wǎng)絡(luò)圖的立場檢測數(shù)據(jù)集。 MGTAB 的大規(guī)模高質(zhì)量標(biāo)注將促進(jìn)用戶立場檢測的發(fā)展。此外,MGTAB 提供了研究立場檢測中基于圖的方法的機(jī)會(huì)。
2.2.機(jī)器人檢測
????????現(xiàn)有的機(jī)器人檢測方法可分為基于特征的方法和基于圖的方法。
????????基于特征的方法?;谔卣鞯姆椒◤挠脩舻脑獢?shù)據(jù)中提取和設(shè)計(jì)特征,然后使用傳統(tǒng)的分類器進(jìn)行機(jī)器人檢測。早期作品 [9, 53] 使用簡單的特征,例如關(guān)注者數(shù)量、朋友數(shù)量、推文數(shù)量和創(chuàng)建日期等。一些研究使用了更復(fù)雜的特征,例如基于社會(huì)關(guān)系的特征 [11, 59]。還有一些研究使用用戶推文的特征 [29, 53]。對于提取的用戶特征,許多研究 [3、29、33、48、52] 使用機(jī)器學(xué)習(xí)算法進(jìn)行機(jī)器人檢測。 Adaboost (AB) [28]、隨機(jī)森林 (RF) [6]、決策樹 (DT) [42] 和 SVM [5] 都已應(yīng)用于機(jī)器人檢測。然而,機(jī)器人可能會(huì)根據(jù)為檢測而設(shè)計(jì)的特征更改注冊信息,以規(guī)避基于特征的檢測方法[10, 15]。
????????基于圖的方法?;趫D的方法比基于特征的方法更有效 [15]。SATAR [16] 是基于特征特用戶的社交圖以特征工程的方式構(gòu)建的。Gnn可以從復(fù)雜的關(guān)系中獲得潛在的表征。受 GNN 成功的啟發(fā),Alhosseini 等人?[2] 首先嘗試使用圖形卷積神經(jīng)網(wǎng)絡(luò) (GCN) [34] 進(jìn)行垃圾郵件機(jī)器人檢測,有效利用 Twitter 帳戶的圖形結(jié)構(gòu)和關(guān)系。郭等[26] 對稱地結(jié)合 BERT 和 GCN,利用基于文本和圖形的特征??。最近的一些研究 [4、14、18、49] 調(diào)查了社交圖中的多重關(guān)系。 BotRGCN [18] 通過用戶網(wǎng)絡(luò)構(gòu)建異構(gòu)圖,并將關(guān)系圖卷積網(wǎng)絡(luò)應(yīng)用于機(jī)器人檢測。RGT [14] 使用關(guān)系圖轉(zhuǎn)換器來模擬異構(gòu)社交圖中用戶之間的交互。然而,受機(jī)器人檢測數(shù)據(jù)集中缺乏關(guān)系的限制,以往的研究只使用了兩種類型的關(guān)系,朋友和追隨者。在社交圖中使用多重關(guān)系用于機(jī)器人檢測的技術(shù)仍未探索。機(jī)器人檢測數(shù)據(jù)集。盡管專家注釋的質(zhì)量最高,但由于成本高,只有 Varol-icwsm 被專家完整注釋。
????????大多數(shù)數(shù)據(jù)集都是通過眾包進(jìn)行注釋的,而其他數(shù)據(jù)集是使用基于帳戶行為、元數(shù)據(jù)過濾器或其他更復(fù)雜程序的自動(dòng)化技術(shù)創(chuàng)建的。我們總結(jié)了現(xiàn)有的機(jī)器人檢測數(shù)據(jù)集,如表2所示。?
? ? ? ? ?Caverlee [36] 由honeypot帳戶吸引的bot帳戶,經(jīng)過驗(yàn)證的人類帳戶及其最重要的推文組成。Varol-icwsm [22] 數(shù)據(jù)集由從不同 Botometer 分?jǐn)?shù)十分位數(shù) [54] 采樣的手動(dòng)標(biāo)記的 Twitter 帳戶組成。在 Gilani-17 [21] 中,Twitter 帳戶根據(jù)關(guān)注者數(shù)量分為四類。除此之外,Midterm-18 [61]、Cresci-17 [10]、Botometer-feedback [60]、Cresci-stock [8]、Cresci-rtbust [44]、Kaiser [50] 也是機(jī)器人檢測數(shù)據(jù)集,具有各種注釋方法和信息完整性。
????????盡管有很多機(jī)器人檢測數(shù)據(jù)集,但很少有具有圖結(jié)構(gòu)的。只有三個(gè)公開可用的機(jī)器人檢測數(shù)據(jù)集提供社交圖:Cresci-15 [9]、TwiBot-20 [17] 和 TwiBot-22 [15]。 Cresci-15和TwiBot-20僅包含朋友和追隨者兩種關(guān)系,難以支持基于多關(guān)系圖檢測的研究。在 TwiBot-22 中,使用 1,000 個(gè)手動(dòng)標(biāo)記的帳戶來訓(xùn)練模型以獲取剩余帳戶的標(biāo)簽,從而導(dǎo)致標(biāo)簽偏差。我們提出的 MGTAB 完全由專家注釋,有 7 種關(guān)系。與大多數(shù)以前的數(shù)據(jù)集相比,它具有更大的規(guī)模、更高質(zhì)量的注釋和更豐富的關(guān)系。
3.數(shù)據(jù)集預(yù)處理
3.1.數(shù)據(jù)收集和清理
????????我們采用廣度優(yōu)先搜索 (BFS) 獲取 MGTAB 的用戶網(wǎng)絡(luò),該用戶網(wǎng)絡(luò)基于選擇 100 個(gè)密切參與 2021 年在線事件討論的種子帳戶。我們?yōu)槊總€(gè)用戶收集了 10,000 條最新推文,足以用于帳戶檢測。收集的數(shù)據(jù)總共包含 1,554,000 名用戶和 135,450,000 條推文。我們首先去除噪聲數(shù)據(jù)和異常節(jié)點(diǎn)來構(gòu)建一個(gè)緊湊的圖。具體來說,沒有追隨者或朋友的用戶被刪除。然后我們丟棄與目標(biāo)在線事件不密切相關(guān)的用戶,最終保留了 410,199 個(gè)帳戶和超過 4000 萬條推文。
3.2.專家注釋
????????我們邀請了 12 位具有十年以上工作經(jīng)驗(yàn)的機(jī)器人檢測和立場檢測專家,對用戶姿態(tài)進(jìn)行人工標(biāo)注,判斷是否為機(jī)器人。為了進(jìn)一步提高注釋質(zhì)量,每個(gè) Twitter 用戶都由九個(gè)注釋者獨(dú)立標(biāo)記,并且所有用戶的注釋都是通過多數(shù)投票獲得的。這些立場被標(biāo)記為三類:中立、反對和支持,這些類別被標(biāo)記為兩種類型:人類和機(jī)器人。整個(gè)數(shù)據(jù)集的注釋大約花了四個(gè)月的時(shí)間。注釋標(biāo)簽的分布如表3所示。 繼TwiBot-20之后,我們使用剩余的400,000個(gè)未標(biāo)記用戶作為半監(jiān)督學(xué)習(xí)方法研究的支持集。
?3.3. 質(zhì)量評估
????????其余三位專家獨(dú)立隨機(jī)抽取 10% 的標(biāo)注用戶進(jìn)行標(biāo)注質(zhì)量評價(jià)。我們平均獲得了 95.4% 的立場準(zhǔn)確度和 97.8% 的機(jī)器人準(zhǔn)確度。這遠(yuǎn)高于之前發(fā)布的使用眾包的立場檢測數(shù)據(jù)集獲得的準(zhǔn)確度(報(bào)告的準(zhǔn)確度,以百分比表示,范圍從 63.7% 到 79.7%)[7]。此外,與 TwiBot-20 [17] 和 TwiBot-22 [15] 的 80% 和 90.5% 準(zhǔn)確率相比,我們 97.8% 的機(jī)器人準(zhǔn)確率顯著提高了注釋質(zhì)量。
3.4.特征分析
????????我們隨機(jī)選擇了 2000 個(gè)標(biāo)記用戶來分析檢測特征的有效性。我們分析了不同方面的特征,包括創(chuàng)建時(shí)間、好友數(shù)、名稱長度等。在 [9] 之后,我們使用信息增益 (IG) 來衡量特征對預(yù)測類的信息量。它可以非正式地定義為由給定屬性值的知識引起的熵的預(yù)期減少。
????????用Y表示用戶的類別,H(Y)表示Y的熵,y為Y的值,y∈{y1,y2,.. . . , yK}。在立場檢測中,K 為 3,在機(jī)器人檢測中,K 為 2。
? ? ? ? ?H (Y | X)表示給定特征 X 時(shí)的 H (Y) ,該特征 X 可通過以下方法計(jì)算出來:
?????????其中 x 是 X 的值,x ∈ Φ。 IG(X; Y)表示Y得到特征X后類別信息增加(不確定性減少):
?????????IG 越大的特征包含越多的檢測信息。根據(jù)特征的類型,我們將特征分為布爾型和數(shù)值型特征,布爾型特征取真值或假值。除創(chuàng)建時(shí)間外,數(shù)字特征取對數(shù)。然后將數(shù)據(jù)按照值域均勻劃分為K個(gè)區(qū)間,統(tǒng)計(jì)每個(gè)區(qū)間的樣本數(shù),然后利用離散值計(jì)算IG。在本文中,K 設(shè)置為 51。
????????用戶立場特征。首先去除具有相同分布的特征,然后計(jì)算用戶特征的IG以獲得具有前10個(gè)IG的布爾和數(shù)值特征用于bot檢測。布爾和數(shù)值特征分別以 IG 的降序顯示在圖 1 和圖 2 中。
?????????分析了前 3 個(gè) IG 的布爾和數(shù)字特征: 默認(rèn)配置文件:大多數(shù)持反對立場的用戶更喜歡使用默認(rèn)配置文件。默認(rèn)配置文件側(cè)邊欄邊框顏色:大多數(shù)持有反對立場的用戶更喜歡使用默認(rèn)配置文件的側(cè)邊欄邊框顏色。默認(rèn)配置文件側(cè)邊欄填充顏色:大多數(shù)持有相反立場的用戶更喜歡使用默認(rèn)配置文件的側(cè)邊欄顏色。創(chuàng)建于:大多數(shù)持有相反立場的用戶都是最近創(chuàng)建的。 statues count:立場相反的用戶在地位較低的用戶中所占比例較大。收藏?cái)?shù):收藏?cái)?shù)較低的用戶中,反對的較多。
????????用戶機(jī)器人功能。進(jìn)行與上述相同的處理,以獲得用于機(jī)器人檢測的前 10 個(gè) IG 的布爾和數(shù)值特征。布爾和數(shù)值特征分別以 IG 的降序顯示在圖 3 和圖 4 中。
? ? ? ?分析了前 3 個(gè) IG 的布爾和數(shù)字特征: 有 url:大多數(shù)機(jī)器人都有空 URL 內(nèi)容。默認(rèn)配置文件:與人類相比,機(jī)器人傾向于使用默認(rèn)配置文件。默認(rèn)個(gè)人資料圖片:大多數(shù)具有默認(rèn)背景圖片的用戶都是機(jī)器人。關(guān)注者朋友比率:機(jī)器人通常通過相互關(guān)注來增加關(guān)注者數(shù)量,這導(dǎo)致關(guān)注者朋友比率較小。列出的計(jì)數(shù):機(jī)器人屬于比人類用戶更多的公共列表。描述長度:為了偽裝成人類用戶,機(jī)器人傾向于比人類更頻繁地填寫帳戶描述,并且描述更長。
????????我們的實(shí)驗(yàn)表明,所選擇的特征比以前的文獻(xiàn) [18、33、61] 中提取的特征更有效,詳情見第7.1節(jié)。?
4. 數(shù)據(jù)集構(gòu)建
4.1.特征表示構(gòu)造
????????我們將用戶屬性特征和用戶推文特征連接起來作為用戶特征表示,。用戶特征表示的詳細(xì)信息顯示在表10中。
?????????屬性特征提取。用戶屬性特征是根據(jù)第 3.4?節(jié)中的分析獲得的。將選取的數(shù)值特征通過Z-score歸一化,得到數(shù)值特征的表示。對選取的布爾特征進(jìn)行數(shù)值化處理,其中True和False分別用1和0代替,得到布爾特征
的表示。用戶屬性特征的表示是通過連接
和
獲得的,
。
?????????推文特征提取。推文包含54種語言,其中英語出現(xiàn)頻率最高,比例為73.6%。更多詳細(xì)信息,請參見第 17.1節(jié)。 非英語語言的統(tǒng)計(jì)數(shù)據(jù)如圖 5 所示。使用單語言預(yù)訓(xùn)練 BERT 模型對多語言推文進(jìn)行良好編碼并不容易。
?
?????????因此,我們使用多語言 BERT LaBSE [13] 來提取推文特征。具體來說,我們使用 LaBSE 對用戶推文進(jìn)行編碼。我們對所有推文的表示求平均以獲得用戶推文的表示。由 LaBSE 編碼的有效性的演示顯示在第7.2節(jié)中。?
4.2.關(guān)系圖構(gòu)建
????????復(fù)雜的社交圖結(jié)構(gòu),包括用戶、推文、主題標(biāo)簽、URL 等多個(gè)實(shí)體,使得基于圖的帳戶檢測成為一個(gè)復(fù)雜的問題。由于用戶級檢測關(guān)注的焦點(diǎn)是用戶。最近提出的基于異構(gòu)圖 [4、14、18、49] 的最先進(jìn)的檢測方法僅使用用戶之間的關(guān)系。因此,我們通過在構(gòu)建社交圖時(shí)僅保留用戶作為節(jié)點(diǎn)來簡化社交網(wǎng)絡(luò)圖,如圖 6 所示。對于其他類型的實(shí)體,僅使用它們構(gòu)建用戶之間的關(guān)系。
?????????顯式關(guān)系提取。對于關(guān)注者、朋友、提及、回復(fù)和引用等顯式關(guān)系,用戶之間的聯(lián)系直接從他們的關(guān)系中構(gòu)建。基于上述關(guān)系構(gòu)建的邊均為有向邊,如表 14所示。?
?????????隱式關(guān)系構(gòu)建。我們還提取了用戶之間的 2 種隱式關(guān)系:URL 共現(xiàn)和話題共現(xiàn)。特別地,用戶節(jié)點(diǎn)和
之間的共現(xiàn)關(guān)系可以通過實(shí)體共現(xiàn)的概率來確定,其權(quán)重通過平均逐點(diǎn)互信息(PMI)計(jì)算:
? ? ? ? (?介紹PMI:PMI
這個(gè)指標(biāo)通常用來衡量兩個(gè)事物之間的相關(guān)性,比如兩個(gè)詞,其原理很簡單,公式:
? ? ? ? ? ? ? ? 概率論中如果x和y不相關(guān),則, 如果兩者相關(guān)性越大,則
就比
大,則PMI也就越大;
? ? ? ? ? ? ? ? log 取自信息論中對概率的量化轉(zhuǎn)換;)
????????其中 Ψ{i,j} 表示 vi 和 vj 共有的實(shí)體集。計(jì)算PMI時(shí)使用近似
,其中
表示
的實(shí)體列表長度。最后,我們獲得了包含 410,199 個(gè)節(jié)點(diǎn)和超過 1 億條邊的 MGTAB 異構(gòu)圖。
5. 實(shí)驗(yàn)
5.1.實(shí)驗(yàn)設(shè)置
????????數(shù)據(jù)集。在立場檢測中,我們根據(jù)我們提出的基準(zhǔn) SemEval-2016 T6 [47] 和 SemEval-2019 T7 [25] 評估模型。在機(jī)器人檢測中,除了我們提出的基準(zhǔn)之外,我們模型還評估了 4 個(gè)公開可用的機(jī)器人檢測數(shù)據(jù)集:Cresci-17 [10]、Cresci-15 [9]、TwiBot-20 [17] 和 TwiBot-22 [15]。根據(jù)[15, 17],我們對所有數(shù)據(jù)集進(jìn)行 7:2:1 隨機(jī)劃分作為訓(xùn)練、驗(yàn)證和測試集。
????????基線。我們使用具有競爭力和最先進(jìn)的姿態(tài)檢測和機(jī)器人檢測方法,包括:Adaboost 分類器 (AB) [28]、決策樹 (DT) [42]、隨機(jī)森林 (RF) [6]、支持向量機(jī) ( SVM)[5]、圖卷積網(wǎng)絡(luò)(GCN)[34]、圖注意力網(wǎng)絡(luò)(GAT)[55]、異構(gòu)圖變換器(HGT)[32]、簡單異構(gòu)圖神經(jīng)網(wǎng)絡(luò)(S- HGN) [43],使用關(guān)系圖卷積網(wǎng)絡(luò) (BotRGCN) [18] 和關(guān)系圖轉(zhuǎn)換器 (RGT) [14] 進(jìn)行機(jī)器人檢測。
5.2.基準(zhǔn)性能
????????我們評估數(shù)據(jù)集的基線,并在 Tab5 中展示它們的檢測精度和 F1 分?jǐn)?shù)。 所有超參數(shù)都列在第7.3 節(jié),可進(jìn)行復(fù)現(xiàn)。
?(基線方法在數(shù)據(jù)集上的性能。在評估期間使用最常用的關(guān)注者和朋友關(guān)系。每個(gè)基線用不同的種子進(jìn)行五次,我們報(bào)告平均性能和標(biāo)準(zhǔn)差。 “/”表示數(shù)據(jù)集不包含支持基于圖的方法的用戶關(guān)系。最佳和次佳結(jié)果以粗體和下劃線突出顯示。)
????????我們觀察到基于圖的方法比基于特征的方法表現(xiàn)更好,所有前 3 名模型都是基于圖的。此外,很明顯可以觀察到異構(gòu) GNN 的性能優(yōu)于同構(gòu) GNN。我們推測這是因?yàn)楫悩?gòu) GNN 足以捕獲用戶之間的多重關(guān)系。RGT 可以模擬異構(gòu)RGT可以模擬用戶之間的異構(gòu)影響,在大多數(shù)數(shù)據(jù)集上實(shí)現(xiàn)最佳性能。更好地利用邊緣的權(quán)重和方向是未來潛在的研究方向。
5.3訓(xùn)練集大小的研究
????????我們選擇每 10% 的標(biāo)記用戶作為測試和驗(yàn)證集。然后,我們利用不同比例的標(biāo)記用戶作為訓(xùn)練集,從 10% 增加到 80%圖 7 顯示了不同訓(xùn)練集下的基于圖的模型性能。
?????????在不同的訓(xùn)練集下,異構(gòu) GNN 的性能優(yōu)于同構(gòu) GNN。這種現(xiàn)象與第5.2節(jié)中的結(jié)果一致。?
????????隨著更多注釋數(shù)據(jù)的使用,所有檢測模型都變得更加有效?,F(xiàn)有的帳戶檢測方法通常受到監(jiān)督并依賴于大量標(biāo)記數(shù)據(jù)。 MGTAB 的大規(guī)模有助于訓(xùn)練更好的檢測模型。此外,MGTAB 還提供了 400,000 個(gè)未標(biāo)記用戶來支持半監(jiān)督帳戶檢測方法的研究。據(jù)我們所知,MGTAB 在帳戶檢測領(lǐng)域擁有最多的未標(biāo)記用戶。
5.4 社會(huì)圖關(guān)系分析
????????在本節(jié)中,我們分析了在 MGTAB 中使用各種關(guān)系的影響。除了單一關(guān)系,我們還嘗試使用多重關(guān)系.我們隨機(jī)進(jìn)行1:1:8的分區(qū)作為訓(xùn)練、驗(yàn)證和測試集。這個(gè)分區(qū)在7.1節(jié)和7.2節(jié)的所有實(shí)驗(yàn)中共享。
? ? ? ? 表6 說明了當(dāng)使用更多關(guān)系時(shí),基于圖形的帳戶檢測方法表現(xiàn)更好。這一趨勢表明,未來對帳戶檢測的研究應(yīng)側(cè)重于更好地利用用戶之間的多種關(guān)系。此外,我們觀察到話題共現(xiàn)在所有關(guān)系中表現(xiàn)最差。我們懷疑這是因?yàn)闃?biāo)簽共現(xiàn)是高度隨機(jī)的,兩個(gè)不相關(guān)的用戶可能會(huì)出現(xiàn)話題共現(xiàn)。雖然MGTAB為URL和話題共現(xiàn)關(guān)系提供了邊緣權(quán)重,但現(xiàn)有的基于圖的帳戶檢測模型不能充分利用它們,導(dǎo)致性能較差。
?(使用不同關(guān)系的基于圖的檢測方法在 MGTAB 上的準(zhǔn)確性。每個(gè)基線用不同的種子進(jìn)行五次,我們報(bào)告平均性能和標(biāo)準(zhǔn)差。最佳結(jié)果以粗體突出顯示)
6. 結(jié)論
????????我們介紹了 MGTAB,這是一個(gè)用于姿態(tài)檢測和機(jī)器人檢測的大規(guī)模數(shù)據(jù)集。我們使用專家注釋和多數(shù)投票來確保高質(zhì)量的注釋。為了構(gòu)建標(biāo)準(zhǔn)化數(shù)據(jù)集,我們選擇了 20 個(gè)信息增益最高的用戶特征,這些特征在實(shí)驗(yàn)中被證明是最有效的。我們提取了 7 種用戶之間的關(guān)系,并簡化了復(fù)雜的 Twitter 網(wǎng)絡(luò)。與之前的數(shù)據(jù)集相比,MGTAB 可以更好地支持基于圖的賬戶檢測方法的研究。我們的實(shí)驗(yàn)發(fā)現(xiàn),基于圖形的方法通常比基于特征的方法更有效,并且在引入多重關(guān)系時(shí)表現(xiàn)更好。
7. 補(bǔ)充資料
7.1.特征分析
????????特征的信息增益。在用戶立場檢測中具有前 10 IG 的布爾和數(shù)值特征及其 IG 顯示在表7中。?
?????????表8顯示了機(jī)器人檢測中排名前10的 IG 及其 IG 的布爾特征和數(shù)值特征。
?????????特征有效性分析。用戶特征表示的詳細(xì)信息顯示在表10中。文獻(xiàn)中提出的許多工作都解決了帳戶檢測的不同特征。為了進(jìn)一步證明本文提取的特征的有效性,使用從不同文獻(xiàn)[18,33,61]設(shè)計(jì)的屬性特征來比較不同模型在最常用的朋友和追隨者關(guān)系下的性能[18 ].在實(shí)驗(yàn)中,我們只使用了屬性特征,結(jié)果如表11所示。
?
?7.2. 不同 BERT 模型的影響
????????MGTAB 數(shù)據(jù)集中包含的 54 種語言如表 9 所示。為了證明使用 LaBSE [13] 編碼的有效性,在本節(jié)中,我們采用四種預(yù)訓(xùn)練的編碼模型,LaBSE、RoBERTa [41]、SBERT [51]和 BART [37] 對用戶推文進(jìn)行編碼。
?????????使用上述模型對用戶的所有推文進(jìn)行編碼的結(jié)果顯示在表12中。 與其他模型相比,使用 LaBSE 的檢測性能更好。我們推斷這是因?yàn)樵谑褂糜⒄Z預(yù)訓(xùn)練模型對多語言文本進(jìn)行編碼時(shí)會(huì)引入噪聲。LABSE可以將不同語言的文本編碼到一個(gè)共享的嵌入空間中,更適合于收集到的多語言文本。
?7.3實(shí)驗(yàn)細(xì)節(jié)
????????實(shí)驗(yàn)設(shè)置。在本文中,對于所有的 GNN 模型,我們堆疊 2 層 GNN 和兩個(gè)全連接層,中間 GNN 層的輸入和輸出維度是一致的,分別為 64、128 或 256。我們使用 ReLU 作為激活函數(shù)并將學(xué)習(xí)率設(shè)置為 0.0001 到 0.01。此外,輟學(xué)率在 0.3 到 0.5 之間。我們在 GAT 中將注意力頭的數(shù)量設(shè)置為 8。我們在 RGT 中將 transformer attention heads 和 semantic attention heads 的數(shù)量設(shè)置為 4。 S-HGN中β為0.05,其余保持默認(rèn)。我們使用 Adam 優(yōu)化器對所有 GNN 模型進(jìn)行了 300 輪訓(xùn)練。對于機(jī)器學(xué)習(xí)模型,AB 和 RF 的估計(jì)器數(shù)量分別設(shè)置為 50 和 100。我們在配備 9 個(gè) TITAN RTX GPU 的服務(wù)器上運(yùn)行了所有實(shí)驗(yàn)。
????????數(shù)據(jù)集處理。對于 SemEval-2016 T6 [47],我們提取了 IG 的 20 個(gè)最大特征:正面詞的數(shù)量,負(fù)面詞數(shù)、正面情緒數(shù)、負(fù)面情緒數(shù)、名詞詞頻、代詞詞頻、動(dòng)詞詞頻、形容詞詞頻、特殊符號數(shù)、問號數(shù)、大寫詞數(shù)、引用詞數(shù)、轉(zhuǎn)發(fā)計(jì)數(shù)、提及計(jì)數(shù)、URL 數(shù)量、hastags 熵、hashtags 數(shù)量和大寫 hashtags 數(shù)量。對于 SemEval-2019 T7 [25],該特征是使用 RoBERTa [41] 提取的。對于 TwiBot-20 [17],我們遵循 [18] 進(jìn)行數(shù)據(jù)集處理和特征提取。對于 Cresci-15 [9]、Cresci-17 [10] 和 TwiBot-22 [15],我們按照 [15] 進(jìn)行數(shù)據(jù)集處理和特征提取。