當(dāng)前位置：首頁 > news >正文

灤平縣建設(shè)局網(wǎng)站國際新聞快報(bào)

news 2025/7/5 8:01:44

灤平縣建設(shè)局網(wǎng)站,國際新聞快報(bào),俄羅斯最新軍事新聞,網(wǎng)站開發(fā)這行怎么樣目錄摘要 1. 引言 2. 相關(guān)工作 2.1. 立場檢測 2.2.機(jī)器人檢測 3.數(shù)據(jù)集預(yù)處理 3.1.數(shù)據(jù)收集和清理 3.2.專家注釋 3.3. 質(zhì)量評估 3.4.特征分析 4. 數(shù)據(jù)集構(gòu)建 4.1.特征表示構(gòu)造 4.2.關(guān)系圖構(gòu)建 5. 實(shí)驗(yàn) 5.1.實(shí)驗(yàn)設(shè)置 5.2.基準(zhǔn)性能 5.3訓(xùn)練集大小的研究 5.4 社…

摘要

1. 引言

2. 相關(guān)工作

2.1. 立場檢測

2.2.機(jī)器人檢測

3.數(shù)據(jù)集預(yù)處理

3.1.數(shù)據(jù)收集和清理

3.2.專家注釋

?3.3. 質(zhì)量評估

3.4.特征分析

4. 數(shù)據(jù)集構(gòu)建

4.1.特征表示構(gòu)造

4.2.關(guān)系圖構(gòu)建

5. 實(shí)驗(yàn)

5.1.實(shí)驗(yàn)設(shè)置

5.2.基準(zhǔn)性能

5.3訓(xùn)練集大小的研究

5.4 社會(huì)圖關(guān)系分析

6. 結(jié)論

7. 補(bǔ)充資料

7.1.特征分析

?7.2. 不同 BERT 模型的影響

?7.3實(shí)驗(yàn)細(xì)節(jié)

論文鏈接：https://arxiv.org/pdf/2301.01123.pdf

摘要

? ? ? ? 社交媒體用戶立場檢測和機(jī)器人檢測方法的發(fā)展嚴(yán)重依賴于大規(guī)模和高質(zhì)量的基準(zhǔn)。

? ? ? ? gap: 然而，除了注釋質(zhì)量低之外，現(xiàn)有基準(zhǔn)通常具有不完整的用戶關(guān)系，抑制了基于圖的帳戶檢測研究。

? ? ? ? 方案：為了解決這些問題，我們提出了一個(gè)基于多關(guān)系圖的 Twitter 帳戶檢測基準(zhǔn) (MGTAB)，這是第一個(gè)用于帳戶檢測的基于圖的標(biāo)準(zhǔn)化基準(zhǔn)。

????????據(jù)我們所知，MGTAB 是基于該領(lǐng)域最大的原始數(shù)據(jù)構(gòu)建的，擁有超過 155 萬用戶和 1.3 億條推文。

????????MGTAB 包含 10,199 個(gè)專家標(biāo)注用戶和 7 種關(guān)系類型，保證了高質(zhì)量的標(biāo)注和多樣化的關(guān)系。

????????在MGTAB中，我們提取了信息增益最大的20個(gè)用戶屬性特征和用戶推文特征作為用戶特征。

????????此外，我們對 MGTAB 和其他公共數(shù)據(jù)集進(jìn)行了全面評估。

????????我們的實(shí)驗(yàn)發(fā)現(xiàn)，基于圖的方法通常比基于特征的方法更有效，并且在引入多重關(guān)系時(shí)表現(xiàn)更好。

????????通過分析實(shí)驗(yàn)結(jié)果，我們確定了帳戶檢測的有效方法，并提供了該領(lǐng)域未來潛在的研究方向。

????????我們的基準(zhǔn)和標(biāo)準(zhǔn)化評估程序可在以下網(wǎng)址免費(fèi)獲得：https://github.com/GraphDetec/MGTAB。

1. 引言

? ? ? ? 背景：（引入之前的數(shù)據(jù)集）隨著互聯(lián)網(wǎng)的不斷發(fā)展，社交網(wǎng)絡(luò)已經(jīng)成為人們?nèi)粘Ｉ缃簧钪斜夭豢缮俚囊徊糠帧?Twitter 是全球訪問量最大的社交網(wǎng)絡(luò)之一，為全球數(shù)十億用戶提供在線新聞和信息交流。由于可用性，許多帳戶檢測基準(zhǔn)是基于 Twitter 數(shù)據(jù)構(gòu)建的 [9,15,17,47]。

? ? ? ? 介紹立場檢測和機(jī)器人檢測：立場檢測和機(jī)器人檢測是帳戶檢測中的基本任務(wù)。立場檢測旨在檢測用戶對某個(gè)主題或主張的立場。它是假新聞檢測 [25、31]、聲明驗(yàn)證 [1、27] 和社交媒體輿論分析等應(yīng)用中的一項(xiàng)關(guān)鍵技術(shù)。機(jī)器人檢測對于檢測社交媒體上的信息操縱至關(guān)重要。社交機(jī)器人是由計(jì)算機(jī)程序 [60] 操作的自動(dòng)用戶帳戶，經(jīng)常被用來濫用社交媒體平臺(tái) [10, 19] 來操縱公眾輿論 [9-11, 60]。

? ? ? ? 前人方法局限性：大多數(shù)帳戶檢測方法僅使用社交媒體中的部分信息（例如帖子、注冊信息等）進(jìn)行分類。很少考慮用戶之間的聯(lián)系[24]，這使得確保檢測準(zhǔn)確性具有挑戰(zhàn)性。在立場檢測中，沉默的用戶通常不會(huì)直接發(fā)帖，而是通過行為表達(dá)他們的立場，例如關(guān)注他人和喜歡帖子 [24]。然而，大多數(shù)研究只關(guān)注活躍用戶的發(fā)帖內(nèi)容而忽略沉默用戶[24]。需要使用社交圖的特征來更好地檢測沉默用戶的立場 [1]。在機(jī)器人檢測中，由于大多數(shù)研究忽略了機(jī)器人的社交圖特征，機(jī)器人可以通過復(fù)雜的策略模擬真實(shí)用戶來逃避基于特征的檢測方法[10]。

????????最近在帳戶檢測方面的工作 [14、18、38] 側(cè)重于利用用戶之間的關(guān)系，與基于特征的方法相比性能有所提高。然而，現(xiàn)有的數(shù)據(jù)集在支持基于圖的方法方面有幾個(gè)缺點(diǎn)，如下所示：

????????(a) 注釋質(zhì)量低。以前的帳戶檢測數(shù)據(jù)集主要由眾包進(jìn)行注釋，而眾包工作者缺乏領(lǐng)域知識導(dǎo)致注釋中出現(xiàn)明顯的噪音 [15]。

????????(b) 不完整的用戶關(guān)系。沒有一個(gè)姿態(tài)檢測數(shù)據(jù)集明確提供用戶之間的圖結(jié)構(gòu)，只有機(jī)器人檢測數(shù)據(jù)集 Cresci-15 [9]、TwiBot-20 [17] 和 TwiBot-22 [15] 包含明確的圖結(jié)構(gòu)。此外，Cresci-15 和 TwiBot-20 僅包含 2 種類型的用戶關(guān)系，這對于基于圖形的檢測方法是不夠的。??

????????(c) 復(fù)雜的用戶信息。社交媒體用戶信息多種多樣，但大多數(shù)信息對帳戶檢測影響不大?，F(xiàn)有數(shù)據(jù)集缺乏基本用戶信息的提取和組織，使帳戶檢測成為一個(gè)難題。??????

????????為了解決上述缺點(diǎn)，我們提出了基于多關(guān)系圖的 Twitter 帳戶檢測基準(zhǔn) (MGTAB)，這是一個(gè)用于立場和機(jī)器人檢測的大型標(biāo)準(zhǔn)化專家注釋數(shù)據(jù)集。MGTAB 包含 10,199 個(gè)由專家手動(dòng)注釋的用戶和 400,000 個(gè)密切相關(guān)的未注釋用戶。此外，MGTAB 通過計(jì)算信息增益 (IG) 和用戶推文特征提取了 20 個(gè)最有效的用戶屬性特征。最后，MGTAB 簡化了社交圖并構(gòu)建了一個(gè)具有 7 種關(guān)系的用戶網(wǎng)絡(luò)。

????????本文的貢獻(xiàn)如下：

????????我們介紹了 MGTAB，這是一種用于立場檢測和機(jī)器人檢測的大規(guī)模專家注釋基準(zhǔn)。所有注釋均由專家進(jìn)行，并通過交叉驗(yàn)證提高注釋質(zhì)量。與以前的數(shù)據(jù)集相比，注釋質(zhì)量得到了顯著提高。

????????我們發(fā)布了第一個(gè)包含屬性特征、用戶推文特征和 7 種用戶關(guān)系類型的標(biāo)準(zhǔn)化數(shù)據(jù)集。我們構(gòu)建了一個(gè)用戶級社交圖，可應(yīng)用于最先進(jìn)的基于圖的帳戶檢測方法，使帳戶檢測更簡單。 MGTAB 數(shù)據(jù)集的發(fā)布將促進(jìn)基于圖形的帳戶檢測新方法的開發(fā)。

????????為了構(gòu)建 MGTAB，我們收集了超過 155 萬 Twitter 用戶和 1.35 億條推文。據(jù)我們所知，它是該領(lǐng)域中最大的數(shù)據(jù)。我們進(jìn)行了細(xì)致的數(shù)據(jù)清洗，保留了 40 萬密切相關(guān)的未標(biāo)記用戶，支持半監(jiān)督學(xué)習(xí)與賬戶檢測研究相結(jié)合。

????????我們的實(shí)驗(yàn)表明，在大多數(shù)情況下，基于圖形的檢測方法比基于特征的方法更有效。此外，我們發(fā)現(xiàn)，當(dāng)引入多個(gè)關(guān)系時(shí)，基于圖的方法的性能得到改善。結(jié)果表明，未來的研究應(yīng)側(cè)重于使用多重關(guān)系。

2. 相關(guān)工作

2.1. 立場檢測

????????現(xiàn)有的立場檢測方法可分為基于特征的方法和基于圖的方法。

????????基于特征的方法。先前的研究工作 [56, 58, 62] 使用機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)方法，例如支持向量機(jī) (SVM)、循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) [62] 和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 來自動(dòng)從大量原始數(shù)據(jù)中學(xué)習(xí)潛在特征。最近的幾項(xiàng)工作 [31、39、40、45、57] 側(cè)重于在立場檢測中使用來自 transformers (BERT) [12] 的雙向編碼器表示。戈什等人?[20] 探索了基于遷移學(xué)習(xí)的立場檢測，Li 等人?[39] 探索了基于 BERT 的數(shù)據(jù)增強(qiáng)模型。

????????基于圖形的方法。大多數(shù)關(guān)于立場檢測的研究都使用基于文本的特征 [40、47、62]。最近的一些工作表明使用用戶網(wǎng)絡(luò)圖作為特征的有效性 [1, 35]。圖神經(jīng)網(wǎng)絡(luò) (GNN) [34, 55] 由于其出色的處理圖信息的能力，已成為賬戶檢測的首選模型。李等?[38] 首先通過基于 GNN 的架構(gòu)實(shí)現(xiàn)了立場和謠言檢測，可以有效地捕獲用戶交互特征。盡管 GNN 在立場挖掘中表現(xiàn)良好，但現(xiàn)有立場檢測數(shù)據(jù)集中缺乏圖結(jié)構(gòu)限制了基于圖的檢測方法的發(fā)展。

? ? ? ? 立場檢測數(shù)據(jù)集。我們在 Tab 1中總結(jié)了現(xiàn)有的 Twitter 立場檢測數(shù)據(jù)集。 SemEval-2016 T6 數(shù)據(jù)集 [47] 是第一個(gè)用于 Twitter 立場檢測的數(shù)據(jù)集，其中包含眾包注釋的主題推文對。 SemEval-2019 T7 [25] 包含有關(guān) Reddit 帖子和推文中各種事件的謠言。COVID-19-Stance [23] 由手動(dòng)注釋的推文組成，涵蓋用戶對與 COVID-19 健康要求相關(guān)的四個(gè)目標(biāo)的立場。COVIDLies [30]、COVMis-Stance [31] 也是與 COVID 相關(guān)的數(shù)據(jù)集。 P-STANCE [40] 是在 2020 年美國大選期間收集的政治領(lǐng)域的大型立場檢測數(shù)據(jù)集。Conforti 等人?[7] 構(gòu)建了 WT-WT，這是一個(gè)包含專家執(zhí)行的推文和注釋的金融數(shù)據(jù)集。穆罕默德等人[46] 提出了由目標(biāo)對組成的立場數(shù)據(jù)集，這些目標(biāo)對注釋了高音炮對目標(biāo)的姿態(tài)。

????????我們介紹了 MGTAB，這是第一個(gè)帶有用戶網(wǎng)絡(luò)圖的立場檢測數(shù)據(jù)集。 MGTAB 的大規(guī)模高質(zhì)量標(biāo)注將促進(jìn)用戶立場檢測的發(fā)展。此外，MGTAB 提供了研究立場檢測中基于圖的方法的機(jī)會(huì)。

2.2.機(jī)器人檢測

????????現(xiàn)有的機(jī)器人檢測方法可分為基于特征的方法和基于圖的方法。

????????基于特征的方法?；谔卣鞯姆椒◤挠脩舻脑獢?shù)據(jù)中提取和設(shè)計(jì)特征，然后使用傳統(tǒng)的分類器進(jìn)行機(jī)器人檢測。早期作品 [9, 53] 使用簡單的特征，例如關(guān)注者數(shù)量、朋友數(shù)量、推文數(shù)量和創(chuàng)建日期等。一些研究使用了更復(fù)雜的特征，例如基于社會(huì)關(guān)系的特征 [11, 59]。還有一些研究使用用戶推文的特征 [29, 53]。對于提取的用戶特征，許多研究 [3、29、33、48、52] 使用機(jī)器學(xué)習(xí)算法進(jìn)行機(jī)器人檢測。 Adaboost (AB) [28]、隨機(jī)森林 (RF) [6]、決策樹 (DT) [42] 和 SVM [5] 都已應(yīng)用于機(jī)器人檢測。然而，機(jī)器人可能會(huì)根據(jù)為檢測而設(shè)計(jì)的特征更改注冊信息，以規(guī)避基于特征的檢測方法[10, 15]。

????????基于圖的方法?；趫D的方法比基于特征的方法更有效 [15]。SATAR [16] 是基于特征特用戶的社交圖以特征工程的方式構(gòu)建的。Gnn可以從復(fù)雜的關(guān)系中獲得潛在的表征。受 GNN 成功的啟發(fā)，Alhosseini 等人?[2] 首先嘗試使用圖形卷積神經(jīng)網(wǎng)絡(luò) (GCN) [34] 進(jìn)行垃圾郵件機(jī)器人檢測，有效利用 Twitter 帳戶的圖形結(jié)構(gòu)和關(guān)系。郭等[26] 對稱地結(jié)合 BERT 和 GCN，利用基于文本和圖形的特征??。最近的一些研究 [4、14、18、49] 調(diào)查了社交圖中的多重關(guān)系。 BotRGCN [18] 通過用戶網(wǎng)絡(luò)構(gòu)建異構(gòu)圖，并將關(guān)系圖卷積網(wǎng)絡(luò)應(yīng)用于機(jī)器人檢測。RGT [14] 使用關(guān)系圖轉(zhuǎn)換器來模擬異構(gòu)社交圖中用戶之間的交互。然而，受機(jī)器人檢測數(shù)據(jù)集中缺乏關(guān)系的限制，以往的研究只使用了兩種類型的關(guān)系，朋友和追隨者。在社交圖中使用多重關(guān)系用于機(jī)器人檢測的技術(shù)仍未探索。機(jī)器人檢測數(shù)據(jù)集。盡管專家注釋的質(zhì)量最高，但由于成本高，只有 Varol-icwsm 被專家完整注釋。

????????大多數(shù)數(shù)據(jù)集都是通過眾包進(jìn)行注釋的，而其他數(shù)據(jù)集是使用基于帳戶行為、元數(shù)據(jù)過濾器或其他更復(fù)雜程序的自動(dòng)化技術(shù)創(chuàng)建的。我們總結(jié)了現(xiàn)有的機(jī)器人檢測數(shù)據(jù)集，如表2所示。?

? ? ? ? ?Caverlee [36] 由honeypot帳戶吸引的bot帳戶，經(jīng)過驗(yàn)證的人類帳戶及其最重要的推文組成。Varol-icwsm [22] 數(shù)據(jù)集由從不同 Botometer 分?jǐn)?shù)十分位數(shù) [54] 采樣的手動(dòng)標(biāo)記的 Twitter 帳戶組成。在 Gilani-17 [21] 中，Twitter 帳戶根據(jù)關(guān)注者數(shù)量分為四類。除此之外，Midterm-18 [61]、Cresci-17 [10]、Botometer-feedback [60]、Cresci-stock [8]、Cresci-rtbust [44]、Kaiser [50] 也是機(jī)器人檢測數(shù)據(jù)集，具有各種注釋方法和信息完整性。

????????盡管有很多機(jī)器人檢測數(shù)據(jù)集，但很少有具有圖結(jié)構(gòu)的。只有三個(gè)公開可用的機(jī)器人檢測數(shù)據(jù)集提供社交圖：Cresci-15 [9]、TwiBot-20 [17] 和 TwiBot-22 [15]。 Cresci-15和TwiBot-20僅包含朋友和追隨者兩種關(guān)系，難以支持基于多關(guān)系圖檢測的研究。在 TwiBot-22 中，使用 1,000 個(gè)手動(dòng)標(biāo)記的帳戶來訓(xùn)練模型以獲取剩余帳戶的標(biāo)簽，從而導(dǎo)致標(biāo)簽偏差。我們提出的 MGTAB 完全由專家注釋，有 7 種關(guān)系。與大多數(shù)以前的數(shù)據(jù)集相比，它具有更大的規(guī)模、更高質(zhì)量的注釋和更豐富的關(guān)系。

3.數(shù)據(jù)集預(yù)處理

3.1.數(shù)據(jù)收集和清理

????????我們采用廣度優(yōu)先搜索 (BFS) 獲取 MGTAB 的用戶網(wǎng)絡(luò)，該用戶網(wǎng)絡(luò)基于選擇 100 個(gè)密切參與 2021 年在線事件討論的種子帳戶。我們?yōu)槊總€(gè)用戶收集了 10,000 條最新推文，足以用于帳戶檢測。收集的數(shù)據(jù)總共包含 1,554,000 名用戶和 135,450,000 條推文。我們首先去除噪聲數(shù)據(jù)和異常節(jié)點(diǎn)來構(gòu)建一個(gè)緊湊的圖。具體來說，沒有追隨者或朋友的用戶被刪除。然后我們丟棄與目標(biāo)在線事件不密切相關(guān)的用戶，最終保留了 410,199 個(gè)帳戶和超過 4000 萬條推文。

3.2.專家注釋

????????我們邀請了 12 位具有十年以上工作經(jīng)驗(yàn)的機(jī)器人檢測和立場檢測專家，對用戶姿態(tài)進(jìn)行人工標(biāo)注，判斷是否為機(jī)器人。為了進(jìn)一步提高注釋質(zhì)量，每個(gè) Twitter 用戶都由九個(gè)注釋者獨(dú)立標(biāo)記，并且所有用戶的注釋都是通過多數(shù)投票獲得的。這些立場被標(biāo)記為三類：中立、反對和支持，這些類別被標(biāo)記為兩種類型：人類和機(jī)器人。整個(gè)數(shù)據(jù)集的注釋大約花了四個(gè)月的時(shí)間。注釋標(biāo)簽的分布如表3所示。繼TwiBot-20之后，我們使用剩余的400,000個(gè)未標(biāo)記用戶作為半監(jiān)督學(xué)習(xí)方法研究的支持集。

?3.3. 質(zhì)量評估

????????其余三位專家獨(dú)立隨機(jī)抽取 10% 的標(biāo)注用戶進(jìn)行標(biāo)注質(zhì)量評價(jià)。我們平均獲得了 95.4% 的立場準(zhǔn)確度和 97.8% 的機(jī)器人準(zhǔn)確度。這遠(yuǎn)高于之前發(fā)布的使用眾包的立場檢測數(shù)據(jù)集獲得的準(zhǔn)確度（報(bào)告的準(zhǔn)確度，以百分比表示，范圍從 63.7% 到 79.7%）[7]。此外，與 TwiBot-20 [17] 和 TwiBot-22 [15] 的 80% 和 90.5% 準(zhǔn)確率相比，我們 97.8% 的機(jī)器人準(zhǔn)確率顯著提高了注釋質(zhì)量。

3.4.特征分析

????????我們隨機(jī)選擇了 2000 個(gè)標(biāo)記用戶來分析檢測特征的有效性。我們分析了不同方面的特征，包括創(chuàng)建時(shí)間、好友數(shù)、名稱長度等。在 [9] 之后，我們使用信息增益 (IG) 來衡量特征對預(yù)測類的信息量。它可以非正式地定義為由給定屬性值的知識引起的熵的預(yù)期減少。

????????用Y表示用戶的類別，H(Y)表示Y的熵，y為Y的值，y∈{y1,y2,.. . . , yK}。在立場檢測中，K 為 3，在機(jī)器人檢測中，K 為 2。

? ? ? ? ?H (Y | X)表示給定特征 X 時(shí)的 H (Y) ，該特征 X 可通過以下方法計(jì)算出來:

?????????其中 x 是 X 的值，x ∈ Φ。 IG(X; Y)表示Y得到特征X后類別信息增加（不確定性減少）：

?????????IG 越大的特征包含越多的檢測信息。根據(jù)特征的類型，我們將特征分為布爾型和數(shù)值型特征，布爾型特征取真值或假值。除創(chuàng)建時(shí)間外，數(shù)字特征取對數(shù)。然后將數(shù)據(jù)按照值域均勻劃分為K個(gè)區(qū)間，統(tǒng)計(jì)每個(gè)區(qū)間的樣本數(shù)，然后利用離散值計(jì)算IG。在本文中，K 設(shè)置為 51。

????????用戶立場特征。首先去除具有相同分布的特征，然后計(jì)算用戶特征的IG以獲得具有前10個(gè)IG的布爾和數(shù)值特征用于bot檢測。布爾和數(shù)值特征分別以 IG 的降序顯示在圖 1 和圖 2 中。

?????????分析了前 3 個(gè) IG 的布爾和數(shù)字特征：默認(rèn)配置文件：大多數(shù)持反對立場的用戶更喜歡使用默認(rèn)配置文件。默認(rèn)配置文件側(cè)邊欄邊框顏色：大多數(shù)持有反對立場的用戶更喜歡使用默認(rèn)配置文件的側(cè)邊欄邊框顏色。默認(rèn)配置文件側(cè)邊欄填充顏色：大多數(shù)持有相反立場的用戶更喜歡使用默認(rèn)配置文件的側(cè)邊欄顏色。創(chuàng)建于：大多數(shù)持有相反立場的用戶都是最近創(chuàng)建的。 statues count：立場相反的用戶在地位較低的用戶中所占比例較大。收藏?cái)?shù)：收藏?cái)?shù)較低的用戶中，反對的較多。

????????用戶機(jī)器人功能。進(jìn)行與上述相同的處理，以獲得用于機(jī)器人檢測的前 10 個(gè) IG 的布爾和數(shù)值特征。布爾和數(shù)值特征分別以 IG 的降序顯示在圖 3 和圖 4 中。

? ? ? ?分析了前 3 個(gè) IG 的布爾和數(shù)字特征：有 url：大多數(shù)機(jī)器人都有空 URL 內(nèi)容。默認(rèn)配置文件：與人類相比，機(jī)器人傾向于使用默認(rèn)配置文件。默認(rèn)個(gè)人資料圖片：大多數(shù)具有默認(rèn)背景圖片的用戶都是機(jī)器人。關(guān)注者朋友比率：機(jī)器人通常通過相互關(guān)注來增加關(guān)注者數(shù)量，這導(dǎo)致關(guān)注者朋友比率較小。列出的計(jì)數(shù)：機(jī)器人屬于比人類用戶更多的公共列表。描述長度：為了偽裝成人類用戶，機(jī)器人傾向于比人類更頻繁地填寫帳戶描述，并且描述更長。

????????我們的實(shí)驗(yàn)表明，所選擇的特征比以前的文獻(xiàn) [18、33、61] 中提取的特征更有效，詳情見第7.1節(jié)。?

4. 數(shù)據(jù)集構(gòu)建

4.1.特征表示構(gòu)造

????????我們將用戶屬性特征和用戶推文特征連接起來作為用戶特征表示， $r = [r_{prop}\left \| \right \|r_{tweet}]$ 。用戶特征表示的詳細(xì)信息顯示在表10中。

?????????屬性特征提取。用戶屬性特征是根據(jù)第 3.4?節(jié)中的分析獲得的。將選取的數(shù)值特征通過Z-score歸一化，得到數(shù)值特征 $r_{num}$ 的表示。對選取的布爾特征進(jìn)行數(shù)值化處理，其中True和False分別用1和0代替，得到布爾特征 $r_{bool}$ 的表示。用戶屬性特征的表示是通過連接 $r_{num}$ 和 $r_{bool}$ 獲得的， $rprop = [r_{num}\left \| \right \|r_{bool}]$ 。

?????????推文特征提取。推文包含54種語言，其中英語出現(xiàn)頻率最高，比例為73.6%。更多詳細(xì)信息，請參見第 17.1節(jié)。非英語語言的統(tǒng)計(jì)數(shù)據(jù)如圖 5 所示。使用單語言預(yù)訓(xùn)練 BERT 模型對多語言推文進(jìn)行良好編碼并不容易。

?????????因此，我們使用多語言 BERT LaBSE [13] 來提取推文特征。具體來說，我們使用 LaBSE 對用戶推文進(jìn)行編碼。我們對所有推文的表示求平均以獲得用戶推文 $r_{tweet}$ 的表示。由 LaBSE 編碼的有效性的演示顯示在第7.2節(jié)中。?

4.2.關(guān)系圖構(gòu)建

????????復(fù)雜的社交圖結(jié)構(gòu)，包括用戶、推文、主題標(biāo)簽、URL 等多個(gè)實(shí)體，使得基于圖的帳戶檢測成為一個(gè)復(fù)雜的問題。由于用戶級檢測關(guān)注的焦點(diǎn)是用戶。最近提出的基于異構(gòu)圖 [4、14、18、49] 的最先進(jìn)的檢測方法僅使用用戶之間的關(guān)系。因此，我們通過在構(gòu)建社交圖時(shí)僅保留用戶作為節(jié)點(diǎn)來簡化社交網(wǎng)絡(luò)圖，如圖 6 所示。對于其他類型的實(shí)體，僅使用它們構(gòu)建用戶之間的關(guān)系。

?????????顯式關(guān)系提取。對于關(guān)注者、朋友、提及、回復(fù)和引用等顯式關(guān)系，用戶之間的聯(lián)系直接從他們的關(guān)系中構(gòu)建。基于上述關(guān)系構(gòu)建的邊均為有向邊，如表 14所示。?

?????????隱式關(guān)系構(gòu)建。我們還提取了用戶之間的 2 種隱式關(guān)系：URL 共現(xiàn)和話題共現(xiàn)。特別地，用戶節(jié)點(diǎn) $v_i$ 和 $v_j$ 之間的共現(xiàn)關(guān)系可以通過實(shí)體共現(xiàn)的概率來確定，其權(quán)重通過平均逐點(diǎn)互信息（PMI）計(jì)算：

? ? ? ? （?介紹PMI：PMI這個(gè)指標(biāo)通常用來衡量兩個(gè)事物之間的相關(guān)性，比如兩個(gè)詞，其原理很簡單，公式： $PMI(x;y) = log\frac{p(x,y)}{p(x)p(y)} = log\frac{p(x|y))}{p(x)} = log\frac{p(y|x)}{p(y)}$

? ? ? ? ? ? ? ? 概率論中如果x和y不相關(guān)，則 $p(x,y) = p(x)p(y)$ , 如果兩者相關(guān)性越大，則 $p(x,y)$ 就比 $p(x)p(y)$ 大，則PMI也就越大；

? ? ? ? ? ? ? ? log 取自信息論中對概率的量化轉(zhuǎn)換；）

????????其中 Ψ{i,j} 表示 vi 和 vj 共有的實(shí)體集。計(jì)算PMI時(shí)使用 $\frac{1}{N_i}$ 近似 $p(v_i,e_k)$ ，其中 $N_i$ 表示 $v_i$ 的實(shí)體列表長度。最后，我們獲得了包含 410,199 個(gè)節(jié)點(diǎn)和超過 1 億條邊的 MGTAB 異構(gòu)圖。

5. 實(shí)驗(yàn)

5.1.實(shí)驗(yàn)設(shè)置

????????數(shù)據(jù)集。在立場檢測中，我們根據(jù)我們提出的基準(zhǔn) SemEval-2016 T6 [47] 和 SemEval-2019 T7 [25] 評估模型。在機(jī)器人檢測中，除了我們提出的基準(zhǔn)之外，我們模型還評估了 4 個(gè)公開可用的機(jī)器人檢測數(shù)據(jù)集：Cresci-17 [10]、Cresci-15 [9]、TwiBot-20 [17] 和 TwiBot-22 [15]。根據(jù)[15, 17]，我們對所有數(shù)據(jù)集進(jìn)行 7:2:1 隨機(jī)劃分作為訓(xùn)練、驗(yàn)證和測試集。

????????基線。我們使用具有競爭力和最先進(jìn)的姿態(tài)檢測和機(jī)器人檢測方法，包括：Adaboost 分類器 (AB) [28]、決策樹 (DT) [42]、隨機(jī)森林 (RF) [6]、支持向量機(jī) ( SVM）[5]、圖卷積網(wǎng)絡(luò)（GCN）[34]、圖注意力網(wǎng)絡(luò)（GAT）[55]、異構(gòu)圖變換器（HGT）[32]、簡單異構(gòu)圖神經(jīng)網(wǎng)絡(luò)（S- HGN) [43]，使用關(guān)系圖卷積網(wǎng)絡(luò) (BotRGCN) [18] 和關(guān)系圖轉(zhuǎn)換器 (RGT) [14] 進(jìn)行機(jī)器人檢測。

5.2.基準(zhǔn)性能

????????我們評估數(shù)據(jù)集的基線，并在 Tab5 中展示它們的檢測精度和 F1 分?jǐn)?shù)。所有超參數(shù)都列在第7.3 節(jié)，可進(jìn)行復(fù)現(xiàn)。

?（基線方法在數(shù)據(jù)集上的性能。在評估期間使用最常用的關(guān)注者和朋友關(guān)系。每個(gè)基線用不同的種子進(jìn)行五次，我們報(bào)告平均性能和標(biāo)準(zhǔn)差。 “/”表示數(shù)據(jù)集不包含支持基于圖的方法的用戶關(guān)系。最佳和次佳結(jié)果以粗體和下劃線突出顯示。）

????????我們觀察到基于圖的方法比基于特征的方法表現(xiàn)更好，所有前 3 名模型都是基于圖的。此外，很明顯可以觀察到異構(gòu) GNN 的性能優(yōu)于同構(gòu) GNN。我們推測這是因?yàn)楫悩?gòu) GNN 足以捕獲用戶之間的多重關(guān)系。RGT 可以模擬異構(gòu)RGT可以模擬用戶之間的異構(gòu)影響，在大多數(shù)數(shù)據(jù)集上實(shí)現(xiàn)最佳性能。更好地利用邊緣的權(quán)重和方向是未來潛在的研究方向。

5.3訓(xùn)練集大小的研究

????????我們選擇每 10% 的標(biāo)記用戶作為測試和驗(yàn)證集。然后，我們利用不同比例的標(biāo)記用戶作為訓(xùn)練集，從 10% 增加到 80%圖 7 顯示了不同訓(xùn)練集下的基于圖的模型性能。

?????????在不同的訓(xùn)練集下，異構(gòu) GNN 的性能優(yōu)于同構(gòu) GNN。這種現(xiàn)象與第5.2節(jié)中的結(jié)果一致。?

????????隨著更多注釋數(shù)據(jù)的使用，所有檢測模型都變得更加有效?，F(xiàn)有的帳戶檢測方法通常受到監(jiān)督并依賴于大量標(biāo)記數(shù)據(jù)。 MGTAB 的大規(guī)模有助于訓(xùn)練更好的檢測模型。此外，MGTAB 還提供了 400,000 個(gè)未標(biāo)記用戶來支持半監(jiān)督帳戶檢測方法的研究。據(jù)我們所知，MGTAB 在帳戶檢測領(lǐng)域擁有最多的未標(biāo)記用戶。

5.4 社會(huì)圖關(guān)系分析

????????在本節(jié)中，我們分析了在 MGTAB 中使用各種關(guān)系的影響。除了單一關(guān)系，我們還嘗試使用多重關(guān)系.我們隨機(jī)進(jìn)行1:1:8的分區(qū)作為訓(xùn)練、驗(yàn)證和測試集。這個(gè)分區(qū)在7.1節(jié)和7.2節(jié)的所有實(shí)驗(yàn)中共享。

? ? ? ? 表6 說明了當(dāng)使用更多關(guān)系時(shí)，基于圖形的帳戶檢測方法表現(xiàn)更好。這一趨勢表明，未來對帳戶檢測的研究應(yīng)側(cè)重于更好地利用用戶之間的多種關(guān)系。此外，我們觀察到話題共現(xiàn)在所有關(guān)系中表現(xiàn)最差。我們懷疑這是因?yàn)闃?biāo)簽共現(xiàn)是高度隨機(jī)的，兩個(gè)不相關(guān)的用戶可能會(huì)出現(xiàn)話題共現(xiàn)。雖然MGTAB為URL和話題共現(xiàn)關(guān)系提供了邊緣權(quán)重，但現(xiàn)有的基于圖的帳戶檢測模型不能充分利用它們，導(dǎo)致性能較差。

?（使用不同關(guān)系的基于圖的檢測方法在 MGTAB 上的準(zhǔn)確性。每個(gè)基線用不同的種子進(jìn)行五次，我們報(bào)告平均性能和標(biāo)準(zhǔn)差。最佳結(jié)果以粗體突出顯示）

6. 結(jié)論

????????我們介紹了 MGTAB，這是一個(gè)用于姿態(tài)檢測和機(jī)器人檢測的大規(guī)模數(shù)據(jù)集。我們使用專家注釋和多數(shù)投票來確保高質(zhì)量的注釋。為了構(gòu)建標(biāo)準(zhǔn)化數(shù)據(jù)集，我們選擇了 20 個(gè)信息增益最高的用戶特征，這些特征在實(shí)驗(yàn)中被證明是最有效的。我們提取了 7 種用戶之間的關(guān)系，并簡化了復(fù)雜的 Twitter 網(wǎng)絡(luò)。與之前的數(shù)據(jù)集相比，MGTAB 可以更好地支持基于圖的賬戶檢測方法的研究。我們的實(shí)驗(yàn)發(fā)現(xiàn)，基于圖形的方法通常比基于特征的方法更有效，并且在引入多重關(guān)系時(shí)表現(xiàn)更好。

7. 補(bǔ)充資料

7.1.特征分析

????????特征的信息增益。在用戶立場檢測中具有前 10 IG 的布爾和數(shù)值特征及其 IG 顯示在表7中。?

?????????表8顯示了機(jī)器人檢測中排名前10的 IG 及其 IG 的布爾特征和數(shù)值特征。

?????????特征有效性分析。用戶特征表示的詳細(xì)信息顯示在表10中。文獻(xiàn)中提出的許多工作都解決了帳戶檢測的不同特征。為了進(jìn)一步證明本文提取的特征的有效性，使用從不同文獻(xiàn)[18,33,61]設(shè)計(jì)的屬性特征來比較不同模型在最常用的朋友和追隨者關(guān)系下的性能[18 ].在實(shí)驗(yàn)中，我們只使用了屬性特征，結(jié)果如表11所示。

?7.2. 不同 BERT 模型的影響

????????MGTAB 數(shù)據(jù)集中包含的 54 種語言如表 9 所示。為了證明使用 LaBSE [13] 編碼的有效性，在本節(jié)中，我們采用四種預(yù)訓(xùn)練的編碼模型，LaBSE、RoBERTa [41]、SBERT [51]和 BART [37] 對用戶推文進(jìn)行編碼。

?????????使用上述模型對用戶的所有推文進(jìn)行編碼的結(jié)果顯示在表12中。與其他模型相比，使用 LaBSE 的檢測性能更好。我們推斷這是因?yàn)樵谑褂糜⒄Z預(yù)訓(xùn)練模型對多語言文本進(jìn)行編碼時(shí)會(huì)引入噪聲。LABSE可以將不同語言的文本編碼到一個(gè)共享的嵌入空間中，更適合于收集到的多語言文本。

?7.3實(shí)驗(yàn)細(xì)節(jié)

????????實(shí)驗(yàn)設(shè)置。在本文中，對于所有的 GNN 模型，我們堆疊 2 層 GNN 和兩個(gè)全連接層，中間 GNN 層的輸入和輸出維度是一致的，分別為 64、128 或 256。我們使用 ReLU 作為激活函數(shù)并將學(xué)習(xí)率設(shè)置為 0.0001 到 0.01。此外，輟學(xué)率在 0.3 到 0.5 之間。我們在 GAT 中將注意力頭的數(shù)量設(shè)置為 8。我們在 RGT 中將 transformer attention heads 和 semantic attention heads 的數(shù)量設(shè)置為 4。 S-HGN中β為0.05，其余保持默認(rèn)。我們使用 Adam 優(yōu)化器對所有 GNN 模型進(jìn)行了 300 輪訓(xùn)練。對于機(jī)器學(xué)習(xí)模型，AB 和 RF 的估計(jì)器數(shù)量分別設(shè)置為 50 和 100。我們在配備 9 個(gè) TITAN RTX GPU 的服務(wù)器上運(yùn)行了所有實(shí)驗(yàn)。

????????數(shù)據(jù)集處理。對于 SemEval-2016 T6 [47]，我們提取了 IG 的 20 個(gè)最大特征：正面詞的數(shù)量，負(fù)面詞數(shù)、正面情緒數(shù)、負(fù)面情緒數(shù)、名詞詞頻、代詞詞頻、動(dòng)詞詞頻、形容詞詞頻、特殊符號數(shù)、問號數(shù)、大寫詞數(shù)、引用詞數(shù)、轉(zhuǎn)發(fā)計(jì)數(shù)、提及計(jì)數(shù)、URL 數(shù)量、hastags 熵、hashtags 數(shù)量和大寫 hashtags 數(shù)量。對于 SemEval-2019 T7 [25]，該特征是使用 RoBERTa [41] 提取的。對于 TwiBot-20 [17]，我們遵循 [18] 進(jìn)行數(shù)據(jù)集處理和特征提取。對于 Cresci-15 [9]、Cresci-17 [10] 和 TwiBot-22 [15]，我們按照 [15] 進(jìn)行數(shù)據(jù)集處理和特征提取。

查看全文

http://www.risenshineclean.com/news/39754.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

灤平縣建設(shè)局網(wǎng)站國際新聞快報(bào)

摘要

1. 引言

2. 相關(guān)工作

2.1. 立場檢測

2.2.機(jī)器人檢測

3.數(shù)據(jù)集預(yù)處理

3.1.數(shù)據(jù)收集和清理

3.2.專家注釋

?3.3. 質(zhì)量評估

3.4.特征分析

4. 數(shù)據(jù)集構(gòu)建

4.1.特征表示構(gòu)造

4.2.關(guān)系圖構(gòu)建

5. 實(shí)驗(yàn)

5.1.實(shí)驗(yàn)設(shè)置

5.2.基準(zhǔn)性能

5.3訓(xùn)練集大小的研究

5.4 社會(huì)圖關(guān)系分析

6. 結(jié)論

7. 補(bǔ)充資料

7.1.特征分析

?7.2. 不同 BERT 模型的影響

?7.3實(shí)驗(yàn)細(xì)節(jié)

相關(guān)文章：