中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

公司制做網(wǎng)站蘭州seo推廣

公司制做網(wǎng)站,蘭州seo推廣,公司網(wǎng)站建設(shè)及維護(hù)管理總結(jié),目前國內(nèi)做情趣最好的網(wǎng)站1 任務(wù)內(nèi)容 1.1 任務(wù)背景 2022年12月1日起,新出臺(tái)的《反電信網(wǎng)絡(luò)詐騙犯罪法》正式施行,表明了我國治理當(dāng)前電信網(wǎng)絡(luò)詐騙亂象的決心。詐騙案件分類問題是打擊電信網(wǎng)路詐騙犯罪過程中的關(guān)鍵一環(huán),根據(jù)不同的詐騙方式、手法等將其分類&#xff…

1 任務(wù)內(nèi)容

1.1 任務(wù)背景

2022年12月1日起,新出臺(tái)的《反電信網(wǎng)絡(luò)詐騙犯罪法》正式施行,表明了我國治理當(dāng)前電信網(wǎng)絡(luò)詐騙亂象的決心。詐騙案件分類問題是打擊電信網(wǎng)路詐騙犯罪過程中的關(guān)鍵一環(huán),根據(jù)不同的詐騙方式、手法等將其分類,一方面能夠便于統(tǒng)計(jì)現(xiàn)狀,有助于公安部門掌握當(dāng)前電信網(wǎng)絡(luò)詐騙案件的分布特點(diǎn),進(jìn)而能夠?qū)Σ煌悇e的詐騙案件作出針對(duì)性的預(yù)防、監(jiān)管、制止、偵查等措施,另一方面也有助于在向群眾進(jìn)行反詐宣傳時(shí)抓住重點(diǎn)、突出典型等。

1.2 任務(wù)簡介

文本分類是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù),面向電信網(wǎng)絡(luò)詐騙領(lǐng)域的案件分類對(duì)智能化案件分析具有重要意義。本任務(wù)目的是對(duì)給定案件描述文本進(jìn)行分類。案件文本包含對(duì)案件的整體描述(經(jīng)過脫敏處理)。具體細(xì)節(jié)參考第2部分。

2 評(píng)測(cè)數(shù)據(jù)

2.1 數(shù)據(jù)簡介

數(shù)據(jù)采集: 案件文本內(nèi)容為案情簡述,即為受害人的筆錄,由公安部門反詐大數(shù)據(jù)平臺(tái)導(dǎo)出。

數(shù)據(jù)清洗: 從反詐大數(shù)據(jù)平臺(tái)共計(jì)導(dǎo)出 13 個(gè)類別的數(shù)據(jù),去除了“其他類型詐騙”類別,因此最終采用 12 個(gè)類別。

脫敏處理: 去除了案件文本中的姓名、出生日期、地址、涉案網(wǎng)址、各類社交賬號(hào)以及銀行卡號(hào)碼等個(gè)人隱私或敏感信息。

分類依據(jù): 類別體系來源于反詐大數(shù)據(jù)平臺(tái)的分類標(biāo)準(zhǔn),主要依據(jù)受害人的法益及犯罪分子的手法進(jìn)行分類,例如冒充淘寶客服謊稱快遞丟失的,分為冒充電商物流客服類;冒充公安、檢察院、法院人員行騙的,分為冒充公檢法及政府機(jī)關(guān)類;謊稱可以幫助消除不良貸款記錄的,分為虛假政信類等等。

類別數(shù)量: 12 個(gè)類別。

2.2 數(shù)據(jù)樣例

數(shù)據(jù)以json格式存儲(chǔ),每一條數(shù)據(jù)具有三個(gè)屬性,分別為案件編號(hào)、案情描述、案件類別。樣例如下:

{"案件編號(hào)": 28043,"案情描述": "事主(女,20歲,漢族,大專文化程度,未婚,現(xiàn)住址:)報(bào)稱2022年8月27日13時(shí)43分許在口被嫌疑人冒充快遞客服以申請(qǐng)理賠為由詐騙3634元人民幣。對(duì)方通過電話()與事主聯(lián)系,對(duì)方自稱是中通快遞客服稱事主的快遞物件丟失現(xiàn)需要進(jìn)行理賠,事主同意后對(duì)方便讓事主將資金轉(zhuǎn)入對(duì)方所謂的“安全賬號(hào)”內(nèi)實(shí)施詐騙,事主通過網(wǎng)銀的方式轉(zhuǎn)賬。事主使用的中國農(nóng)業(yè)銀行賬號(hào),嫌疑人信息:1、成都農(nóng)村商業(yè)銀行賬號(hào),收款人:;2、中國建設(shè)銀行賬號(hào),收款人:。事主快遞信息:中通快遞,.現(xiàn)場(chǎng)勘查號(hào):。","案件類別": "冒充電商物流客服類"
},
{"案件編號(hào)": 49750,"案情描述": "2022 年 11 月 13 日 14 時(shí) 10 分 23 秒我濱河派出所接到 110 報(bào)警稱在接到自稱疾控中心詐騙電話,被騙元,接到報(bào)警民警趕到現(xiàn)場(chǎng),經(jīng)查,報(bào)警人,在遼寧省 17 號(hào)樓 162 家中,接到自稱沈陽市疾控報(bào)警中心電話,對(duì)方稱報(bào)警人去過,報(bào)警人否認(rèn)后對(duì)方稱把電話轉(zhuǎn)接到哈爾濱市刑偵大隊(duì),自稱刑偵大隊(duì)的人說報(bào)警人涉及一樁洗錢的案件讓報(bào)警人配合調(diào)查取證,調(diào)查取證期間讓報(bào)警人把錢存到自己的銀行卡中,并向報(bào)警人發(fā)送一個(gè)網(wǎng)址鏈接,在鏈接上進(jìn)行操作,操作完后,對(duì)方在后臺(tái)將報(bào)警人存在自己銀行卡的錢全部轉(zhuǎn)出,共轉(zhuǎn)出五筆,共計(jì)元。","案件類別": "冒充公檢法及政府機(jī)關(guān)類"
},
{"案件編號(hào)": 78494,"案情描述": "2022 年 1 月 10 日 11 時(shí)至 18 時(shí)許,受害人在的家中,接到陌生電話:(對(duì)方號(hào)碼:)對(duì)方自稱是銀保監(jiān)會(huì)的工作人員,說受害人京東 APP 里有個(gè)金條借款要關(guān)閉,否則會(huì)影響征信。后對(duì)方就讓受害人下載了“銀視訊”的會(huì)議聊天軟件,指導(dǎo)受害人如何操作,讓受害人通過手機(jī)銀行(受害人賬戶:1、交通銀行;2、紫金農(nóng)商銀行;3、中國郵政儲(chǔ)蓄銀行:;4、中國民生銀行:;)轉(zhuǎn)賬到對(duì)方指定賬戶:嫌疑人賬戶:1、中國農(nóng)業(yè)銀行;2、中國銀行;3、中國銀行;4、中國建設(shè)銀行;5、中國銀行;共計(jì)損失:元。案件編號(hào):","案件類別": "虛假征信類"
}

2.3 數(shù)據(jù)分布

提供數(shù)據(jù)共有12個(gè)類別,類別具體分布如下表所示。

類別名稱樣本數(shù)量
刷單返利類35459
冒充電商物流客服類13772
虛假網(wǎng)絡(luò)投資理財(cái)類11836
貸款、代辦信用卡類11105
虛假征信類8464
虛假購物、服務(wù)類7058
冒充公檢法及政府機(jī)關(guān)類4563
冒充領(lǐng)導(dǎo)、熟人類4407
網(wǎng)絡(luò)游戲產(chǎn)品虛假交易類2155
網(wǎng)絡(luò)婚戀、交友類(非虛假網(wǎng)絡(luò)投資理財(cái)類)1654
冒充軍警購物類1092
網(wǎng)黑案件1197
總計(jì)102762

注:在數(shù)據(jù)集(訓(xùn)練集和測(cè)試集)中 “冒充軍警購物類” 的標(biāo)注為 “冒充軍警購物類詐騙” 。

訓(xùn)練集及測(cè)試集劃分如下所示。

數(shù)據(jù)劃分樣本數(shù)量
訓(xùn)練集82210
測(cè)試集A10276
測(cè)試集B10276
總計(jì)102762

本次評(píng)測(cè)任務(wù)計(jì)劃僅采用訓(xùn)練集及測(cè)試集A以作評(píng)測(cè)。

2.4 文本長度分布

下圖展示了案情描述文本長度的分布情況,因此在預(yù)訓(xùn)練階段,我們選擇了預(yù)訓(xùn)練了一個(gè)1024長度的Nezha模型。
在這里插入圖片描述

3 評(píng)價(jià)標(biāo)準(zhǔn)

評(píng)測(cè)性能時(shí),本任務(wù)主要采用宏平均F1值作為評(píng)價(jià)標(biāo)準(zhǔn),即對(duì)每一類計(jì)算F1值,最后取算術(shù)平均值,其計(jì)算方式如下:
M a c r o F 1 = 1 n ∑ i = 1 n F 1 i Macro_{F1} = \frac{1}{n} \sum_{i=1}^{n} F1_{i} MacroF1?=n1?i=1n?F1i?
其中 F 1 i F1_i F1i? 為第i類的 F 1 F1 F1 值,n為類別數(shù),在本任務(wù)中n取12。

4 模型架構(gòu)

本文模型結(jié)構(gòu)如下圖所示,基線模型采用BERT(包括其變種)+Linear的文本分類模型架構(gòu)。并采用預(yù)訓(xùn)練、對(duì)抗訓(xùn)練和模型融合等三種主要優(yōu)化策略提升基線模型的性能。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-7RgsDA26-1690680329128)(./img/model.jpg)]

4.1 預(yù)訓(xùn)練

有效的預(yù)訓(xùn)練可以提升模型在下游任務(wù)微調(diào)的性能。本文提取數(shù)據(jù)集中的案情描述文本,在預(yù)訓(xùn)練階段添加MLM預(yù)訓(xùn)練任務(wù),通過無監(jiān)督學(xué)習(xí)使得預(yù)訓(xùn)練語言模型獲得案件領(lǐng)域的知識(shí),從而使模型具備對(duì)案件文本更好的語義理解和特征提取能力。MLM預(yù)訓(xùn)練使用了與【1】一致的方式,將輸入的案情描述文本隨機(jī)遮蔽,即為存在15%的概率決定對(duì)該token進(jìn)行修改,其中有80%的概率改為"[MASK]",有10%的概率被替換為一個(gè)隨機(jī)的token,有10%的概率保持不變。MLM預(yù)訓(xùn)練任務(wù)使用交叉熵?fù)p失進(jìn)行訓(xùn)練,其損失表示為公式:
L m l m = ? ∑ i = 0 V ? 1 y i m a s k l o g ( p i m a s k ) L_{mlm}=-\sum_{i=0}^{V-1}y_i^{mask}log(p_i^{mask}) Lmlm?=?i=0V?1?yimask?log(pimask?)
其中,V為模型詞表大小, y i m a s k y_i^{mask} yimask?是遮蔽字符的標(biāo)簽, p i m a s k p_i^{mask} pimask?表示模型預(yù)測(cè)的概率。

本文在預(yù)訓(xùn)練階段,分別預(yù)訓(xùn)練了三種中文模型,分別為nezha、Roberta和Deberta。在使用Nezha-base-wwm預(yù)訓(xùn)練語言模型時(shí),輸入序列的最大長度為1024,在使用chinese-roberta-wwm-ext-large與Deberta(注:這里使用了兩個(gè)權(quán)重進(jìn)行實(shí)驗(yàn),320M的進(jìn)行了預(yù)訓(xùn)練,710M的沒有進(jìn)行預(yù)訓(xùn)練,相關(guān)權(quán)重鏈接:1、Erlangshen-DeBERTa-v2-320M-Chinese:https://huggingface.co/IDEA-CCNL/Erlangshen-DeBERTa-v2-320M-Chinese;2、Erlangshen-DeBERTa-v2-710M-Chinese:https://huggingface.co/IDEA-CCNL/Erlangshen-DeBERTa-v2-710M-Chinese}預(yù)訓(xùn)練語言模型時(shí),輸入序列的最大長度為512)。

4.2 對(duì)抗訓(xùn)練

為了增強(qiáng)模型對(duì)干擾和噪聲的抵抗能力,本文實(shí)驗(yàn)了PGD【3】、FGM【4】、FreeLB【2】等對(duì)抗訓(xùn)練技巧提升模型的魯棒性,通過實(shí)驗(yàn)性能對(duì)比,最終主要采用了FreeLB對(duì)抗訓(xùn)練。FreeLB的核心思想是通過增加對(duì)抗樣本的生成空間,引入自由生成的方法來提高模型的魯棒性。傳統(tǒng)的對(duì)抗訓(xùn)練方法通常使用固定的擾動(dòng)方法來生成對(duì)抗樣本,這可能會(huì)限制模型的泛化能力和魯棒性。相比之下,FreeLB提出了自由生成的概念,它允許生成過程中的擾動(dòng)更加多樣和自由,從而提供更豐富的訓(xùn)練信號(hào)。都是在word embedding空間上加入擾動(dòng),然后對(duì)擾動(dòng)后的embedding進(jìn)行l(wèi)ook up,得到的詞向量再喂給模型。其原理偽代碼如表1所示。

在這里插入圖片描述

4.3 模型融合

模型融合是一種常用的技術(shù),在文本分類比賽中被廣泛應(yīng)用,旨在提高分類模型的性能和泛化能力。模型融合通過結(jié)合多個(gè)不同的分類模型的預(yù)測(cè)結(jié)果,從而得到更準(zhǔn)確、更穩(wěn)定的最終預(yù)測(cè)結(jié)果。本文的模型融合的方法是對(duì)于每個(gè)分類模型的輸出概率進(jìn)行簡單的相加,得到最終的融合概率分布,進(jìn)一步求取最大概率的下標(biāo)獲取對(duì)應(yīng)的類別標(biāo)簽。

5 評(píng)測(cè)結(jié)果

最終相應(yīng)模型在線上提交評(píng)測(cè)的結(jié)果如下表:

在這里插入圖片描述

6 結(jié)果分析與討論

模型對(duì)比:本文使用了多個(gè)不同的預(yù)訓(xùn)練模型進(jìn)行評(píng)測(cè),包括chinese-roberta-wwm-ext-large、nezha-base-wwm和Erlangshen-DeBERTa-v2系列模型。從線上得分來看,預(yù)訓(xùn)練后的模型普遍表現(xiàn)比預(yù)訓(xùn)練前的模型更好。

數(shù)據(jù)劃分:大部分模型使用了9:1的數(shù)據(jù)劃分比例,即將數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集。只有兩個(gè)模型(②和③)使用了全量數(shù)據(jù)進(jìn)行訓(xùn)練。使用全量數(shù)據(jù)進(jìn)行訓(xùn)練通常會(huì)有更好的效果,因?yàn)槟P涂梢愿浞值貙W(xué)習(xí)數(shù)據(jù)中的模式和規(guī)律。

輸入長度:所有模型的輸入長度都為512或1024。較長的輸入長度可以提供更多的上下文信息,有助于模型理解文本的語義和邏輯關(guān)系。然而,較長的輸入長度也會(huì)增加模型的計(jì)算負(fù)擔(dān)和訓(xùn)練時(shí)間。

模型融合:根據(jù)給出的實(shí)驗(yàn)結(jié)果,可以看出模型組合⑤+⑧+⑨獲得了最高的線上得分(0.8660677395)。這是因?yàn)檫@個(gè)組合中的模型相互補(bǔ)充,模型的融合能夠有效的提升模型的泛化能力。

此外,由于比賽提交次數(shù)有限,未提交驗(yàn)證FreeLB對(duì)抗訓(xùn)練對(duì)于結(jié)果的影響,根據(jù)本人在其他比賽的經(jīng)驗(yàn),該策略能有效提升模型的魯棒性。

7 結(jié)論

本研究針對(duì)電信網(wǎng)絡(luò)詐騙案件的分類問題,通過采用一系列優(yōu)化策略和技巧,包括BERT的繼續(xù)預(yù)訓(xùn)練、FreeLB的對(duì)抗訓(xùn)練和模型融合,取得了顯著的成果。實(shí)驗(yàn)結(jié)果在“CCL23-Eval-任務(wù)6-電信網(wǎng)絡(luò)詐騙案件分類評(píng)測(cè)”技術(shù)評(píng)測(cè)比賽中最終成績排名第一,證明了所提出的優(yōu)化策略在提高電信網(wǎng)絡(luò)詐騙案件分類性能方面的有效性和優(yōu)越性。

通過BERT的繼續(xù)預(yù)訓(xùn)練,研究者使模型具備更好的語義理解和特征提取能力,有助于準(zhǔn)確地分類和檢測(cè)電信網(wǎng)絡(luò)詐騙案件。同時(shí),通過FreeLB的對(duì)抗訓(xùn)練,模型的魯棒性得到增強(qiáng),使其能夠更好地處理噪聲和干擾,提高了分類的準(zhǔn)確性。此外,采用模型融合的方法將多個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行融合,進(jìn)一步提升了分類的效果。

參考文獻(xiàn)

【1】Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, and Ziqing Yang. 2021. Pre-training with whole word masking for chinese bert. IEEE/ACM Transactions on Audio, Speech, and Language Processing,29:3504–3514.

【2】Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

【3】Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. 2017.Towards deep learning models resistant to adversarial attacks. arXiv preprint arXiv:1706.06083.

【4】Takeru Miyato, Andrew M Dai, and Ian Goodfellow. 2016. Adversarial training methods for semivised text classifification. arXiv preprint arXiv:1605.07725.

【5】Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, and Jingjing Liu. 2019. Freelb: Enhanced adversarial training for natural language understanding. arXiv preprint arXiv:1909.11764.

【6】https://github.com/GJSeason/CCL2023-FCC

http://www.risenshineclean.com/news/34910.html

相關(guān)文章:

  • 我要建立自己的網(wǎng)站百度關(guān)鍵詞排名優(yōu)化工具
  • 在百度上怎么建網(wǎng)站模板網(wǎng)站
  • wordpress 詞庫肇慶seo排名外包
  • 做旅游門票網(wǎng)站需要什么材料seo推廣教學(xué)
  • 桂林建站網(wǎng)站seo關(guān)鍵詞優(yōu)化技巧
  • win7 iis網(wǎng)站設(shè)置百度下載官網(wǎng)
  • 宜昌教育培訓(xùn)網(wǎng)站建設(shè)南昌企業(yè)網(wǎng)站建設(shè)
  • 做免費(fèi)資料分享網(wǎng)站會(huì)不會(huì)涉及版權(quán)企業(yè)營銷培訓(xùn)課程
  • 濟(jì)南語委網(wǎng)站網(wǎng)絡(luò)最有效的推廣方法
  • 設(shè)計(jì)簡單的網(wǎng)站山東seo首頁關(guān)鍵詞優(yōu)化
  • 網(wǎng)站如何安裝源碼網(wǎng)絡(luò)推廣策劃書
  • 優(yōu)秀網(wǎng)站建設(shè)哪個(gè)公司好狼雨seo網(wǎng)站
  • 日?qǐng)?bào)做的地方網(wǎng)站近期發(fā)生的新聞
  • 做家裝網(wǎng)站客戶來源多嗎百度百家號(hào)怎么賺錢
  • 做網(wǎng)站怎么租個(gè)域名百度搜索引擎的優(yōu)缺點(diǎn)
  • 廣告網(wǎng)站 源碼搜索網(wǎng)站排名
  • 現(xiàn)在那個(gè)網(wǎng)站做視頻最賺錢嗎湖南靠譜關(guān)鍵詞優(yōu)化
  • 做公司網(wǎng)站軟件鄭州百度seo關(guān)鍵詞
  • 建站之星網(wǎng)站模板百度sem認(rèn)證
  • 坪山網(wǎng)站建設(shè)服務(wù)寧波seo關(guān)鍵詞如何優(yōu)化
  • 電子商務(wù)網(wǎng)站開發(fā)設(shè)計(jì)報(bào)告書seo免費(fèi)入門教程
  • 河北省建設(shè)集團(tuán)有限公司網(wǎng)站百度查重免費(fèi)入口
  • 做網(wǎng)站能力介紹模板之家官網(wǎng)
  • wordpress 響應(yīng)式產(chǎn)品展示站微信營銷推廣的方式有哪些
  • 寧波網(wǎng)站開發(fā)公司湘潭關(guān)鍵詞優(yōu)化公司
  • 商務(wù)網(wǎng)站欣賞營銷管理系統(tǒng)
  • 貴陽網(wǎng)站設(shè)計(jì)焊工培訓(xùn)內(nèi)容
  • 網(wǎng)站LOGO透明底色PNG格式怎么做的最新足球賽事
  • 自己做網(wǎng)站還是用別人網(wǎng)站網(wǎng)絡(luò)做推廣公司
  • 建立網(wǎng)站的步驟 實(shí)湖南嵐鴻寧波網(wǎng)站制作與推廣價(jià)格