當(dāng)前位置：首頁 > news >正文

公司制做網(wǎng)站蘭州seo推廣

news 2025/7/3 11:42:25

公司制做網(wǎng)站,蘭州seo推廣,公司網(wǎng)站建設(shè)及維護(hù)管理總結(jié),目前國內(nèi)做情趣最好的網(wǎng)站1 任務(wù)內(nèi)容 1.1 任務(wù)背景 2022年12月1日起，新出臺(tái)的《反電信網(wǎng)絡(luò)詐騙犯罪法》正式施行，表明了我國治理當(dāng)前電信網(wǎng)絡(luò)詐騙亂象的決心。詐騙案件分類問題是打擊電信網(wǎng)路詐騙犯罪過程中的關(guān)鍵一環(huán)，根據(jù)不同的詐騙方式、手法等將其分類&#xff…

1 任務(wù)內(nèi)容

1.1 任務(wù)背景

2022年12月1日起，新出臺(tái)的《反電信網(wǎng)絡(luò)詐騙犯罪法》正式施行，表明了我國治理當(dāng)前電信網(wǎng)絡(luò)詐騙亂象的決心。詐騙案件分類問題是打擊電信網(wǎng)路詐騙犯罪過程中的關(guān)鍵一環(huán)，根據(jù)不同的詐騙方式、手法等將其分類，一方面能夠便于統(tǒng)計(jì)現(xiàn)狀，有助于公安部門掌握當(dāng)前電信網(wǎng)絡(luò)詐騙案件的分布特點(diǎn)，進(jìn)而能夠?qū)Σ煌悇e的詐騙案件作出針對(duì)性的預(yù)防、監(jiān)管、制止、偵查等措施，另一方面也有助于在向群眾進(jìn)行反詐宣傳時(shí)抓住重點(diǎn)、突出典型等。

1.2 任務(wù)簡介

文本分類是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù)，面向電信網(wǎng)絡(luò)詐騙領(lǐng)域的案件分類對(duì)智能化案件分析具有重要意義。本任務(wù)目的是對(duì)給定案件描述文本進(jìn)行分類。案件文本包含對(duì)案件的整體描述（經(jīng)過脫敏處理）。具體細(xì)節(jié)參考第2部分。

2 評(píng)測(cè)數(shù)據(jù)

2.1 數(shù)據(jù)簡介

數(shù)據(jù)采集： 案件文本內(nèi)容為案情簡述，即為受害人的筆錄，由公安部門反詐大數(shù)據(jù)平臺(tái)導(dǎo)出。

數(shù)據(jù)清洗： 從反詐大數(shù)據(jù)平臺(tái)共計(jì)導(dǎo)出 13 個(gè)類別的數(shù)據(jù)，去除了“其他類型詐騙”類別，因此最終采用 12 個(gè)類別。

脫敏處理： 去除了案件文本中的姓名、出生日期、地址、涉案網(wǎng)址、各類社交賬號(hào)以及銀行卡號(hào)碼等個(gè)人隱私或敏感信息。

分類依據(jù)： 類別體系來源于反詐大數(shù)據(jù)平臺(tái)的分類標(biāo)準(zhǔn)，主要依據(jù)受害人的法益及犯罪分子的手法進(jìn)行分類，例如冒充淘寶客服謊稱快遞丟失的，分為冒充電商物流客服類；冒充公安、檢察院、法院人員行騙的，分為冒充公檢法及政府機(jī)關(guān)類；謊稱可以幫助消除不良貸款記錄的，分為虛假政信類等等。

類別數(shù)量： 12 個(gè)類別。

2.2 數(shù)據(jù)樣例

數(shù)據(jù)以json格式存儲(chǔ)，每一條數(shù)據(jù)具有三個(gè)屬性，分別為案件編號(hào)、案情描述、案件類別。樣例如下：

{"案件編號(hào)": 28043,"案情描述": "事主（女，20歲，漢族，大專文化程度，未婚，現(xiàn)住址：）報(bào)稱2022年8月27日13時(shí)43分許在口被嫌疑人冒充快遞客服以申請(qǐng)理賠為由詐騙3634元人民幣。對(duì)方通過電話（）與事主聯(lián)系，對(duì)方自稱是中通快遞客服稱事主的快遞物件丟失現(xiàn)需要進(jìn)行理賠，事主同意后對(duì)方便讓事主將資金轉(zhuǎn)入對(duì)方所謂的“安全賬號(hào)”內(nèi)實(shí)施詐騙，事主通過網(wǎng)銀的方式轉(zhuǎn)賬。事主使用的中國農(nóng)業(yè)銀行賬號(hào)，嫌疑人信息：1、成都農(nóng)村商業(yè)銀行賬號(hào)，收款人：；2、中國建設(shè)銀行賬號(hào)，收款人：。事主快遞信息：中通快遞，.現(xiàn)場(chǎng)勘查號(hào)：。","案件類別": "冒充電商物流客服類"
},
{"案件編號(hào)": 49750,"案情描述": "2022 年 11 月 13 日 14 時(shí) 10 分 23 秒我濱河派出所接到 110 報(bào)警稱在接到自稱疾控中心詐騙電話，被騙元，接到報(bào)警民警趕到現(xiàn)場(chǎng)，經(jīng)查，報(bào)警人，在遼寧省 17 號(hào)樓 162 家中，接到自稱沈陽市疾控報(bào)警中心電話，對(duì)方稱報(bào)警人去過，報(bào)警人否認(rèn)后對(duì)方稱把電話轉(zhuǎn)接到哈爾濱市刑偵大隊(duì)，自稱刑偵大隊(duì)的人說報(bào)警人涉及一樁洗錢的案件讓報(bào)警人配合調(diào)查取證，調(diào)查取證期間讓報(bào)警人把錢存到自己的銀行卡中，并向報(bào)警人發(fā)送一個(gè)網(wǎng)址鏈接，在鏈接上進(jìn)行操作，操作完后，對(duì)方在后臺(tái)將報(bào)警人存在自己銀行卡的錢全部轉(zhuǎn)出，共轉(zhuǎn)出五筆，共計(jì)元。","案件類別": "冒充公檢法及政府機(jī)關(guān)類"
},
{"案件編號(hào)": 78494,"案情描述": "2022 年 1 月 10 日 11 時(shí)至 18 時(shí)許，受害人在的家中，接到陌生電話：（對(duì)方號(hào)碼：）對(duì)方自稱是銀保監(jiān)會(huì)的工作人員，說受害人京東 APP 里有個(gè)金條借款要關(guān)閉，否則會(huì)影響征信。后對(duì)方就讓受害人下載了“銀視訊”的會(huì)議聊天軟件，指導(dǎo)受害人如何操作，讓受害人通過手機(jī)銀行（受害人賬戶：1、交通銀行；2、紫金農(nóng)商銀行；3、中國郵政儲(chǔ)蓄銀行：；4、中國民生銀行：；）轉(zhuǎn)賬到對(duì)方指定賬戶：嫌疑人賬戶：1、中國農(nóng)業(yè)銀行；2、中國銀行；3、中國銀行；4、中國建設(shè)銀行；5、中國銀行；共計(jì)損失：元。案件編號(hào)：","案件類別": "虛假征信類"
}

2.3 數(shù)據(jù)分布

提供數(shù)據(jù)共有12個(gè)類別，類別具體分布如下表所示。

類別名稱	樣本數(shù)量
刷單返利類	35459
冒充電商物流客服類	13772
虛假網(wǎng)絡(luò)投資理財(cái)類	11836
貸款、代辦信用卡類	11105
虛假征信類	8464
虛假購物、服務(wù)類	7058
冒充公檢法及政府機(jī)關(guān)類	4563
冒充領(lǐng)導(dǎo)、熟人類	4407
網(wǎng)絡(luò)游戲產(chǎn)品虛假交易類	2155
網(wǎng)絡(luò)婚戀、交友類（非虛假網(wǎng)絡(luò)投資理財(cái)類）	1654
冒充軍警購物類	1092
網(wǎng)黑案件	1197
總計(jì)	102762

注：在數(shù)據(jù)集（訓(xùn)練集和測(cè)試集）中 “冒充軍警購物類” 的標(biāo)注為 “冒充軍警購物類詐騙” 。

訓(xùn)練集及測(cè)試集劃分如下所示。

數(shù)據(jù)劃分	樣本數(shù)量
訓(xùn)練集	82210
測(cè)試集A	10276
測(cè)試集B	10276
總計(jì)	102762

本次評(píng)測(cè)任務(wù)計(jì)劃僅采用訓(xùn)練集及測(cè)試集A以作評(píng)測(cè)。

2.4 文本長度分布

下圖展示了案情描述文本長度的分布情況，因此在預(yù)訓(xùn)練階段，我們選擇了預(yù)訓(xùn)練了一個(gè)1024長度的Nezha模型。
在這里插入圖片描述

3 評(píng)價(jià)標(biāo)準(zhǔn)

評(píng)測(cè)性能時(shí)，本任務(wù)主要采用宏平均F1值作為評(píng)價(jià)標(biāo)準(zhǔn)，即對(duì)每一類計(jì)算F1值，最后取算術(shù)平均值，其計(jì)算方式如下：
$Macro_{F1} = \frac{1}{n} \sum_{i=1}^{n} F1_{i}$
其中 $F1_i$ 為第i類的 $F 1$ 值，n為類別數(shù)，在本任務(wù)中n取12。

4 模型架構(gòu)

本文模型結(jié)構(gòu)如下圖所示，基線模型采用BERT(包括其變種)+Linear的文本分類模型架構(gòu)。并采用預(yù)訓(xùn)練、對(duì)抗訓(xùn)練和模型融合等三種主要優(yōu)化策略提升基線模型的性能。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-7RgsDA26-1690680329128)(./img/model.jpg)]

4.1 預(yù)訓(xùn)練

有效的預(yù)訓(xùn)練可以提升模型在下游任務(wù)微調(diào)的性能。本文提取數(shù)據(jù)集中的案情描述文本，在預(yù)訓(xùn)練階段添加MLM預(yù)訓(xùn)練任務(wù)，通過無監(jiān)督學(xué)習(xí)使得預(yù)訓(xùn)練語言模型獲得案件領(lǐng)域的知識(shí)，從而使模型具備對(duì)案件文本更好的語義理解和特征提取能力。MLM預(yù)訓(xùn)練使用了與【1】一致的方式，將輸入的案情描述文本隨機(jī)遮蔽，即為存在15%的概率決定對(duì)該token進(jìn)行修改，其中有80%的概率改為"[MASK]",有10%的概率被替換為一個(gè)隨機(jī)的token,有10%的概率保持不變。MLM預(yù)訓(xùn)練任務(wù)使用交叉熵?fù)p失進(jìn)行訓(xùn)練，其損失表示為公式：
$L_{mlm}=-\sum_{i=0}^{V-1}y_i^{mask}log(p_i^{mask})$
其中，V為模型詞表大小， $y_i^{mask}$ 是遮蔽字符的標(biāo)簽， $p_i^{mask}$ 表示模型預(yù)測(cè)的概率。

本文在預(yù)訓(xùn)練階段，分別預(yù)訓(xùn)練了三種中文模型，分別為nezha、Roberta和Deberta。在使用Nezha-base-wwm預(yù)訓(xùn)練語言模型時(shí)，輸入序列的最大長度為1024，在使用chinese-roberta-wwm-ext-large與Deberta(注：這里使用了兩個(gè)權(quán)重進(jìn)行實(shí)驗(yàn)，320M的進(jìn)行了預(yù)訓(xùn)練，710M的沒有進(jìn)行預(yù)訓(xùn)練，相關(guān)權(quán)重鏈接：1、Erlangshen-DeBERTa-v2-320M-Chinese：https://huggingface.co/IDEA-CCNL/Erlangshen-DeBERTa-v2-320M-Chinese；2、Erlangshen-DeBERTa-v2-710M-Chinese：https://huggingface.co/IDEA-CCNL/Erlangshen-DeBERTa-v2-710M-Chinese}預(yù)訓(xùn)練語言模型時(shí)，輸入序列的最大長度為512)。

4.2 對(duì)抗訓(xùn)練

為了增強(qiáng)模型對(duì)干擾和噪聲的抵抗能力，本文實(shí)驗(yàn)了PGD【3】、FGM【4】、FreeLB【2】等對(duì)抗訓(xùn)練技巧提升模型的魯棒性，通過實(shí)驗(yàn)性能對(duì)比，最終主要采用了FreeLB對(duì)抗訓(xùn)練。FreeLB的核心思想是通過增加對(duì)抗樣本的生成空間，引入自由生成的方法來提高模型的魯棒性。傳統(tǒng)的對(duì)抗訓(xùn)練方法通常使用固定的擾動(dòng)方法來生成對(duì)抗樣本，這可能會(huì)限制模型的泛化能力和魯棒性。相比之下，FreeLB提出了自由生成的概念，它允許生成過程中的擾動(dòng)更加多樣和自由，從而提供更豐富的訓(xùn)練信號(hào)。都是在word embedding空間上加入擾動(dòng)，然后對(duì)擾動(dòng)后的embedding進(jìn)行l(wèi)ook up，得到的詞向量再喂給模型。其原理偽代碼如表1所示。

在這里插入圖片描述

4.3 模型融合

模型融合是一種常用的技術(shù)，在文本分類比賽中被廣泛應(yīng)用，旨在提高分類模型的性能和泛化能力。模型融合通過結(jié)合多個(gè)不同的分類模型的預(yù)測(cè)結(jié)果，從而得到更準(zhǔn)確、更穩(wěn)定的最終預(yù)測(cè)結(jié)果。本文的模型融合的方法是對(duì)于每個(gè)分類模型的輸出概率進(jìn)行簡單的相加，得到最終的融合概率分布，進(jìn)一步求取最大概率的下標(biāo)獲取對(duì)應(yīng)的類別標(biāo)簽。

5 評(píng)測(cè)結(jié)果

最終相應(yīng)模型在線上提交評(píng)測(cè)的結(jié)果如下表：

在這里插入圖片描述

6 結(jié)果分析與討論

模型對(duì)比：本文使用了多個(gè)不同的預(yù)訓(xùn)練模型進(jìn)行評(píng)測(cè)，包括chinese-roberta-wwm-ext-large、nezha-base-wwm和Erlangshen-DeBERTa-v2系列模型。從線上得分來看，預(yù)訓(xùn)練后的模型普遍表現(xiàn)比預(yù)訓(xùn)練前的模型更好。

數(shù)據(jù)劃分：大部分模型使用了9:1的數(shù)據(jù)劃分比例，即將數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集。只有兩個(gè)模型（②和③）使用了全量數(shù)據(jù)進(jìn)行訓(xùn)練。使用全量數(shù)據(jù)進(jìn)行訓(xùn)練通常會(huì)有更好的效果，因?yàn)槟Ｐ涂梢愿浞值貙W(xué)習(xí)數(shù)據(jù)中的模式和規(guī)律。

輸入長度：所有模型的輸入長度都為512或1024。較長的輸入長度可以提供更多的上下文信息，有助于模型理解文本的語義和邏輯關(guān)系。然而，較長的輸入長度也會(huì)增加模型的計(jì)算負(fù)擔(dān)和訓(xùn)練時(shí)間。

模型融合：根據(jù)給出的實(shí)驗(yàn)結(jié)果，可以看出模型組合⑤+⑧+⑨獲得了最高的線上得分（0.8660677395）。這是因?yàn)檫@個(gè)組合中的模型相互補(bǔ)充，模型的融合能夠有效的提升模型的泛化能力。

此外，由于比賽提交次數(shù)有限，未提交驗(yàn)證FreeLB對(duì)抗訓(xùn)練對(duì)于結(jié)果的影響，根據(jù)本人在其他比賽的經(jīng)驗(yàn)，該策略能有效提升模型的魯棒性。

7 結(jié)論

本研究針對(duì)電信網(wǎng)絡(luò)詐騙案件的分類問題，通過采用一系列優(yōu)化策略和技巧，包括BERT的繼續(xù)預(yù)訓(xùn)練、FreeLB的對(duì)抗訓(xùn)練和模型融合，取得了顯著的成果。實(shí)驗(yàn)結(jié)果在“CCL23-Eval-任務(wù)6-電信網(wǎng)絡(luò)詐騙案件分類評(píng)測(cè)”技術(shù)評(píng)測(cè)比賽中最終成績排名第一，證明了所提出的優(yōu)化策略在提高電信網(wǎng)絡(luò)詐騙案件分類性能方面的有效性和優(yōu)越性。

通過BERT的繼續(xù)預(yù)訓(xùn)練，研究者使模型具備更好的語義理解和特征提取能力，有助于準(zhǔn)確地分類和檢測(cè)電信網(wǎng)絡(luò)詐騙案件。同時(shí)，通過FreeLB的對(duì)抗訓(xùn)練，模型的魯棒性得到增強(qiáng)，使其能夠更好地處理噪聲和干擾，提高了分類的準(zhǔn)確性。此外，采用模型融合的方法將多個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行融合，進(jìn)一步提升了分類的效果。

參考文獻(xiàn)

【1】Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, and Ziqing Yang. 2021. Pre-training with whole word masking for chinese bert. IEEE/ACM Transactions on Audio, Speech, and Language Processing,29:3504–3514.

【2】Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

【3】Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. 2017.Towards deep learning models resistant to adversarial attacks. arXiv preprint arXiv:1706.06083.

【4】Takeru Miyato, Andrew M Dai, and Ian Goodfellow. 2016. Adversarial training methods for semivised text classifification. arXiv preprint arXiv:1605.07725.

【5】Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, and Jingjing Liu. 2019. Freelb: Enhanced adversarial training for natural language understanding. arXiv preprint arXiv:1909.11764.

【6】https://github.com/GJSeason/CCL2023-FCC

查看全文

http://www.risenshineclean.com/news/34910.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网