怎么用joomla做網(wǎng)站新公司怎么做網(wǎng)絡(luò)推廣
引言
信貸風(fēng)險(xiǎn)數(shù)據(jù)建模是金融機(jī)構(gòu)在數(shù)據(jù)量日益龐雜的時(shí)代進(jìn)行信貸業(yè)務(wù)風(fēng)控的關(guān)鍵技術(shù)。它能夠幫助機(jī)構(gòu)更好地控制風(fēng)險(xiǎn)、減少違約損失,并提高業(yè)務(wù)效率。通過不斷優(yōu)化建模方法和利用建模工具,金融機(jī)構(gòu)的風(fēng)險(xiǎn)控制能力得到了顯著提升。
在本文中,一位來自國內(nèi)頭部互聯(lián)網(wǎng)銀行的零售信貸風(fēng)險(xiǎn)建模專家使用RapidMiner軟件進(jìn)行信用卡違約預(yù)測建模全過程。鑒于數(shù)據(jù)保密原則和法規(guī),他選擇了公開的UCI臺(tái)灣信用卡數(shù)據(jù)集進(jìn)行試驗(yàn)和演示。
讓我們一起來看看他的最終試驗(yàn)過程和結(jié)論。
01、數(shù)據(jù)集簡介
我們用到的數(shù)據(jù)集是UCI臺(tái)灣信用卡數(shù)據(jù)集,它是一個(gè)由UCI維護(hù)的公開機(jī)器學(xué)習(xí)數(shù)據(jù)集,用于信用卡違約預(yù)測,該場景是信貸風(fēng)控最常見的應(yīng)用場景。該數(shù)據(jù)集由臺(tái)灣的一家信用卡公司提供,包含 2005 至 2017 年期間客戶的人口學(xué)統(tǒng)計(jì)特征、信用情況、信用卡還款、信用卡賬單、信用卡付款等維度的數(shù)據(jù),整個(gè)數(shù)據(jù)集包含30000條記錄、25個(gè)字段。
先來認(rèn)識(shí)一下數(shù)據(jù)集各字段的具體含義:
-
ID:客戶ID;
-
LIMIT_BAL:信用額度,包含個(gè)人信用額度和家庭信用額度;
-
SEX:性別,1-男、2-女;
-
EDUCATION:教育水平,1-研究生、2-本科、3-高中、4-其他、0/5/6-未知;
-
MARRIAGE:婚姻狀態(tài),1-已婚、2-單身、3-其他;
-
AGE:年齡;
-
PAY_0:2005年9月的還款狀態(tài),-2-未消費(fèi)、-1-按時(shí)還款、1-延遲1個(gè)月還款、2-延遲2個(gè)月還款,依次類推,8-延遲8個(gè)月還款、9-延遲9個(gè)月還款;
-
PAY_2~PAY_6:分別對應(yīng)2005年8月至2005年4月的還款狀態(tài),特征碼值同上;
-
BILL_AMT1~BILL_AMT6:分別為2005年9月至2005年4月每月的賬單金額,即每月信用卡消費(fèi)金額;
-
PAY_AMT1~PAY_AMT6:分別為2005年9月至2005年4月每月的付款金額,包括還賬單金額和存入信用卡金額;
-
default_payment_next_month:目標(biāo)變量,數(shù)據(jù)集的預(yù)測變量,變量含義為下個(gè)月還款違約情況,1-是-逾期、0-否-未逾期。
補(bǔ)充說明:
-
若PAY_AMT低于銀行規(guī)定的最低還款額,則視為違約;
-
若PAY_AMT大于上月賬單金額BILL_AMT,則視為正常還款;
-
若PAY_AMT大于最低還款額但低于上月賬單金額,則視為延遲還款。
02、利用RapidMiner的Turbo Prep
模塊進(jìn)行數(shù)據(jù)探索分析
圖1 - RapidMiner歡迎界面
啟動(dòng)RapidMiner 后,如圖1,我們從Turbo Prep進(jìn)入數(shù)據(jù)準(zhǔn)備模塊,該模塊可完成數(shù)據(jù)探索分析、數(shù)據(jù)清洗和特征組合衍生等工作。
(1)數(shù)據(jù)概覽
圖2 - 數(shù)據(jù)導(dǎo)入
將已準(zhǔn)備好的UCI臺(tái)灣信用卡數(shù)據(jù)集導(dǎo)入。基于對數(shù)據(jù)集的認(rèn)識(shí),ID為客戶ID、default_payment_next_month為目標(biāo)變量,在“Format your columns”環(huán)節(jié)將以上兩個(gè)字段的列屬性分別調(diào)整為“id”和“l(fā)abel”。
圖3 - 數(shù)據(jù)概覽界面
完成導(dǎo)入,我們則會(huì)看到如圖3所示的數(shù)據(jù)集概覽。對于每一列數(shù)據(jù),我們可以快速地查看分布直方圖的縮略圖、綜合有效度線條、數(shù)據(jù)類型等概覽信息。右鍵查看數(shù)據(jù)列詳情,則可觀測到更多的統(tǒng)計(jì)信息,如圖4包括匯總信息如缺失率Missing、極限值占比Infinite、ID屬性程度ID-ness、穩(wěn)定性Stability、有效觀測值占比Valid,統(tǒng)計(jì)信息最值、均值、標(biāo)準(zhǔn)差,以及粗略的變量分布圖。
圖4 - 數(shù)據(jù)列詳細(xì)信息
(2)可視化探索
應(yīng)用Turbo Prep的CHARTS圖表來對數(shù)據(jù)進(jìn)行交互式可視化。如圖5所示,Turbo Prep支持十分豐富的圖表類型,折線圖、散點(diǎn)圖、面積圖、直方圖、密度圖、熱圖、餅圖、帕累托圖等均可完美支持。
圖5 - Turbo Prep支持的圖表類型
如圖6,展示了按照EDUCATION教育水平進(jìn)行分組后,對ID列進(jìn)行計(jì)數(shù)統(tǒng)計(jì),以餅圖的形式展示了不同教育水平的分布占比。
圖6 - 餅圖
Turbo Prep的CHARTS圖表功能使得數(shù)據(jù)可視化工作更加靈活高效,可幫助數(shù)據(jù)科學(xué)家更好的洞察數(shù)據(jù)模式,并進(jìn)行有效的信息傳遞。
(3)數(shù)據(jù)透視
數(shù)據(jù)透視通過分組匯總和聚合分析,快速查看數(shù)據(jù)的趨勢、模式和異常值。
圖7 - 信用額度透視分析
圖8 - 違約比例透視分析
例如我們想要觀測在性別和婚姻狀態(tài)的分組下,信用額度及信用卡違約情況是如何變化的。
如圖7,“已婚”人士通??色@得更高的信用額度,“已婚男性”分組下平均信用額度最高,“其他男性”分組下平均信用額度最低。
如圖8,無論男性還是女性,均為婚姻狀態(tài)為“其他”分組下的違約比例最高,而且各婚姻狀態(tài)下,男性的違約比例都要高于女性。
綜合分析,在婚姻狀態(tài)中,除“已婚”、“單身”,“其他”往往意味著離異或喪偶等婚姻狀態(tài),蘊(yùn)含著潛在的經(jīng)濟(jì)不穩(wěn)定性,所以金融機(jī)構(gòu)給予“其他”客戶以較低的信用額度,體現(xiàn)到逾期表現(xiàn)上違約比例也是最高的。
如何評(píng)價(jià)RapidMiner?
Altair RapidMiner作為一款強(qiáng)大的可視化數(shù)據(jù)科學(xué)計(jì)算平臺(tái)產(chǎn)品,其在數(shù)據(jù)探索分析中的優(yōu)勢包括:
高易用性:從數(shù)據(jù)導(dǎo)入到單變量分析、圖表分析、聚合透視分析,RapidMiner在操作上體現(xiàn)了較高的易用性,整個(gè)數(shù)據(jù)探索分析工作僅借助產(chǎn)品簡潔的說明信息即可完成;
強(qiáng)大的圖表可視化功能:RapidMiner強(qiáng)大的圖表功能有效解決了數(shù)據(jù)探索分析的可視化工作,通過豐富的圖表類型揭示數(shù)據(jù)的內(nèi)在模式;
交互體驗(yàn)好:RapidMiner數(shù)據(jù)準(zhǔn)備模塊的PIVOT數(shù)據(jù)透視功能中,拖拉式操作、實(shí)時(shí)聚合計(jì)算、透視分析結(jié)果可視化展示,體現(xiàn)了極佳的交互體驗(yàn)。
——某互聯(lián)網(wǎng)銀行風(fēng)控建模團(tuán)隊(duì)主管
如您對數(shù)據(jù)分析以及人工智能感興趣,想要站在全球視野看待人工智能的發(fā)展,
那么,一定不要錯(cuò)過6月20日由Altair主辦的全球線上會(huì)議“AI for Engineers”
會(huì)議將邀請全球知名專家與權(quán)威學(xué)者,共同探討生成式人工智能(GenAI) 如何助力產(chǎn)品設(shè)計(jì)研發(fā),
點(diǎn)擊立即免費(fèi)報(bào)名
關(guān)于?Altair?RapidMiner
Altair RapidMiner 數(shù)據(jù)分析與人工智能平臺(tái),是 Altair 澳汰爾公司旗下仿真、HPC 和數(shù)據(jù)分析三塊主營業(yè)務(wù)中的解決方案,它在數(shù)據(jù)分析領(lǐng)域最早實(shí)現(xiàn)將自動(dòng)化數(shù)據(jù)科學(xué)、文本分析、自動(dòng)特征工程和深度學(xué)習(xí)等多種功能同時(shí)集成的一站式數(shù)據(jù)分析平臺(tái),幫助用戶解決從數(shù)據(jù)清洗、準(zhǔn)備、數(shù)據(jù)科學(xué)建模到模型管理和部署,同時(shí)又支持?jǐn)?shù)據(jù)和流數(shù)據(jù)的實(shí)時(shí)分析可視化的數(shù)據(jù)分析平臺(tái)。
欲了解更多信息,歡迎訪問:
www.altair.com.cn