怎樣優(yōu)化自己的網(wǎng)站百度網(wǎng)盤在線登錄
數(shù)據(jù)預(yù)處理方法主要有: 數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)變換。
1、數(shù)據(jù)清洗
數(shù)據(jù)清洗(data cleaning) :是通過填補(bǔ)缺失值、光滑噪聲數(shù)據(jù),平滑或刪除離群點(diǎn),糾正數(shù)據(jù)的不一致來達(dá)到清洗的目的。
- 缺失值處理
實(shí)際開發(fā)獲取信息和數(shù)據(jù)的過程中,會(huì)存在各類的原因?qū)е聰?shù)據(jù)丟失和空缺。針對這些缺失值的處理方法,主要是基于變量的分布特性和變量的重要性采用不同的方法。主要分為以下幾種:
刪除變量: 若變量的缺失率較高(大于80%),覆蓋率較低,且重要性較低,可以直接將變量刪除;
統(tǒng)計(jì)量填充: 若缺失率較低(小于95%)且重要性較低,則根據(jù)數(shù)據(jù)分布的情況用基本統(tǒng)計(jì)量填充(最大值、最小值、均值、中位數(shù)、眾數(shù))進(jìn)行填充;
插值法填充: 包括隨機(jī)插值、多重差補(bǔ)法、熱平臺(tái)插補(bǔ)、拉格朗日插值、牛頓插值等;
模型填充: 使用回歸、貝葉斯、隨機(jī)森林、決策樹等模型對缺失數(shù)據(jù)進(jìn)行預(yù)測;
啞變量(虛擬變量)填充: 若變量是離散型,且不同值較少,可轉(zhuǎn)換成啞變量(通常取值0或1);
總結(jié)來看,常用的做法是:先用Python中的pandas.isnull.sum() 檢測出變量的缺失比例,考慮刪除或者填充,若需要填充的變量是連續(xù)型,一般采用均值法和隨機(jī)差值進(jìn)行填充,若變量是離散型,通常采用中位數(shù)或啞變量進(jìn)行填充。
- 噪聲處理
噪聲(noise) 是被測量變量的隨機(jī)誤差或方差,是觀測點(diǎn)和真實(shí)點(diǎn)之間的誤差。
通常的處理辦法:
分箱法: 對數(shù)據(jù)進(jìn)行分箱操作,等頻或等寬分箱,然后用每個(gè)箱的平均數(shù),中位數(shù)或者邊界值(不同數(shù)據(jù)分布,處理方法不同)代替箱中所有的數(shù),起到平滑數(shù)據(jù)的作用;
回歸法: 建立該變量和預(yù)測變量的回歸模型,根據(jù)回歸系數(shù)和預(yù)測變量,反解出自變量的近似值。
- 離群點(diǎn)處理
異常值(離群點(diǎn))是數(shù)據(jù)分布的常態(tài),處于特定分布區(qū)域或范圍之外的數(shù)據(jù)通常被定義為異?;蛟肼暋.惓7譃閮煞N:
l “偽異?!?#xff0c;由于特定的業(yè)務(wù)運(yùn)營動(dòng)作產(chǎn)生,是正常反應(yīng)業(yè)務(wù)的狀態(tài),而不是數(shù)據(jù)本身的異常;
l “真異?!?#xff0c;不是由于特定的業(yè)務(wù)運(yùn)營動(dòng)作產(chǎn)生,而是數(shù)據(jù)本身分布異常,即離群點(diǎn)。
主要有以下檢測離群點(diǎn)的方法:
簡單統(tǒng)計(jì)分析:根據(jù)箱線圖、各分位點(diǎn)判斷是否存在異常,例如Python中pandas的describe函數(shù)可以快速發(fā)現(xiàn)異常值。
基于絕對離差中位數(shù)(MAD):這是一種穩(wěn)健對抗離群數(shù)據(jù)的距離值方法,采用計(jì)算各觀測值與平均值的距離總和的方法。放大了離群值的影響。
基于距離: 通過定義對象之間的臨近性度量,根據(jù)距離判斷異常對象是否遠(yuǎn)離其他對象,缺點(diǎn)是計(jì)算復(fù)雜度較高,不適用于大數(shù)據(jù)集和存在不同密度區(qū)域的數(shù)據(jù)集
基于密度: 離群點(diǎn)的局部密度顯著低于大部分近鄰點(diǎn),適用于非均勻的數(shù)據(jù)集
基于聚類: 利用聚類算法,丟棄遠(yuǎn)離其他簇的小簇。
- 不一致數(shù)據(jù)處理
實(shí)際數(shù)據(jù)生產(chǎn)過程中,由于一些人為因素或者其他原因,記錄的數(shù)據(jù)可能存在不一致的情況,需要對這些不一致數(shù)據(jù)在分析前需要進(jìn)行清理。例如,數(shù)據(jù)輸入時(shí)的錯(cuò)誤可通過和原始記錄對比進(jìn)行更正,知識(shí)工程工具也可以用來檢測違反規(guī)則的數(shù)據(jù)。
數(shù)據(jù)清洗是一項(xiàng)繁重的任務(wù),需要根據(jù)數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和解釋性來考察數(shù)據(jù),從而得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù)。
2、數(shù)據(jù)集成
多個(gè)數(shù)據(jù)源集成時(shí)會(huì)遇到的問題:實(shí)體識(shí)別問題、冗余問題、數(shù)據(jù)值的沖突和處理。
- 實(shí)體識(shí)別問題
匹配來自多個(gè)不同信息源的現(xiàn)實(shí)世界實(shí)體,數(shù)據(jù)分析者或計(jì)算機(jī)如何將兩個(gè)不同數(shù)據(jù)庫中的不同字段名指向同一實(shí)體,通常會(huì)通過數(shù)據(jù)庫或數(shù)據(jù)倉庫中的元數(shù)據(jù)(關(guān)于數(shù)據(jù)的數(shù)據(jù))來解決這個(gè)問題,避免模式集成時(shí)產(chǎn)生的錯(cuò)誤。
- 冗余問題
如果一個(gè)屬性能由另一個(gè)或另一組屬性“導(dǎo)出”,則此屬性可能是冗余的。屬性或維度命名的不一致也可能導(dǎo)致數(shù)據(jù)集中的冗余。 常用的冗余相關(guān)分析方法有皮爾遜積距系數(shù)、卡方檢驗(yàn)、數(shù)值屬性的協(xié)方差等。
- 數(shù)據(jù)值的沖突和處理
不同數(shù)據(jù)源,在統(tǒng)一合并時(shí),保持規(guī)范化,去重。
3、數(shù)據(jù)規(guī)約
隨著數(shù)據(jù)量的增加,基于傳統(tǒng)的數(shù)據(jù)分析變得非常耗時(shí)和復(fù)雜,往往使得分析不可行。數(shù)據(jù)歸約技術(shù)是用來得到數(shù)據(jù)集的規(guī)約表示,在接近或保持原始數(shù)據(jù)完整性的同時(shí)將數(shù)據(jù)集規(guī)模大大減小。對規(guī)約后的數(shù)據(jù)集分析將更有效,并可產(chǎn)生幾乎相同的分析結(jié)果。常見方法有:維度規(guī)約、維度變換、數(shù)值規(guī)約等。
- 維度規(guī)約
用于數(shù)據(jù)分析的數(shù)據(jù)可能包含數(shù)以百計(jì)的屬性,其中大部分屬性與挖掘任務(wù)不相關(guān),是冗余的。維度歸約通過刪除不相關(guān)的屬性,來減少數(shù)據(jù)量,并保證信息的損失最小。
屬性子集選擇: 目標(biāo)是找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布。在壓縮的屬性集上挖掘還有其它的優(yōu)點(diǎn),它減少了出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解。
單變量重要性: 分析單變量和目標(biāo)變量的相關(guān)性,刪除預(yù)測能力較低的變量。這種方法不同于屬性子集選擇,通常從統(tǒng)計(jì)學(xué)和信息的角度去分析。
如,通過pearson相關(guān)系數(shù)和卡方檢驗(yàn),分析目標(biāo)變量和單變量的相關(guān)性。
- 維度變換
維度變換是將現(xiàn)有數(shù)據(jù)降低到更小的維度,盡量保證數(shù)據(jù)信息的完整性,提高實(shí)踐中建模的效率。
若維度變換后的數(shù)據(jù)只能重新構(gòu)造原始數(shù)據(jù)的近似表示,則該維度變換是有損的,若可以構(gòu)造出原始數(shù)據(jù)而不丟失任何信息,則是無損的。常見有損維度變換方法:主成分分析、因子分析、奇異值分解、聚類、線性組合。
主成分分析(PCA)和因子分析(FA): PCA通過空間映射的方式,將當(dāng)前維度映射到更低的維度,使得每個(gè)變量在新空間的方差最大。FA則是找到當(dāng)前特征向量的公因子(維度更小),用公因子的線性組合來描述當(dāng)前的特征向量。
奇異值分解(SVD): SVD的降維可解釋性較低,且計(jì)算量比PCA大,一般用在稀疏矩陣上降維,例如圖片壓縮,推薦系統(tǒng)。
聚類: 將某一類具有相似性的特征聚到單個(gè)變量,從而大大降低維度。
線性組合: 將多個(gè)變量做線性回歸,根據(jù)每個(gè)變量的表決系數(shù),賦予變量權(quán)重,可將該類變量根據(jù)權(quán)重組合成一個(gè)變量。
- 數(shù)值規(guī)約
數(shù)值規(guī)約通過選擇替代的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。即用較小的數(shù)據(jù)表示替換或估計(jì)數(shù)據(jù)。
數(shù)值規(guī)約技術(shù)可以是有參的,也可以是無參的。如參數(shù)模型(只需要存放模型參數(shù),而不是實(shí)際數(shù)據(jù))或非參數(shù)方法,如聚類、抽樣和直方圖。
4、數(shù)據(jù)變換
數(shù)據(jù)變換包括對數(shù)據(jù)進(jìn)行規(guī)范化,離散化,稀疏化處理,達(dá)到適用于挖掘的目的。
- 規(guī)范化處理
數(shù)據(jù)中不同特征的量綱可能不一致,數(shù)值間的差別可能很大,不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果,因此,需要對數(shù)據(jù)按照一定比例進(jìn)行縮放,使之落在一個(gè)特定的區(qū)域,如[-1,1]區(qū)間,或[0,1]區(qū)間,便于進(jìn)行綜合分析。
- 離散化處理
數(shù)據(jù)離散化是指將連續(xù)的數(shù)據(jù)進(jìn)行分段,使其變?yōu)橐欢味坞x散化的區(qū)間。分段的原則有基于等距離、等頻率或優(yōu)化的方法。
- 稀疏化處理
針對離散型且標(biāo)稱變量,無法進(jìn)行有序的LabelEncoder時(shí),通??紤]將變量做0,1啞變量的稀疏化處理,稀疏化處理既有利于模型快速收斂,又能提升模型的抗噪能力。
文章來源:網(wǎng)絡(luò) 版權(quán)歸原作者所有
上文內(nèi)容不用于商業(yè)目的,如涉及知識(shí)產(chǎn)權(quán)問題,請權(quán)利人聯(lián)系小編,我們將立即處理