中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

怎樣優(yōu)化自己的網(wǎng)站百度網(wǎng)盤在線登錄

怎樣優(yōu)化自己的網(wǎng)站,百度網(wǎng)盤在線登錄,鄭州影視公司,手繪風(fēng)格的網(wǎng)站數(shù)據(jù)預(yù)處理方法主要有: 數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)變換。 1、數(shù)據(jù)清洗 數(shù)據(jù)清洗(data cleaning) :是通過填補(bǔ)缺失值、光滑噪聲數(shù)據(jù),平滑或刪除離群點(diǎn),糾正數(shù)據(jù)的不一致來達(dá)到清洗的目的。 缺失值處理 實(shí)際開發(fā)獲取信…

數(shù)據(jù)預(yù)處理方法主要有: 數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)變換。

1、數(shù)據(jù)清洗

數(shù)據(jù)清洗(data cleaning) :是通過填補(bǔ)缺失值、光滑噪聲數(shù)據(jù),平滑或刪除離群點(diǎn),糾正數(shù)據(jù)的不一致來達(dá)到清洗的目的。

  1. 缺失值處理

實(shí)際開發(fā)獲取信息和數(shù)據(jù)的過程中,會(huì)存在各類的原因?qū)е聰?shù)據(jù)丟失和空缺。針對這些缺失值的處理方法,主要是基于變量的分布特性和變量的重要性采用不同的方法。主要分為以下幾種:

刪除變量: 若變量的缺失率較高(大于80%),覆蓋率較低,且重要性較低,可以直接將變量刪除;

統(tǒng)計(jì)量填充: 若缺失率較低(小于95%)且重要性較低,則根據(jù)數(shù)據(jù)分布的情況用基本統(tǒng)計(jì)量填充(最大值、最小值、均值、中位數(shù)、眾數(shù))進(jìn)行填充;

插值法填充: 包括隨機(jī)插值、多重差補(bǔ)法、熱平臺(tái)插補(bǔ)、拉格朗日插值、牛頓插值等;

模型填充: 使用回歸、貝葉斯、隨機(jī)森林、決策樹等模型對缺失數(shù)據(jù)進(jìn)行預(yù)測;

啞變量(虛擬變量)填充: 若變量是離散型,且不同值較少,可轉(zhuǎn)換成啞變量(通常取值0或1);

總結(jié)來看,常用的做法是:先用Python中的pandas.isnull.sum() 檢測出變量的缺失比例,考慮刪除或者填充,若需要填充的變量是連續(xù)型,一般采用均值法和隨機(jī)差值進(jìn)行填充,若變量是離散型,通常采用中位數(shù)或啞變量進(jìn)行填充。

  1. 噪聲處理

噪聲(noise) 是被測量變量的隨機(jī)誤差或方差,是觀測點(diǎn)和真實(shí)點(diǎn)之間的誤差。

通常的處理辦法:

分箱法: 對數(shù)據(jù)進(jìn)行分箱操作,等頻或等寬分箱,然后用每個(gè)箱的平均數(shù),中位數(shù)或者邊界值(不同數(shù)據(jù)分布,處理方法不同)代替箱中所有的數(shù),起到平滑數(shù)據(jù)的作用;

回歸法: 建立該變量和預(yù)測變量的回歸模型,根據(jù)回歸系數(shù)和預(yù)測變量,反解出自變量的近似值。

  1. 離群點(diǎn)處理

異常值(離群點(diǎn))是數(shù)據(jù)分布的常態(tài),處于特定分布區(qū)域或范圍之外的數(shù)據(jù)通常被定義為異?;蛟肼暋.惓7譃閮煞N:

l “偽異?!?#xff0c;由于特定的業(yè)務(wù)運(yùn)營動(dòng)作產(chǎn)生,是正常反應(yīng)業(yè)務(wù)的狀態(tài),而不是數(shù)據(jù)本身的異常;

l “真異?!?#xff0c;不是由于特定的業(yè)務(wù)運(yùn)營動(dòng)作產(chǎn)生,而是數(shù)據(jù)本身分布異常,即離群點(diǎn)。

主要有以下檢測離群點(diǎn)的方法:

簡單統(tǒng)計(jì)分析:根據(jù)箱線圖、各分位點(diǎn)判斷是否存在異常,例如Python中pandas的describe函數(shù)可以快速發(fā)現(xiàn)異常值。

基于絕對離差中位數(shù)(MAD):這是一種穩(wěn)健對抗離群數(shù)據(jù)的距離值方法,采用計(jì)算各觀測值與平均值的距離總和的方法。放大了離群值的影響。

基于距離: 通過定義對象之間的臨近性度量,根據(jù)距離判斷異常對象是否遠(yuǎn)離其他對象,缺點(diǎn)是計(jì)算復(fù)雜度較高,不適用于大數(shù)據(jù)集和存在不同密度區(qū)域的數(shù)據(jù)集

基于密度: 離群點(diǎn)的局部密度顯著低于大部分近鄰點(diǎn),適用于非均勻的數(shù)據(jù)集

基于聚類: 利用聚類算法,丟棄遠(yuǎn)離其他簇的小簇。

  1. 不一致數(shù)據(jù)處理

實(shí)際數(shù)據(jù)生產(chǎn)過程中,由于一些人為因素或者其他原因,記錄的數(shù)據(jù)可能存在不一致的情況,需要對這些不一致數(shù)據(jù)在分析前需要進(jìn)行清理。例如,數(shù)據(jù)輸入時(shí)的錯(cuò)誤可通過和原始記錄對比進(jìn)行更正,知識(shí)工程工具也可以用來檢測違反規(guī)則的數(shù)據(jù)。

數(shù)據(jù)清洗是一項(xiàng)繁重的任務(wù),需要根據(jù)數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和解釋性來考察數(shù)據(jù),從而得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù)。

2、數(shù)據(jù)集成

多個(gè)數(shù)據(jù)源集成時(shí)會(huì)遇到的問題:實(shí)體識(shí)別問題、冗余問題、數(shù)據(jù)值的沖突和處理。

  1. 實(shí)體識(shí)別問題

匹配來自多個(gè)不同信息源的現(xiàn)實(shí)世界實(shí)體,數(shù)據(jù)分析者或計(jì)算機(jī)如何將兩個(gè)不同數(shù)據(jù)庫中的不同字段名指向同一實(shí)體,通常會(huì)通過數(shù)據(jù)庫或數(shù)據(jù)倉庫中的元數(shù)據(jù)(關(guān)于數(shù)據(jù)的數(shù)據(jù))來解決這個(gè)問題,避免模式集成時(shí)產(chǎn)生的錯(cuò)誤。

  1. 冗余問題

如果一個(gè)屬性能由另一個(gè)或另一組屬性“導(dǎo)出”,則此屬性可能是冗余的。屬性或維度命名的不一致也可能導(dǎo)致數(shù)據(jù)集中的冗余。 常用的冗余相關(guān)分析方法有皮爾遜積距系數(shù)、卡方檢驗(yàn)、數(shù)值屬性的協(xié)方差等。

  1. 數(shù)據(jù)值的沖突和處理

不同數(shù)據(jù)源,在統(tǒng)一合并時(shí),保持規(guī)范化,去重。

3、數(shù)據(jù)規(guī)約

隨著數(shù)據(jù)量的增加,基于傳統(tǒng)的數(shù)據(jù)分析變得非常耗時(shí)和復(fù)雜,往往使得分析不可行。數(shù)據(jù)歸約技術(shù)是用來得到數(shù)據(jù)集的規(guī)約表示,在接近或保持原始數(shù)據(jù)完整性的同時(shí)將數(shù)據(jù)集規(guī)模大大減小。對規(guī)約后的數(shù)據(jù)集分析將更有效,并可產(chǎn)生幾乎相同的分析結(jié)果。常見方法有:維度規(guī)約、維度變換、數(shù)值規(guī)約等。

  1. 維度規(guī)約

用于數(shù)據(jù)分析的數(shù)據(jù)可能包含數(shù)以百計(jì)的屬性,其中大部分屬性與挖掘任務(wù)不相關(guān),是冗余的。維度歸約通過刪除不相關(guān)的屬性,來減少數(shù)據(jù)量,并保證信息的損失最小。

屬性子集選擇: 目標(biāo)是找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布。在壓縮的屬性集上挖掘還有其它的優(yōu)點(diǎn),它減少了出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解。

單變量重要性: 分析單變量和目標(biāo)變量的相關(guān)性,刪除預(yù)測能力較低的變量。這種方法不同于屬性子集選擇,通常從統(tǒng)計(jì)學(xué)和信息的角度去分析。

如,通過pearson相關(guān)系數(shù)和卡方檢驗(yàn),分析目標(biāo)變量和單變量的相關(guān)性。

  1. 維度變換

維度變換是將現(xiàn)有數(shù)據(jù)降低到更小的維度,盡量保證數(shù)據(jù)信息的完整性,提高實(shí)踐中建模的效率。

若維度變換后的數(shù)據(jù)只能重新構(gòu)造原始數(shù)據(jù)的近似表示,則該維度變換是有損的,若可以構(gòu)造出原始數(shù)據(jù)而不丟失任何信息,則是無損的。常見有損維度變換方法:主成分分析、因子分析、奇異值分解、聚類、線性組合。

主成分分析(PCA)和因子分析(FA): PCA通過空間映射的方式,將當(dāng)前維度映射到更低的維度,使得每個(gè)變量在新空間的方差最大。FA則是找到當(dāng)前特征向量的公因子(維度更小),用公因子的線性組合來描述當(dāng)前的特征向量。

奇異值分解(SVD): SVD的降維可解釋性較低,且計(jì)算量比PCA大,一般用在稀疏矩陣上降維,例如圖片壓縮,推薦系統(tǒng)。

聚類: 將某一類具有相似性的特征聚到單個(gè)變量,從而大大降低維度。

線性組合: 將多個(gè)變量做線性回歸,根據(jù)每個(gè)變量的表決系數(shù),賦予變量權(quán)重,可將該類變量根據(jù)權(quán)重組合成一個(gè)變量。

  1. 數(shù)值規(guī)約

數(shù)值規(guī)約通過選擇替代的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。即用較小的數(shù)據(jù)表示替換或估計(jì)數(shù)據(jù)。

數(shù)值規(guī)約技術(shù)可以是有參的,也可以是無參的。如參數(shù)模型(只需要存放模型參數(shù),而不是實(shí)際數(shù)據(jù))或非參數(shù)方法,如聚類、抽樣和直方圖。

4、數(shù)據(jù)變換

數(shù)據(jù)變換包括對數(shù)據(jù)進(jìn)行規(guī)范化,離散化,稀疏化處理,達(dá)到適用于挖掘的目的。

  1. 規(guī)范化處理

數(shù)據(jù)中不同特征的量綱可能不一致,數(shù)值間的差別可能很大,不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果,因此,需要對數(shù)據(jù)按照一定比例進(jìn)行縮放,使之落在一個(gè)特定的區(qū)域,如[-1,1]區(qū)間,或[0,1]區(qū)間,便于進(jìn)行綜合分析。

  1. 離散化處理

數(shù)據(jù)離散化是指將連續(xù)的數(shù)據(jù)進(jìn)行分段,使其變?yōu)橐欢味坞x散化的區(qū)間。分段的原則有基于等距離、等頻率或優(yōu)化的方法。

  1. 稀疏化處理

針對離散型且標(biāo)稱變量,無法進(jìn)行有序的LabelEncoder時(shí),通??紤]將變量做0,1啞變量的稀疏化處理,稀疏化處理既有利于模型快速收斂,又能提升模型的抗噪能力。

文章來源:網(wǎng)絡(luò) 版權(quán)歸原作者所有

上文內(nèi)容不用于商業(yè)目的,如涉及知識(shí)產(chǎn)權(quán)問題,請權(quán)利人聯(lián)系小編,我們將立即處理

http://www.risenshineclean.com/news/7109.html

相關(guān)文章:

  • 外貿(mào)網(wǎng)站支付接口短視頻營銷方式有哪些
  • 中國最好的網(wǎng)站器域名統(tǒng)一幫忙推廣的平臺(tái)
  • 嘉定網(wǎng)站建設(shè)哪家好網(wǎng)站排名怎么搜索靠前
  • 企業(yè)團(tuán)建公司搜索引擎優(yōu)化效果
  • wordpress日歷怎么同步懷柔網(wǎng)站整站優(yōu)化公司
  • 導(dǎo)航網(wǎng)址網(wǎng)站怎么做google關(guān)鍵詞搜索技巧
  • 網(wǎng)站建設(shè)白溝亞馬遜seo什么意思
  • 平面設(shè)計(jì)作品圖片大全吉安seo網(wǎng)站快速排名
  • 政府網(wǎng)站模板 php山東seo網(wǎng)絡(luò)推廣
  • 做網(wǎng)站需要注冊商標(biāo)第幾類seo優(yōu)化設(shè)計(jì)
  • 制作商品網(wǎng)站網(wǎng)頁代碼模板
  • 網(wǎng)站網(wǎng)站開發(fā)的公司免費(fèi)招收手游代理
  • 測試wordpress響應(yīng)速度合肥seo
  • 廈門網(wǎng)站建設(shè)方案書臨沂色度廣告有限公司
  • 做網(wǎng)站遵義優(yōu)化師是一份怎樣的工作
  • 餓了嗎網(wǎng)站wordpress百度收錄網(wǎng)站鏈接入口
  • 武漢網(wǎng)站制作電話搜狗推廣助手
  • 做盜文網(wǎng)站2020最成功的網(wǎng)絡(luò)營銷
  • 桂林網(wǎng)站制作公司短視頻精準(zhǔn)獲客
  • 邯鄲網(wǎng)站建設(shè)公司哪家好外貿(mào)網(wǎng)站建設(shè) google
  • 一個(gè)網(wǎng)站空間可以做多少個(gè)網(wǎng)站seo基本步驟
  • php做學(xué)校網(wǎng)站免費(fèi)怎么注冊電商平臺(tái)
  • 泉州(晉江)網(wǎng)站建設(shè)html靜態(tài)網(wǎng)頁制作
  • 沈陽網(wǎng)站制作列表網(wǎng)整站seo教程
  • 高端平面設(shè)計(jì)網(wǎng)站seo優(yōu)化方式
  • 云南省城鄉(xiāng)住房與建設(shè)廳網(wǎng)站網(wǎng)頁搜索優(yōu)化
  • 洛陽網(wǎng)站seo免費(fèi)推廣
  • 電子商務(wù)網(wǎng)站建設(shè)規(guī)劃書的內(nèi)容seo是搜索引擎營銷嗎
  • 鹽城網(wǎng)站建設(shè)效果google中文搜索引擎
  • 南昌縣住房和城鄉(xiāng)建設(shè)局網(wǎng)站seo文章是什么意思