中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

java做網(wǎng)站的要求推廣普通話的意義50字

java做網(wǎng)站的要求,推廣普通話的意義50字,東莞知名企業(yè)排名,中小企業(yè)網(wǎng)絡(luò)組網(wǎng)案例來自🥬🐶程序員 Truraly | 田園 的博客,最新文章首發(fā)于:田園幻想鄉(xiāng) | 原文鏈接 | github (歡迎關(guān)注) 文章目錄 3.3.1 數(shù)據(jù)的中心趨勢(shì)平均數(shù)和加權(quán)平均數(shù)眾數(shù),中位數(shù)和均值描述數(shù)據(jù)的離散程度 &a…

來自🥬🐶程序員 Truraly | 田園 的博客,最新文章首發(fā)于:田園幻想鄉(xiāng) | 原文鏈接 | github (歡迎關(guān)注)

文章目錄

    • 3.3.1 數(shù)據(jù)的中心趨勢(shì)
      • 平均數(shù)和加權(quán)平均數(shù)
      • 眾數(shù),中位數(shù)和均值
      • 描述數(shù)據(jù)的離散程度 & 箱線圖
      • 其他描述數(shù)據(jù)的方法
    • 3.4 數(shù)據(jù)清洗
      • 3.4.1 缺失值
      • 3.4.2 數(shù)據(jù)清洗
    • 3.5 數(shù)據(jù)集成和轉(zhuǎn)換
      • 3.5.3 數(shù)據(jù)轉(zhuǎn)換
    • 3.6 數(shù)據(jù)規(guī)約和數(shù)據(jù)變換
      • 3.6.2 數(shù)據(jù)離散化


數(shù)據(jù)類型:

  1. 名稱型:區(qū)別性 比如:性別
  2. 順序型:區(qū)別性,順序性 比如:身高
  3. 間隔型:區(qū)別性,順序性,可加減 比如:溫度
  4. 比率型:區(qū)別性,順序性,可加減,可乘除 比如:百分比

為什么要預(yù)處理數(shù)據(jù):

  1. 數(shù)據(jù)不完整,比如缺失值
  2. 數(shù)據(jù)不一致,比如單位不一致
  3. 有噪聲,比如錯(cuò)誤數(shù)據(jù)

3.3.1 數(shù)據(jù)的中心趨勢(shì)

平均數(shù)和加權(quán)平均數(shù)

首先這里有一組數(shù)據(jù)

1,,53,22,39,73,9,14

(算數(shù))平均值:

x  ̄ = 1 n ∑ i = 1 n x i \overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i} x=n1?i=1n?xi?

加權(quán)平均值:

x  ̄ = ∑ i = 1 n w i x i ∑ i = 1 n w i \overline{x}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i=1}^{n}w_{i}} x=i=1n?wi?i=1n?wi?xi??

其中: w i 是權(quán)重 x i 是數(shù)據(jù) 其中: w_{i} 是權(quán)重 x_{i} 是數(shù)據(jù) 其中:wi?是權(quán)重xi?是數(shù)據(jù)

眾數(shù),中位數(shù)和均值

參考資料:偏態(tài)分布的左偏右偏如何理解?| 知乎

眾數(shù):出現(xiàn)次數(shù)最多的數(shù)

中位數(shù):將數(shù)據(jù)從小到大排列,中間的數(shù)

均值:平均數(shù)

外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳

上圖情況為左偏態(tài),反之為右偏態(tài),中間為正態(tài)

描述數(shù)據(jù)的離散程度 & 箱線圖

參考資料:箱形圖 | 百度

  • 最小值(0 分位數(shù))Q0
  • 最大值(1 分位數(shù))
  • 中位數(shù)(0.5 分位數(shù))Q2 (n+1)/2 位
  • 四分位數(shù)(0.25 分位數(shù),0.75 分位數(shù))Q1 Q3 (n+1)/4 位 (3n+3)/4 位

中間四分位數(shù)極差:IQR = Q3 - Q1

上限:Q3 + k * IQR

下限:Q1 - k * IQR

k 為一個(gè)常數(shù),經(jīng)驗(yàn)值為 1.5,區(qū)間外的數(shù)據(jù)為離群點(diǎn),可根據(jù)情況忽視或者刪除

外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳

EG:1 2 2 5 6 9 9
Q0 = 1
Q1 = 2
M = 5
Q3 = 91 2 2 5 6 7 8 9 9
Q0 = 1
Q1 = 第2.5位 = 2
M = 第5位 = 6
Q3 = 第7.5位 = 8*0.5+9*0.5 = 8.51 2 3 4 5 6 7 8
Q0 = 1
Q1 = 第2.25位 = 2*0.75+3*0.25 = 2.25
M = 第4.5位 = 4.5
Q3 = 第6.75位 = 6*0.25+7*0.75 = 6.75

其他描述數(shù)據(jù)的方法

直方圖:橫軸為數(shù)據(jù),縱軸為頻數(shù)

分位圖:橫軸為數(shù)據(jù),縱軸為累計(jì)頻數(shù)

Q-Q 圖:橫軸為理論分位數(shù),縱軸為樣本分位數(shù)

散點(diǎn)圖:橫軸為數(shù)據(jù),縱軸為數(shù)據(jù)

3.4 數(shù)據(jù)清洗

3.4.1 缺失值

缺失值的處理:

  1. 整條數(shù)據(jù)刪除
  2. 人工填寫
  3. 填寫統(tǒng)一值
  4. 使用均值或者中位數(shù)填寫(減少數(shù)據(jù)的方差)
  5. 使用類似數(shù)據(jù)的均值或者中位數(shù)填寫(進(jìn)一步減少影響)

3.4.2 數(shù)據(jù)清洗

針對(duì)數(shù)據(jù)的噪聲,比如錯(cuò)誤數(shù)據(jù),重復(fù)數(shù)據(jù),不一致數(shù)據(jù)

使用分箱方法,將數(shù)據(jù)分為多個(gè)箱子,然后將箱子中的數(shù)據(jù)替換為箱子的均值,這樣可以減少噪聲的影響(數(shù)據(jù)平滑)

  • 等寬分箱:將數(shù)據(jù)分為相同寬度的箱子,比如 0-10,10-20,20-30,依次將數(shù)據(jù)放入對(duì)應(yīng)的箱子(箱子內(nèi)數(shù)據(jù)不一致)。寬度一般為

w = m a x ( d a t a ) ? m i n ( d a t a ) N w=\frac{max(data)-min(data)}{N} w=Nmax(data)?min(data)?

  • 等頻分箱:將數(shù)據(jù)平等分為 n 份,每份數(shù)據(jù)個(gè)數(shù)相同

EG:

4 8 9 15 21 21 24 25 26 28 29 34
等寬分箱:
w = (34-4)/3 = 10
[4,14) | [14,24) | [24,34]
4 8 9 | 15 21 21 | 24 25 26 28 29 34等頻分箱:
w = 12/3 = 4 箱
4 8 9 15 | 21 21 24 25 | 26 28 29 34

3.5 數(shù)據(jù)集成和轉(zhuǎn)換

3.5.3 數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)規(guī)范化:

  1. 最大最小規(guī)范化:將數(shù)據(jù)轉(zhuǎn)換到某一區(qū)間。比如[0,1],公式為:

X ? = X ? X m i n X m a x ? X m i n X^{*}=\frac{X-X_{min}}{X_{max}-X_{min}} X?=Xmax??Xmin?X?Xmin??

  1. Z-Score 規(guī)范化:將數(shù)據(jù)轉(zhuǎn)換為均值為 0,標(biāo)準(zhǔn)差為 1 的數(shù)據(jù)。公式為:

X ? = X ? X  ̄ S X^{*}=\frac{X-\overline{X}}{S} X?=SX?X?

其中:
X  ̄ 為均值 \overline{X} 為均值 X為均值

S 為標(biāo)準(zhǔn)差

S = 1 n ∑ i = 1 n ( X i ? X  ̄ ) 2 S=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}} S=n1?i=1n?(Xi??X)2 ?

3.6 數(shù)據(jù)規(guī)約和數(shù)據(jù)變換

數(shù)據(jù)立方體聚合:將數(shù)據(jù)按照維度進(jìn)行聚合,比如按照時(shí)間維度,地理維度,產(chǎn)品維度等

線性回歸分析:使用線性方程擬合數(shù)據(jù),然后使用方程代替數(shù)據(jù)

采樣方法:對(duì)于類似的一個(gè)數(shù)據(jù)簇,可以使用其中一部分?jǐn)?shù)據(jù)代替整個(gè)簇,要注意在整體中每個(gè)簇代替的數(shù)據(jù)比例要相同

3.6.2 數(shù)據(jù)離散化

數(shù)據(jù)離散化:將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù),比如將年齡分為 0-10,10-20,20-30 等

數(shù)據(jù)離散化的方法:

  1. 基于信息增益的方法:使用熵來衡量數(shù)據(jù)的離散程度,熵越大,數(shù)據(jù)越離散,熵越小,數(shù)據(jù)越集中。使用信息增益來衡量數(shù)據(jù)的離散程度,信息增益越大,數(shù)據(jù)越離散,信息增益越小,數(shù)據(jù)越集中。信息增益的計(jì)算公式為:

I ( S , T ) = E n t r o p y ( S ) ? ∑ v ∈ T ∣ S v ∣ ∣ S ∣ E n t r o p y ( S v ) I(S,T) = Entropy(S) - \sum_{v\in T}\frac{|S_{v}|}{|S|}Entropy(S_{v}) I(S,T)=Entropy(S)?vT?SSv??Entropy(Sv?)

其中:

E n t r o p y ( S ) = ? ∑ i = 1 n p i l o g 2 p i Entropy(S) = -\sum_{i=1}^{n}p_{i}log_{2}p_{i} Entropy(S)=?i=1n?pi?log2?pi?

S 為數(shù)據(jù)集, T 為數(shù)據(jù)集的一個(gè)屬性, S v 為 T 的一個(gè)值, p i 為 S v 中第 i 個(gè)類別的概率 S 為數(shù)據(jù)集,T 為數(shù)據(jù)集的一個(gè)屬性,S_{v} 為 T 的一個(gè)值,p_{i} 為 S_{v} 中第 i 個(gè)類別的概率 S為數(shù)據(jù)集,T為數(shù)據(jù)集的一個(gè)屬性,Sv?T的一個(gè)值,pi?Sv?中第i個(gè)類別的概率

這個(gè)東西后面 ID3 決策樹會(huì)用到

  1. 基于卡方檢驗(yàn)的方法:使用卡方檢驗(yàn)來衡量數(shù)據(jù)的離散程度,卡方檢驗(yàn)越大,數(shù)據(jù)越離散,卡方檢驗(yàn)越小,數(shù)據(jù)越集中??ǚ綑z驗(yàn)的計(jì)算公式為:

χ 2 = ∑ i = 1 n ( A i ? E i ) 2 E i \chi^{2} = \sum_{i=1}^{n}\frac{(A_{i}-E_{i})^{2}}{E_{i}} χ2=i=1n?Ei?(Ai??Ei?)2?

其中:

A i 為實(shí)際值, E i 為期望值 A_{i} 為實(shí)際值,E_{i} 為期望值 Ai?為實(shí)際值,Ei?為期望值

  1. 基于自然分區(qū)的方法:使用人工的方式將數(shù)據(jù)分為多個(gè)區(qū)間,比如年齡分為 0-10,10-20,20-30 等

————————————————

版權(quán)聲明:本文為 田園幻想鄉(xiāng) 的原創(chuàng)文章,遵循 CC 4.0 BY-NA-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:http://truraly.fun/課程筆記/數(shù)據(jù)挖掘/【3】數(shù)據(jù)預(yù)處理.html

http://www.risenshineclean.com/news/5534.html

相關(guān)文章:

  • 手機(jī)開發(fā)網(wǎng)站教程如何做好一個(gè)品牌推廣
  • 尉氏做網(wǎng)站網(wǎng)絡(luò)營(yíng)銷logo
  • 網(wǎng)站建設(shè)全網(wǎng)推廣網(wǎng)絡(luò)seo優(yōu)化
  • 區(qū)塊鏈開發(fā)書籍推薦搜索引擎優(yōu)化課程
  • 高新區(qū)網(wǎng)站建設(shè)的建議免費(fèi)網(wǎng)上申請(qǐng)注冊(cè)
  • 深圳做小程序的公司排名關(guān)鍵詞seo排名怎么做的
  • 網(wǎng)站維護(hù)與建設(shè)內(nèi)容公司網(wǎng)站設(shè)計(jì)圖
  • 高端網(wǎng)站開發(fā)找哪家好企業(yè)官方網(wǎng)站怎么申請(qǐng)
  • title 鎮(zhèn)江網(wǎng)站建設(shè)免費(fèi)推廣軟件
  • 鐘表珠寶商城網(wǎng)站建設(shè)百度經(jīng)驗(yàn)官網(wǎng)
  • 惠州網(wǎng)站建設(shè)學(xué)校百度學(xué)術(shù)論文官網(wǎng)入口
  • 網(wǎng)站開發(fā)文檔包括長(zhǎng)春網(wǎng)站建設(shè)方案咨詢
  • 江蘇省建設(shè)廳網(wǎng)站施工員證查詢營(yíng)銷比較好的知名公司有哪些
  • 免費(fèi)php網(wǎng)站源碼信息流推廣渠道有哪些
  • 網(wǎng)站建設(shè)中 模版模板建站哪里有
  • 網(wǎng)站做任務(wù)賺錢優(yōu)化設(shè)計(jì)六年級(jí)下冊(cè)語文答案
  • 淄博團(tuán)購(gòu)網(wǎng)站建設(shè)紋身網(wǎng)站設(shè)計(jì)
  • 旅游酒店網(wǎng)站建設(shè)公司網(wǎng)站建設(shè)多少錢
  • 本地建設(shè)網(wǎng)站寧波網(wǎng)站制作優(yōu)化服務(wù)
  • 怎么用ps切片在dw里做網(wǎng)站百度收錄時(shí)間
  • 家具網(wǎng)站模板百度客戶電話
  • 做服裝加工哪個(gè)網(wǎng)站比較好溫州seo推廣外包
  • 黑龍江進(jìn)入疫情緊急狀態(tài)seo需要什么技術(shù)
  • 外包公司做的網(wǎng)站怎么改密碼站長(zhǎng)之家app下載
  • 1688網(wǎng)站上自己做模版專業(yè)營(yíng)銷團(tuán)隊(duì)公司
  • 阿里云網(wǎng)站如何建設(shè)視頻新浪微博指數(shù)查詢
  • 快速 模板 做網(wǎng)站百度網(wǎng)址安全檢測(cè)
  • 焦作市住房和城鄉(xiāng)建設(shè)局網(wǎng)站百度競(jìng)價(jià)推廣登陸
  • 潛江做網(wǎng)站太原做網(wǎng)站推廣的公司
  • 韶關(guān)網(wǎng)站建設(shè)網(wǎng)站排名seo