java做網(wǎng)站的要求推廣普通話的意義50字
來自🥬🐶程序員 Truraly | 田園 的博客,最新文章首發(fā)于:田園幻想鄉(xiāng) | 原文鏈接 | github (歡迎關(guān)注)
文章目錄
- 3.3.1 數(shù)據(jù)的中心趨勢(shì)
- 平均數(shù)和加權(quán)平均數(shù)
- 眾數(shù),中位數(shù)和均值
- 描述數(shù)據(jù)的離散程度 & 箱線圖
- 其他描述數(shù)據(jù)的方法
- 3.4 數(shù)據(jù)清洗
- 3.4.1 缺失值
- 3.4.2 數(shù)據(jù)清洗
- 3.5 數(shù)據(jù)集成和轉(zhuǎn)換
- 3.5.3 數(shù)據(jù)轉(zhuǎn)換
- 3.6 數(shù)據(jù)規(guī)約和數(shù)據(jù)變換
- 3.6.2 數(shù)據(jù)離散化
數(shù)據(jù)類型:
- 名稱型:區(qū)別性 比如:性別
- 順序型:區(qū)別性,順序性 比如:身高
- 間隔型:區(qū)別性,順序性,可加減 比如:溫度
- 比率型:區(qū)別性,順序性,可加減,可乘除 比如:百分比
為什么要預(yù)處理數(shù)據(jù):
- 數(shù)據(jù)不完整,比如缺失值
- 數(shù)據(jù)不一致,比如單位不一致
- 有噪聲,比如錯(cuò)誤數(shù)據(jù)
3.3.1 數(shù)據(jù)的中心趨勢(shì)
平均數(shù)和加權(quán)平均數(shù)
首先這里有一組數(shù)據(jù)
1,,53,22,39,73,9,14
(算數(shù))平均值:
x  ̄ = 1 n ∑ i = 1 n x i \overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i} x=n1?∑i=1n?xi?
加權(quán)平均值:
x  ̄ = ∑ i = 1 n w i x i ∑ i = 1 n w i \overline{x}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i=1}^{n}w_{i}} x=∑i=1n?wi?∑i=1n?wi?xi??
其中: w i 是權(quán)重 x i 是數(shù)據(jù) 其中: w_{i} 是權(quán)重 x_{i} 是數(shù)據(jù) 其中:wi?是權(quán)重xi?是數(shù)據(jù)
眾數(shù),中位數(shù)和均值
參考資料:偏態(tài)分布的左偏右偏如何理解?| 知乎
眾數(shù):出現(xiàn)次數(shù)最多的數(shù)
中位數(shù):將數(shù)據(jù)從小到大排列,中間的數(shù)
均值:平均數(shù)
上圖情況為左偏態(tài),反之為右偏態(tài),中間為正態(tài)
描述數(shù)據(jù)的離散程度 & 箱線圖
參考資料:箱形圖 | 百度
- 最小值(0 分位數(shù))Q0
- 最大值(1 分位數(shù))
- 中位數(shù)(0.5 分位數(shù))Q2 (n+1)/2 位
- 四分位數(shù)(0.25 分位數(shù),0.75 分位數(shù))Q1 Q3 (n+1)/4 位 (3n+3)/4 位
中間四分位數(shù)極差:IQR = Q3 - Q1
上限:Q3 + k * IQR
下限:Q1 - k * IQR
k 為一個(gè)常數(shù),經(jīng)驗(yàn)值為 1.5,區(qū)間外的數(shù)據(jù)為離群點(diǎn),可根據(jù)情況忽視或者刪除
EG:1 2 2 5 6 9 9
Q0 = 1
Q1 = 2
M = 5
Q3 = 91 2 2 5 6 7 8 9 9
Q0 = 1
Q1 = 第2.5位 = 2
M = 第5位 = 6
Q3 = 第7.5位 = 8*0.5+9*0.5 = 8.51 2 3 4 5 6 7 8
Q0 = 1
Q1 = 第2.25位 = 2*0.75+3*0.25 = 2.25
M = 第4.5位 = 4.5
Q3 = 第6.75位 = 6*0.25+7*0.75 = 6.75
其他描述數(shù)據(jù)的方法
直方圖:橫軸為數(shù)據(jù),縱軸為頻數(shù)
分位圖:橫軸為數(shù)據(jù),縱軸為累計(jì)頻數(shù)
Q-Q 圖:橫軸為理論分位數(shù),縱軸為樣本分位數(shù)
散點(diǎn)圖:橫軸為數(shù)據(jù),縱軸為數(shù)據(jù)
3.4 數(shù)據(jù)清洗
3.4.1 缺失值
缺失值的處理:
- 整條數(shù)據(jù)刪除
- 人工填寫
- 填寫統(tǒng)一值
- 使用均值或者中位數(shù)填寫(減少數(shù)據(jù)的方差)
- 使用類似數(shù)據(jù)的均值或者中位數(shù)填寫(進(jìn)一步減少影響)
3.4.2 數(shù)據(jù)清洗
針對(duì)數(shù)據(jù)的噪聲,比如錯(cuò)誤數(shù)據(jù),重復(fù)數(shù)據(jù),不一致數(shù)據(jù)
使用分箱方法,將數(shù)據(jù)分為多個(gè)箱子,然后將箱子中的數(shù)據(jù)替換為箱子的均值,這樣可以減少噪聲的影響(數(shù)據(jù)平滑)
- 等寬分箱:將數(shù)據(jù)分為相同寬度的箱子,比如 0-10,10-20,20-30,依次將數(shù)據(jù)放入對(duì)應(yīng)的箱子(箱子內(nèi)數(shù)據(jù)不一致)。寬度一般為
w = m a x ( d a t a ) ? m i n ( d a t a ) N w=\frac{max(data)-min(data)}{N} w=Nmax(data)?min(data)?
- 等頻分箱:將數(shù)據(jù)平等分為 n 份,每份數(shù)據(jù)個(gè)數(shù)相同
EG:
4 8 9 15 21 21 24 25 26 28 29 34
等寬分箱:
w = (34-4)/3 = 10
[4,14) | [14,24) | [24,34]
4 8 9 | 15 21 21 | 24 25 26 28 29 34等頻分箱:
w = 12/3 = 4 箱
4 8 9 15 | 21 21 24 25 | 26 28 29 34
3.5 數(shù)據(jù)集成和轉(zhuǎn)換
3.5.3 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)規(guī)范化:
- 最大最小規(guī)范化:將數(shù)據(jù)轉(zhuǎn)換到某一區(qū)間。比如[0,1],公式為:
X ? = X ? X m i n X m a x ? X m i n X^{*}=\frac{X-X_{min}}{X_{max}-X_{min}} X?=Xmax??Xmin?X?Xmin??
- Z-Score 規(guī)范化:將數(shù)據(jù)轉(zhuǎn)換為均值為 0,標(biāo)準(zhǔn)差為 1 的數(shù)據(jù)。公式為:
X ? = X ? X  ̄ S X^{*}=\frac{X-\overline{X}}{S} X?=SX?X?
其中:
X  ̄ 為均值 \overline{X} 為均值 X為均值
S 為標(biāo)準(zhǔn)差
S = 1 n ∑ i = 1 n ( X i ? X  ̄ ) 2 S=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}} S=n1?∑i=1n?(Xi??X)2?
3.6 數(shù)據(jù)規(guī)約和數(shù)據(jù)變換
數(shù)據(jù)立方體聚合:將數(shù)據(jù)按照維度進(jìn)行聚合,比如按照時(shí)間維度,地理維度,產(chǎn)品維度等
線性回歸分析:使用線性方程擬合數(shù)據(jù),然后使用方程代替數(shù)據(jù)
采樣方法:對(duì)于類似的一個(gè)數(shù)據(jù)簇,可以使用其中一部分?jǐn)?shù)據(jù)代替整個(gè)簇,要注意在整體中每個(gè)簇代替的數(shù)據(jù)比例要相同
3.6.2 數(shù)據(jù)離散化
數(shù)據(jù)離散化:將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù),比如將年齡分為 0-10,10-20,20-30 等
數(shù)據(jù)離散化的方法:
- 基于信息增益的方法:使用熵來衡量數(shù)據(jù)的離散程度,熵越大,數(shù)據(jù)越離散,熵越小,數(shù)據(jù)越集中。使用信息增益來衡量數(shù)據(jù)的離散程度,信息增益越大,數(shù)據(jù)越離散,信息增益越小,數(shù)據(jù)越集中。信息增益的計(jì)算公式為:
I ( S , T ) = E n t r o p y ( S ) ? ∑ v ∈ T ∣ S v ∣ ∣ S ∣ E n t r o p y ( S v ) I(S,T) = Entropy(S) - \sum_{v\in T}\frac{|S_{v}|}{|S|}Entropy(S_{v}) I(S,T)=Entropy(S)?∑v∈T?∣S∣∣Sv?∣?Entropy(Sv?)
其中:
E n t r o p y ( S ) = ? ∑ i = 1 n p i l o g 2 p i Entropy(S) = -\sum_{i=1}^{n}p_{i}log_{2}p_{i} Entropy(S)=?∑i=1n?pi?log2?pi?
S 為數(shù)據(jù)集, T 為數(shù)據(jù)集的一個(gè)屬性, S v 為 T 的一個(gè)值, p i 為 S v 中第 i 個(gè)類別的概率 S 為數(shù)據(jù)集,T 為數(shù)據(jù)集的一個(gè)屬性,S_{v} 為 T 的一個(gè)值,p_{i} 為 S_{v} 中第 i 個(gè)類別的概率 S為數(shù)據(jù)集,T為數(shù)據(jù)集的一個(gè)屬性,Sv?為T的一個(gè)值,pi?為Sv?中第i個(gè)類別的概率
這個(gè)東西后面 ID3 決策樹會(huì)用到
- 基于卡方檢驗(yàn)的方法:使用卡方檢驗(yàn)來衡量數(shù)據(jù)的離散程度,卡方檢驗(yàn)越大,數(shù)據(jù)越離散,卡方檢驗(yàn)越小,數(shù)據(jù)越集中??ǚ綑z驗(yàn)的計(jì)算公式為:
χ 2 = ∑ i = 1 n ( A i ? E i ) 2 E i \chi^{2} = \sum_{i=1}^{n}\frac{(A_{i}-E_{i})^{2}}{E_{i}} χ2=∑i=1n?Ei?(Ai??Ei?)2?
其中:
A i 為實(shí)際值, E i 為期望值 A_{i} 為實(shí)際值,E_{i} 為期望值 Ai?為實(shí)際值,Ei?為期望值
- 基于自然分區(qū)的方法:使用人工的方式將數(shù)據(jù)分為多個(gè)區(qū)間,比如年齡分為 0-10,10-20,20-30 等
————————————————
版權(quán)聲明:本文為 田園幻想鄉(xiāng) 的原創(chuàng)文章,遵循 CC 4.0 BY-NA-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:http://truraly.fun/課程筆記/數(shù)據(jù)挖掘/【3】數(shù)據(jù)預(yù)處理.html