當(dāng)前位置：首頁 > news >正文

java做網(wǎng)站的要求推廣普通話的意義50字

news 2025/7/10 4:22:39

java做網(wǎng)站的要求,推廣普通話的意義50字,東莞知名企業(yè)排名,中小企業(yè)網(wǎng)絡(luò)組網(wǎng)案例來自🥬🐶程序員 Truraly | 田園的博客，最新文章首發(fā)于：田園幻想鄉(xiāng) | 原文鏈接 | github （歡迎關(guān)注） 文章目錄 3.3.1 數(shù)據(jù)的中心趨勢(shì)平均數(shù)和加權(quán)平均數(shù)眾數(shù)，中位數(shù)和均值描述數(shù)據(jù)的離散程度 &a…

來自🥬🐶程序員 Truraly | 田園 的博客，最新文章首發(fā)于：田園幻想鄉(xiāng) | 原文鏈接 | github （歡迎關(guān)注）

文章目錄

- 3.3.1 數(shù)據(jù)的中心趨勢(shì)
- - 平均數(shù)和加權(quán)平均數(shù)
  - 眾數(shù)，中位數(shù)和均值
  - 描述數(shù)據(jù)的離散程度 & 箱線圖
  - 其他描述數(shù)據(jù)的方法
- 3.4 數(shù)據(jù)清洗
- - 3.4.1 缺失值
  - 3.4.2 數(shù)據(jù)清洗
- 3.5 數(shù)據(jù)集成和轉(zhuǎn)換
- - 3.5.3 數(shù)據(jù)轉(zhuǎn)換
- 3.6 數(shù)據(jù)規(guī)約和數(shù)據(jù)變換
- - 3.6.2 數(shù)據(jù)離散化

數(shù)據(jù)類型：

名稱型：區(qū)別性比如：性別
順序型：區(qū)別性，順序性比如：身高
間隔型：區(qū)別性，順序性，可加減比如：溫度
比率型：區(qū)別性，順序性，可加減，可乘除比如：百分比

為什么要預(yù)處理數(shù)據(jù)：

數(shù)據(jù)不完整，比如缺失值
數(shù)據(jù)不一致，比如單位不一致
有噪聲，比如錯(cuò)誤數(shù)據(jù)

3.3.1 數(shù)據(jù)的中心趨勢(shì)

平均數(shù)和加權(quán)平均數(shù)

首先這里有一組數(shù)據(jù)

1,,53,22,39,73,9,14

（算數(shù)）平均值：

$\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}$

加權(quán)平均值：

$\overline{x}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i=1}^{n}w_{i}}$

$其中： w_{i} 是權(quán)重 x_{i} 是數(shù)據(jù)$

眾數(shù)，中位數(shù)和均值

參考資料：偏態(tài)分布的左偏右偏如何理解？| 知乎

眾數(shù)：出現(xiàn)次數(shù)最多的數(shù)

中位數(shù)：將數(shù)據(jù)從小到大排列，中間的數(shù)

均值：平均數(shù)

外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳

上圖情況為左偏態(tài)，反之為右偏態(tài)，中間為正態(tài)

描述數(shù)據(jù)的離散程度 & 箱線圖

參考資料：箱形圖 | 百度

最小值（0 分位數(shù)）Q0
最大值（1 分位數(shù)）
中位數(shù)（0.5 分位數(shù)）Q2 (n+1)/2 位
四分位數(shù)（0.25 分位數(shù)，0.75 分位數(shù)）Q1 Q3 (n+1)/4 位 (3n+3)/4 位

中間四分位數(shù)極差：IQR = Q3 - Q1

上限：Q3 + k * IQR

下限：Q1 - k * IQR

k 為一個(gè)常數(shù)，經(jīng)驗(yàn)值為 1.5，區(qū)間外的數(shù)據(jù)為離群點(diǎn)，可根據(jù)情況忽視或者刪除

外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳

EG：1 2 2 5 6 9 9
Q0 = 1
Q1 = 2
M = 5
Q3 = 91 2 2 5 6 7 8 9 9
Q0 = 1
Q1 = 第2.5位 = 2
M = 第5位 = 6
Q3 = 第7.5位 = 8*0.5+9*0.5 = 8.51 2 3 4 5 6 7 8
Q0 = 1
Q1 = 第2.25位 = 2*0.75+3*0.25 = 2.25
M = 第4.5位 = 4.5
Q3 = 第6.75位 = 6*0.25+7*0.75 = 6.75

其他描述數(shù)據(jù)的方法

直方圖：橫軸為數(shù)據(jù)，縱軸為頻數(shù)

分位圖：橫軸為數(shù)據(jù)，縱軸為累計(jì)頻數(shù)

Q-Q 圖：橫軸為理論分位數(shù)，縱軸為樣本分位數(shù)

散點(diǎn)圖：橫軸為數(shù)據(jù)，縱軸為數(shù)據(jù)

3.4 數(shù)據(jù)清洗

3.4.1 缺失值

缺失值的處理：

整條數(shù)據(jù)刪除
人工填寫
填寫統(tǒng)一值
使用均值或者中位數(shù)填寫（減少數(shù)據(jù)的方差）
使用類似數(shù)據(jù)的均值或者中位數(shù)填寫（進(jìn)一步減少影響）

3.4.2 數(shù)據(jù)清洗

針對(duì)數(shù)據(jù)的噪聲，比如錯(cuò)誤數(shù)據(jù)，重復(fù)數(shù)據(jù)，不一致數(shù)據(jù)

使用分箱方法，將數(shù)據(jù)分為多個(gè)箱子，然后將箱子中的數(shù)據(jù)替換為箱子的均值，這樣可以減少噪聲的影響（數(shù)據(jù)平滑）

等寬分箱：將數(shù)據(jù)分為相同寬度的箱子，比如 0-10，10-20，20-30，依次將數(shù)據(jù)放入對(duì)應(yīng)的箱子（箱子內(nèi)數(shù)據(jù)不一致）。寬度一般為

$w=\frac{max(data)-min(data)}{N}$

等頻分箱：將數(shù)據(jù)平等分為 n 份，每份數(shù)據(jù)個(gè)數(shù)相同

EG：

4 8 9 15 21 21 24 25 26 28 29 34
等寬分箱：
w = (34-4)/3 = 10
[4,14) | [14,24) | [24,34]
4 8 9 | 15 21 21 | 24 25 26 28 29 34等頻分箱：
w = 12/3 = 4 箱
4 8 9 15 | 21 21 24 25 | 26 28 29 34

3.5 數(shù)據(jù)集成和轉(zhuǎn)換

3.5.3 數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)規(guī)范化：

最大最小規(guī)范化：將數(shù)據(jù)轉(zhuǎn)換到某一區(qū)間。比如[0,1]，公式為：

$X^{*}=\frac{X-X_{min}}{X_{max}-X_{min}}$

Z-Score 規(guī)范化：將數(shù)據(jù)轉(zhuǎn)換為均值為 0，標(biāo)準(zhǔn)差為 1 的數(shù)據(jù)。公式為：

$X^{*}=\frac{X-\overline{X}}{S}$

其中：
$\overline{X} 為均值$

S 為標(biāo)準(zhǔn)差

$S=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}$

3.6 數(shù)據(jù)規(guī)約和數(shù)據(jù)變換

數(shù)據(jù)立方體聚合：將數(shù)據(jù)按照維度進(jìn)行聚合，比如按照時(shí)間維度，地理維度，產(chǎn)品維度等

線性回歸分析：使用線性方程擬合數(shù)據(jù)，然后使用方程代替數(shù)據(jù)

采樣方法：對(duì)于類似的一個(gè)數(shù)據(jù)簇，可以使用其中一部分?jǐn)?shù)據(jù)代替整個(gè)簇，要注意在整體中每個(gè)簇代替的數(shù)據(jù)比例要相同

3.6.2 數(shù)據(jù)離散化

數(shù)據(jù)離散化：將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)，比如將年齡分為 0-10，10-20，20-30 等

數(shù)據(jù)離散化的方法：

基于信息增益的方法：使用熵來衡量數(shù)據(jù)的離散程度，熵越大，數(shù)據(jù)越離散，熵越小，數(shù)據(jù)越集中。使用信息增益來衡量數(shù)據(jù)的離散程度，信息增益越大，數(shù)據(jù)越離散，信息增益越小，數(shù)據(jù)越集中。信息增益的計(jì)算公式為：

$\sum_{v\in T}\frac{|S_{v}|}{|S|}Entropy(S_{v})$

其中：

$-\sum_{i=1}^{n}p_{i}log_{2}p_{i}$

$S 為數(shù)據(jù)集，T 為數(shù)據(jù)集的一個(gè)屬性，S_{v} 為 T 的一個(gè)值，p_{i} 為 S_{v} 中第 i 個(gè)類別的概率$

這個(gè)東西后面 ID3 決策樹會(huì)用到

基于卡方檢驗(yàn)的方法：使用卡方檢驗(yàn)來衡量數(shù)據(jù)的離散程度，卡方檢驗(yàn)越大，數(shù)據(jù)越離散，卡方檢驗(yàn)越小，數(shù)據(jù)越集中?？ǚ綑z驗(yàn)的計(jì)算公式為：

$\chi^{2} = \sum_{i=1}^{n}\frac{(A_{i}-E_{i})^{2}}{E_{i}}$

其中：

$A_{i} 為實(shí)際值，E_{i} 為期望值$

基于自然分區(qū)的方法：使用人工的方式將數(shù)據(jù)分為多個(gè)區(qū)間，比如年齡分為 0-10，10-20，20-30 等

————————————————

版權(quán)聲明：本文為田園幻想鄉(xiāng) 的原創(chuàng)文章，遵循 CC 4.0 BY-NA-SA 版權(quán)協(xié)議，轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接：http://truraly.fun/課程筆記/數(shù)據(jù)挖掘/【3】數(shù)據(jù)預(yù)處理.html

查看全文

http://www.risenshineclean.com/news/5534.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网