做英文企業(yè)網(wǎng)站多錢錢上海百度推廣官方電話
🌈?個人主頁:十二月的貓-CSDN博客
🔥?系列專欄:?🏀軟件開發(fā)必備知識_十二月的貓的博客-CSDN博客💪🏻?十二月的寒冬阻擋不了春天的腳步,十二點的黑夜遮蔽不住黎明的曙光
?
目錄
1. 前言
2. 數(shù)據(jù)變換?
2.1 數(shù)據(jù)規(guī)范化
?編輯?2.2 數(shù)據(jù)離散化
2.2.1 非監(jiān)督離散化
2.2.2 監(jiān)督離散化
1. 前言
在進(jìn)入這一篇文章之前,我希望大家看看另外兩篇文章
【數(shù)據(jù)處理】數(shù)據(jù)預(yù)處理·數(shù)據(jù)清理-CSDN博客
【數(shù)據(jù)處理】數(shù)據(jù)預(yù)處理·數(shù)據(jù)集成-CSDN博客
核心思想:
? ? ? ? 1、大數(shù)據(jù)中最重要的部分就是數(shù)據(jù)處理
? ? ? ? 2、數(shù)據(jù)處理中第一步就是數(shù)據(jù)預(yù)處理
? ? ? ? 3、數(shù)據(jù)預(yù)處理目的是提高數(shù)據(jù)的質(zhì)量,使得我們能使用更高質(zhì)量的數(shù)據(jù)進(jìn)行后續(xù)處理
? ? ? ? 4、數(shù)據(jù)預(yù)處理包括:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約
數(shù)據(jù)清洗:
? ? ? ? 1、缺失值處理
? ? ? ? 2、噪聲處理
數(shù)據(jù)集成:
? ? ? ? 1、數(shù)據(jù)集成中最大的問題就是數(shù)據(jù)冗余
????????2、冗余數(shù)據(jù)包括:冗余樣本、冗余屬性
? ? ? ? 3、數(shù)據(jù)冗余中最重要的部分是:冗余檢測
? ? ? ? 4、冗余檢測包括:有序數(shù)據(jù)檢測、無序數(shù)據(jù)檢測
? ? ? ? 5、檢測方式有兩個角度:a. 將數(shù)據(jù)看成向量空間的點;b. 將數(shù)據(jù)看成向量
接下來,我們進(jìn)入數(shù)據(jù)預(yù)處理的下一部分:數(shù)據(jù)變換
2. 數(shù)據(jù)變換?
定義:由于數(shù)據(jù)量之間的量綱、連續(xù)性等不同導(dǎo)致不同數(shù)據(jù)之間不能比較,因此需要通過數(shù)據(jù)變換使他們具有可比性。
數(shù)據(jù)變換包括 :數(shù)據(jù)規(guī)范化、數(shù)據(jù)離散化
2.1 數(shù)據(jù)規(guī)范化
目的:將不同數(shù)據(jù)(屬性)按一定規(guī)則進(jìn)行縮放,使它們具有可比性
舉個例子:體重和身高兩個數(shù)據(jù)量之間不能比較,因為量綱不同,因此需要規(guī)范化?
最小-最大規(guī)范化:(對原始數(shù)據(jù)進(jìn)行線性變換。把數(shù)據(jù)A的觀察值v從原始的 區(qū)間[minA,maxA]映 射到新區(qū)間 [new_minA,new_maxA])【0-1規(guī)范化又稱為歸一化】
0-1規(guī)范化:
[minA,maxA] - [new_minA,new_maxA]規(guī)范化:
?
用處:能夠調(diào)節(jié)兩個屬性的量綱,讓兩者可以比較?
缺點:噪聲影響非常大,對離群值很敏感
因此,提出z-score規(guī)范化!!!!
z-score規(guī)范化:
小數(shù)定標(biāo)規(guī)范化:?
?2.2 數(shù)據(jù)離散化
連續(xù)數(shù)據(jù)過于細(xì)致,數(shù)據(jù)之間的關(guān)系難以分析,劃分為離散化的區(qū)間,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián),便于算法處理。
- 思考什么是離散化?
- 離散化本質(zhì)就是限制類的數(shù)量
- 限制類的數(shù)量其核心思想和平滑是相同的
- 平滑也就是我們進(jìn)行數(shù)據(jù)清洗(缺失、噪聲處理)的核心思想
2.2.1 非監(jiān)督離散化
- 分箱
- 聚類
?
2.2.2 監(jiān)督離散化
- 熵的計算
熵的本質(zhì)思想:信息不確定性越大,價值越大
例如:
1、“太陽從東邊升起來”這個信息沒有不確定性,這是一個必然事實。那么這個信息對于我們來說是沒有價值的。
2、“特朗普將贏得大選”這個信息不確定性相當(dāng)大(特朗普不一定贏)。因此,我們聽到這個信息會很好奇,為什么特朗普將贏,因此這個信息價值很大。
那么如何利用熵來對數(shù)據(jù)進(jìn)行離散化呢?
離散化:就是把數(shù)據(jù)的類別減少(限制類別數(shù)量)。
因此,利用熵來實現(xiàn)離散化的關(guān)鍵在于:為連續(xù)的數(shù)據(jù)進(jìn)行有限的分類。
問題的關(guān)鍵就轉(zhuǎn)化為:如何利用熵有效的對數(shù)據(jù)進(jìn)行分類
分類方法:
- D:待分類數(shù)據(jù)集
- a:數(shù)據(jù)集的特征屬性
- V:數(shù)據(jù)集特征屬性a的不同分類集合(V是我們找max過程中需要改變的)
舉個例子:
如果想要學(xué)習(xí)更多深度學(xué)習(xí)知識,大家可以點個關(guān)注并訂閱,持續(xù)學(xué)習(xí)、天天進(jìn)步
你的點贊就是我更新的動力,如果覺得對你有幫助,辛苦友友點個贊,收個藏呀~~~