美食網(wǎng)站開發(fā)方案百度搜索結(jié)果優(yōu)化
標(biāo)準(zhǔn)化和歸一化簡介
- 1、數(shù)據(jù)預(yù)處理概述
- 2、數(shù)據(jù)標(biāo)準(zhǔn)化
- 3、數(shù)據(jù)歸一化
- 4、標(biāo)準(zhǔn)化和歸一化怎么選
1、數(shù)據(jù)預(yù)處理概述
在選擇了合適模型的前提下,機(jī)器學(xué)習(xí)可謂是“訓(xùn)練臺上3分鐘,數(shù)據(jù)數(shù)量和質(zhì)量臺下10年功”。數(shù)據(jù)的收集與準(zhǔn)備是機(jī)器學(xué)習(xí)中的重要一步,是構(gòu)建一個好的預(yù)測模型大廈的基石。數(shù)據(jù)的數(shù)量與質(zhì)量直接決定了預(yù)測模型的好壞
所以,在數(shù)據(jù)的收集與準(zhǔn)備這一步中,必須做好數(shù)據(jù)預(yù)處理。Scikit-Learn提供了標(biāo)準(zhǔn)化和歸一化等API方便我們進(jìn)行數(shù)據(jù)預(yù)處理。標(biāo)準(zhǔn)化和歸一化是常用的數(shù)據(jù)縮放方式
數(shù)據(jù)預(yù)處理的一般順序(不一定全需要做)為:處理離群值、處理缺失值、標(biāo)準(zhǔn)化或歸一化、糾偏、連續(xù)特征離散化、類別特征編碼、特征增強(qiáng)和對不平衡數(shù)據(jù)集的處理(僅針對分類問題)
那么,為什么要進(jìn)行標(biāo)準(zhǔn)化和歸一化呢?
例如,我們的某個樣本與其它樣本數(shù)值相差較大,那么,該樣本特征的方差就會比其他樣本特征大幾個數(shù)量級,那么,它就會在學(xué)習(xí)算法中占據(jù)主導(dǎo)位置,導(dǎo)致學(xué)習(xí)器并不能像我們說期望的那樣,從其他特征中學(xué)習(xí)。也就是說,該樣本會主導(dǎo)其它樣本,最終導(dǎo)致預(yù)測結(jié)果的偏差
當(dāng)某個或某些特征的單位或大小與其它樣本相差較大,或者某特征的方差比其他的特征要大出幾個數(shù)量級,那么,該特征就容易影響(支配)目標(biāo)結(jié)果,使得一些算法無法學(xué)習(xí)到其他的特征,即無量綱化
因此,我們需要做的是對樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化或歸一化,將所有的數(shù)據(jù)映射到同一尺度
2、數(shù)據(jù)標(biāo)準(zhǔn)化
2.1、什么是數(shù)據(jù)標(biāo)準(zhǔn)化
定義:數(shù)據(jù)標(biāo)準(zhǔn)化通過減去均值然后除以方差(或標(biāo)準(zhǔn)差),轉(zhuǎn)化為均值為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布,轉(zhuǎn)化公式為:
X ′ = X ? μ σ X^{'}=\frac{X-\mu}{\sigma} X′=σX?μ?
其中, μ \mu μ為均值, σ \sigma σ為標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)化操作是將數(shù)據(jù)按其屬性(按列)減去平均值,然后再除以標(biāo)準(zhǔn)差
當(dāng)數(shù)據(jù)X按均值 μ \mu μ中心化后,再按標(biāo)準(zhǔn)差 σ \sigma