網(wǎng)站風(fēng)格設(shè)計百度seo怎么樣優(yōu)化
一.高維數(shù)據(jù)
除了圖片、文本數(shù)據(jù),我們在實(shí)際工作中也會面臨更多高維的數(shù)據(jù)。比如在評分卡模型構(gòu)建過程中,我們通常會試著衍生出很多的特征,最后就得到上千維、甚至上完維特征;在廣告點(diǎn)擊率預(yù)測應(yīng)用中,擁有幾個億特征也是常見的事情;在腦科學(xué)或者基因研究中,特征數(shù)甚至可能更多;所以,如何更有效地處理這些高維的特征就變成了一個非常重要的問題。
二.數(shù)據(jù)降維
除了有效利用高維的數(shù)據(jù)之外,我們也可以思考一個問題:“高維數(shù)據(jù),那么多特征真的都有用嗎?” 這就類似于一個人的社交質(zhì)量并不取決于有多少朋友,而在于朋友質(zhì)量,在建模過程中也適用這個道理。特征越多并不代表學(xué)出來的模型越好,我們更需要關(guān)注特征對預(yù)測任務(wù)的相關(guān)性或者價值,有些特征甚至可能成為噪聲,反而影響模型的效果。
2.1如何降維
?2.1.1數(shù)據(jù)的降維? ?通過函數(shù)的映射關(guān)系
?2.1.2特征選擇
選擇子集
三.PCA
PCA(Principal Component Analysis)作為一種重要的降維算法有著非常廣泛的應(yīng)用。PCA經(jīng)常用來做數(shù)據(jù)的可視化、或者用來提高預(yù)測模型的效果。 對于PCA降維算法來講,有幾個核心問題需要弄清楚:
1。 PCA降維的核心思想是什么? 它是依賴于什么條件做降維?
2。 什么叫主成分(principal component)?
從圖中可以看出,沿著C的方向,數(shù)據(jù)是越分散的,也就說明在這個方向上我們可以看出數(shù)據(jù)之間的更多差異!相反,沿著直線A的方向,我們可以看到很多數(shù)據(jù)的差異并不明顯,區(qū)分度很低。所以,總體來講,當(dāng)我們選擇C為新的坐標(biāo)軸時,所有點(diǎn)在這個坐標(biāo)軸上的值的差異是最大的,也就是最大程度的保留了數(shù)據(jù)之間的特點(diǎn)(差異性),這就是PCA的核心思想。?
找到第一個主成分,第二個主成分和第一個主成分垂直。
四.PCA的缺點(diǎn)
1.只能針對線性
2.必須做歸一化
3.部分信息會丟失(降維)
4.可解釋性比較弱
五.其他的降維方法
?