中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

visual studio做網(wǎng)站哪個(gè)公司做網(wǎng)站推廣最好

visual studio做網(wǎng)站,哪個(gè)公司做網(wǎng)站推廣最好,2021互聯(lián)網(wǎng)公司100強(qiáng),wordpress 點(diǎn)擊導(dǎo)航鏈接老是跳轉(zhuǎn)到當(dāng)前頁面1. 維數(shù)災(zāi)難 樣本的特征數(shù)稱為維數(shù)(dimensionality),當(dāng)維數(shù)非常大時(shí),也就是現(xiàn)在所說的維數(shù)災(zāi)難。 維數(shù)災(zāi)難具體表現(xiàn)在:在高維情形下,數(shù)據(jù)樣本將變得十分稀疏,因?yàn)榇藭r(shí)要滿足訓(xùn)練樣本為“密采樣…

1. 維數(shù)災(zāi)難

樣本的特征數(shù)稱為維數(shù)(dimensionality),當(dāng)維數(shù)非常大時(shí),也就是現(xiàn)在所說的維數(shù)災(zāi)難
維數(shù)災(zāi)難具體表現(xiàn)在:在高維情形下,數(shù)據(jù)樣本將變得十分稀疏,因?yàn)榇藭r(shí)要滿足訓(xùn)練樣本為“密采樣”的總體樣本數(shù)目是一個(gè)觸不可及的天文數(shù)字,訓(xùn)練樣本的稀疏使得其代表總體分布的能力大大減弱,從而消減了學(xué)習(xí)器的泛化能力;同時(shí)當(dāng)維數(shù)很高時(shí),計(jì)算距離也變得十分復(fù)雜,甚至連計(jì)算內(nèi)積都不再容易,這也是為什么支持向量機(jī)(SVM)使用核函數(shù)低維計(jì)算,高維表現(xiàn)的原因。

緩解維數(shù)災(zāi)難的一個(gè)重要途徑就是降維,即通過某種數(shù)學(xué)變換將原始高維空間轉(zhuǎn)變到一個(gè)低維的子空間
在這個(gè)子空間中,樣本的密度將大幅提高,同時(shí)距離計(jì)算也變得容易。這時(shí)也許會(huì)有疑問,這樣降維之后不是會(huì)丟失原始數(shù)據(jù)的一部分信息嗎?這是因?yàn)樵诤芏鄬?shí)際的問題中,雖然訓(xùn)練數(shù)據(jù)是高維的,但是與學(xué)習(xí)任務(wù)相關(guān)也許僅僅是其中的一個(gè)低維子空間,也稱為一個(gè)低維嵌入,例如:數(shù)據(jù)屬性中存在噪聲屬性、相似屬性或冗余屬性等,對(duì)高維數(shù)據(jù)進(jìn)行降維能在一定程度上達(dá)到提煉低維優(yōu)質(zhì)屬性或降噪的效果

2. K近鄰學(xué)習(xí)(kNN)

k近鄰算法簡(jiǎn)稱kNN(k-Nearest Neighbor),是一種經(jīng)典的監(jiān)督學(xué)習(xí)方法,數(shù)據(jù)挖掘十大算法之一。

工作機(jī)制非常簡(jiǎn)單:給定測(cè)試樣本,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本,然后基于這k個(gè)“鄰居”的信息來進(jìn)行預(yù)測(cè)。

通常,在分類任務(wù)中可使用“投票法”,即選擇這k個(gè)樣本中出現(xiàn)最多的類別標(biāo)記作為預(yù)測(cè)結(jié)果;

在回歸任務(wù)中可使用“平均法”,即將這k個(gè)樣本的實(shí)值輸出標(biāo)記的平均值作為預(yù)測(cè)結(jié)果;還可基于距離遠(yuǎn)近進(jìn)行加權(quán)平均或加權(quán)投票,距離越近的樣本權(quán)重越大.

2.1 分析

1.png
從上圖中我們可以看到,圖中有兩種類型的樣本,一類是藍(lán)色正方形,另一類是紅色三角形。而那個(gè)綠色圓形是我們待分類的樣本?;趉NN算法的思路,我們很容易得到以下結(jié)論:

如果K=3,那么離綠色點(diǎn)最近的有2個(gè)紅色三角形和1個(gè)藍(lán)色的正方形,這3個(gè)點(diǎn)投票,于是綠色的這個(gè)待分類點(diǎn)屬于紅色的三角形。
如果K=5,那么離綠色點(diǎn)最近的有2個(gè)紅色三角形和3個(gè)藍(lán)色的正方形,這5個(gè)點(diǎn)投票,于是綠色的這個(gè)待分類點(diǎn)屬于藍(lán)色的正方形。

與前面介紹的學(xué)習(xí)方法相比, k近鄰學(xué)習(xí)有一個(gè)明顯的不同之處: 它似乎沒有顯式的訓(xùn)練過程! 事實(shí)上,它是“懶情學(xué)習(xí)” (lazy learning)的著名代表, 此類學(xué)習(xí)技術(shù)在訓(xùn)練階段僅僅是把樣本保存起來,訓(xùn)練時(shí)間開銷為零, 待收到測(cè)試樣本后再進(jìn)行處理(因此樸素貝葉斯也可以懶惰式學(xué)習(xí),此類技術(shù)在訓(xùn)練階段開銷為零,待收到測(cè)試樣本后再進(jìn)行計(jì)算。); 相應(yīng)的,那些在訓(xùn)練階段就對(duì)樣本進(jìn)行學(xué)習(xí)處理的方法, 稱為“急切學(xué)習(xí)” (eager learning).

很容易看出:kNN算法的核心在于k值的選取以及距離的度量。k值選取太小,模型很容易受到噪聲數(shù)據(jù)的干擾,例如:極端地取k=1,若待分類樣本正好與一個(gè)噪聲數(shù)據(jù)距離最近,就導(dǎo)致了分類錯(cuò)誤;若k值太大, 則在更大的鄰域內(nèi)進(jìn)行投票,此時(shí)模型的預(yù)測(cè)能力大大減弱,例如:極端取k=訓(xùn)練樣本數(shù),就相當(dāng)于模型根本沒有學(xué)習(xí),所有測(cè)試樣本的預(yù)測(cè)結(jié)果都是一樣的。一般地我們都通過交叉驗(yàn)證法(簡(jiǎn)單來說,就是一部分樣本做訓(xùn)練集,一部分做測(cè)試集)來選取一個(gè)適當(dāng)?shù)膋值。

2.png

對(duì)于距離度量,不同的度量方法得到的k個(gè)近鄰不盡相同,從而對(duì)最終的投票結(jié)果產(chǎn)生了影響,因此選擇一個(gè)合適的距離度量方法也十分重要。在上一篇聚類算法中,在度量樣本相似性時(shí)介紹了常用的幾種距離計(jì)算方法,包括閔可夫斯基距離,曼哈頓距離,VDM等(距離度量方法總結(jié)可參考博客)。在實(shí)際應(yīng)用中,kNN的距離度量函數(shù)一般根據(jù)樣本的特性來選擇合適的距離度量,同時(shí)應(yīng)對(duì)數(shù)據(jù)進(jìn)行去量綱/歸一化處理來消除大量綱屬性的強(qiáng)權(quán)政治影響。

2.2 KNN最近鄰分類算法的過程

  1. 計(jì)算測(cè)試樣本和訓(xùn)練樣本中每個(gè)樣本點(diǎn)的距離(常見的距離度量有歐式距離,馬氏距離等);
  2. 對(duì)上面所有的距離值進(jìn)行排序;
  3. 選前 k 個(gè)最小距離的樣本;
  4. 根據(jù)這 k 個(gè)樣本的標(biāo)簽進(jìn)行投票,得到最后的分類類別;

3. MDS算法

不管是使用核函數(shù)升維還是對(duì)數(shù)據(jù)降維,我們都希望原始空間樣本點(diǎn)之間的距離在新空間中基本保持不變,這樣才不會(huì)使得原始空間樣本之間的關(guān)系及總體分布發(fā)生較大的改變。**“多維縮放”(Multiple Dimensional Scaling,MDS)**正是基于這樣的思想,MDS要求原始空間樣本之間的距離在降維后的低維空間中得以保持。

在這里插入圖片描述

令降維后的樣本坐標(biāo)矩陣Z被中心化,中心化是指將每個(gè)樣本向量減去整個(gè)樣本集的均值向量,故所有樣本向量求和得到一個(gè)零向量,即

在這里插入圖片描述

這樣易知:矩陣B的每一列以及每一列求和均為0,因?yàn)樘崛」蜃雍蠖加幸豁?xiàng)為所有樣本向量的和向量。

4.png
根據(jù)上面矩陣B的特征,我們很容易得到以下等式:

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

MDS的算法流程如下圖所示:
在這里插入圖片描述

4. 主成分分析(PCA)

該部分可參考博客。

主成分分析(Principal Component Analysis,簡(jiǎn)稱 PCA)是最常用的一種降維方法。不同于MDS采用距離保持的方法,主成分分析(PCA)直接通過一個(gè)線性變換,將原始空間中的樣本投影到新的低維空間中。簡(jiǎn)單來理解這一過程便是:PCA采用一組新的基來表示樣本點(diǎn),其中每一個(gè)基向量都是原來基向量的線性組合,通過使用盡可能少的新基向量來表出樣本,從而達(dá)到降維的目的。

在介紹PCA之前,不妨先考慮這樣一個(gè)問題:對(duì)于正交屬性空間中的樣本點(diǎn),如何用一個(gè)超平面(直線的高維推廣)對(duì)所有樣本進(jìn)行恰當(dāng)?shù)谋磉_(dá)?
容易想到,若存在這樣的超平面,那么它大概應(yīng)具有這樣的性質(zhì):

  • 最近重構(gòu)性:樣本點(diǎn)到這個(gè)超平面的距離都足夠近;

  • 最大可分性:樣本點(diǎn)在這個(gè)超平面上的投影能盡可能分開.

這里十分神奇的是:最近重構(gòu)性與最大可分性雖然從不同的出發(fā)點(diǎn)來定義優(yōu)化問題中的目標(biāo)函數(shù),但最終這兩種特性得到了完全相同的優(yōu)化問題

7.png

接著使用拉格朗日乘子法求解上面的優(yōu)化問題,得到:

8.png
因此只需對(duì)協(xié)方差矩陣進(jìn)行特征值分解即可求解出W,PCA算法的整個(gè)流程如下圖所示:

在這里插入圖片描述

5. 核化線性降維

線性降維方法假設(shè)從高維空間到低維空間的函數(shù)映射是線性的,然而,在不少現(xiàn)實(shí)任務(wù)中,可能需要非線性映射才能找到恰當(dāng)?shù)牡途S嵌入,圖10.6給出了一個(gè)例子,樣本點(diǎn)從二維空間中的矩形區(qū)域采樣后以S形曲面嵌入到三維空間,若直接使用線性降維方法對(duì)三維空間觀察到的樣本點(diǎn)進(jìn)行降維,則將丟失原本的低維結(jié)構(gòu),為了對(duì)“原本采樣的”低維空間與降維后的低維空間加以區(qū)別,我們稱前者為“本真”(intrinsic)低維空間。

在這里插入圖片描述

正如SVM在處理非線性可分時(shí),通過引入核函數(shù)將樣本投影到高維特征空間,接著在高維空間再對(duì)樣本點(diǎn)使用超平面劃分。這里也是相同的問題:若我們的樣本數(shù)據(jù)點(diǎn)本身就不是線性分布,那還如何使用一個(gè)超平面去近似表出呢?因此也就引入了核函數(shù),即先將樣本映射到高維空間,再在高維空間中使用線性降維的方法。下面主要介紹**核化主成分分(KPCA)**的思想。

5.1 基本思想

若核函數(shù)的形式已知,即我們知道如何將低維的坐標(biāo)變換為高維坐標(biāo),這時(shí)我們只需先將數(shù)據(jù)映射到高維特征空間,再在高維空間中運(yùn)用PCA即可。但是一般情況下,我們并不知道核函數(shù)具體的映射規(guī)則,例如:Sigmoid、高斯核等,我們只知道如何計(jì)算高維空間中的樣本內(nèi)積,這時(shí)就引出了KPCA的一個(gè)重要?jiǎng)?chuàng)新之處:即空間中的任一向量,都可以由該空間中的所有樣本線性表示

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

6. 流形學(xué)習(xí)

流形學(xué)習(xí)(manifold learning)是一種借助拓?fù)淞餍胃拍畹慕稻S方法流形是指在局部與歐式空間同胚的空間,即在局部與歐式空間具有相同的性質(zhì),能用歐氏距離計(jì)算樣本之間的距離。這樣即使高維空間的分布十分復(fù)雜,但是在局部上依然滿足歐式空間的性質(zhì),基于流形學(xué)習(xí)的降維正是這種**“鄰域保持”的思想。其中等度量映射(Isomap)試圖在降維前后保持鄰域內(nèi)樣本之間的距離,而局部線性嵌入(LLE)則是保持鄰域內(nèi)樣本之間的線性關(guān)系**,下面將分別對(duì)這兩種著名的流行學(xué)習(xí)方法進(jìn)行介紹。

6.1 等度量映射(Isomap)

等度量映射(Isometric Mapping, 簡(jiǎn)稱 Isomap) 的基本出發(fā)點(diǎn)是:認(rèn)為低維流形嵌入到高維空間之后,直接在高維空間中計(jì)算直線距離具有誤導(dǎo)性,因?yàn)楦呔S空間中的直線距離在低維嵌入流形上是不可達(dá)的。

如圖10.7(a)所示,低維嵌入流形上兩點(diǎn)間的距離是“測(cè)地線”(geodesic)距離: 想象一只蟲子從一點(diǎn)爬到另一點(diǎn),如果它不能脫離曲面行走,那么圖10.7(a)中的紅色曲線是距離最短的路徑,即S曲面上的測(cè)地線,測(cè)地線距離是兩點(diǎn)之間的本真距離,顯然,直接在高維空間中計(jì)算直線距離是不恰當(dāng)?shù)?
在這里插入圖片描述

利用流形在局部上與歐式空間同胚的性質(zhì),可以使用近鄰距離來逼近測(cè)地線距離**,即對(duì)于一個(gè)樣本點(diǎn),它與近鄰內(nèi)的樣本點(diǎn)之間是可達(dá)的,且距離使用歐式距離計(jì)算,這樣整個(gè)樣本空間就形成了一張近鄰圖,高維空間中兩個(gè)樣本之間的距離就轉(zhuǎn)為最短路徑問題??刹捎弥?strong>Dijkstra算法或Floyd算法計(jì)算最短距離,得到高維空間中任意兩點(diǎn)之間的距離后便可以使用MDS算法來其計(jì)算低維空間中的坐標(biāo)。

從MDS算法的描述中我們可以知道:MDS先求出了低維空間的內(nèi)積矩陣B,接著使用特征值分解計(jì)算出了樣本在低維空間中的坐標(biāo),但是并沒有給出通用的投影向量w,因此對(duì)于需要降維的新樣本無從下手,書中給出的權(quán)宜之計(jì)是是將訓(xùn)練樣本的高維空間坐標(biāo)作為輸入、低維空間坐標(biāo)作為輸出,訓(xùn)練一個(gè)回歸學(xué)習(xí)器來對(duì)新樣本的低維空間坐標(biāo)進(jìn)行預(yù)測(cè)。

Isomap算法流程如下圖:
在這里插入圖片描述

對(duì)近鄰圖的構(gòu)建通常有兩種做法,一種是指定近鄰點(diǎn)個(gè)數(shù),例如歐氏距離最近的k個(gè)點(diǎn)為近鄰點(diǎn),這樣得到的近鄰圖稱為k近鄰圖;另一種是指定距離閾值 ? ? ?,距離小于 閾值 ? 閾值? 閾值?的點(diǎn)被認(rèn)為是近鄰點(diǎn),這樣得到的近鄰圖稱為 ? ? ?? ??近鄰圖。

兩種方式均有不足:

鄰域范圍指定過大,則會(huì)造成“短路問題”,即本身距離很遠(yuǎn)卻成了近鄰,將距離近的那些樣本扼殺在搖籃。
鄰域范圍指定過小,則會(huì)造成“斷路問題”,即有些樣本點(diǎn)無法可達(dá)了,整個(gè)世界村被劃分為互不可達(dá)的小部落。

6.2 局部線性嵌入(LLE)

與Isomap試圖保持近鄰樣本之間的距離不同,局部線性嵌入(Locally Linear Embedding, 簡(jiǎn)稱LLE) 試圖保持鄰域內(nèi)樣本之間的線性關(guān)系.如圖10.9所示,假定樣本點(diǎn) x j , x k , x l x i ? x j , x k , x l xi? xj,xk,xlxi?的坐標(biāo)能通過它的鄰域樣本 x j , x k , x l x j ? , x k ? , x l ? x j , x k , x l xj?,xk?,xl? xj,xk,xlxj?,xk?,xl?的坐標(biāo)通過線性組合而重構(gòu)出來,即
在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述

7. 度量學(xué)習(xí)

在機(jī)器學(xué)習(xí)中,對(duì)高維數(shù)據(jù)進(jìn)行降維的主要目的是希望找到一個(gè)合適的低維空間,在此空間中進(jìn)行學(xué)習(xí)能比原始空間性能更好,事實(shí)上,每個(gè)空間對(duì)應(yīng)了在樣本屬性上定義的一個(gè)距離度量,而尋找合適的空間,實(shí)質(zhì)上就是在尋找一個(gè)合適的距離度量,那么,為何不直接嘗試“學(xué)習(xí)”出一個(gè)合適的距離度量呢?這就是度量學(xué)習(xí)(metric learning)的基本動(dòng)機(jī).

首先要學(xué)習(xí)出距離度量必須先定義一個(gè)合適的距離度量形式。對(duì)兩個(gè)樣本 x i x i ? xi xi? xixi? x j x j ? xj xj? xjxj?,它們之間的平方歐式距離為:
21.png

若各個(gè)屬性重要程度不一樣即都有一個(gè)權(quán)重,則得到加權(quán)的平方歐式距離:

22.png

此時(shí)各個(gè)屬性之間都是相互獨(dú)立無關(guān)的,但現(xiàn)實(shí)中往往會(huì)存在屬性之間有關(guān)聯(lián)的情形,例如:身高和體重,一般人越高,體重也會(huì)重一些,他們之間存在較大的相關(guān)性。這樣計(jì)算距離就不能分屬性單獨(dú)計(jì)算,于是就引入經(jīng)典的馬氏距離(Mahalanobis distance):

在這里插入圖片描述

標(biāo)準(zhǔn)的馬氏距離中M是協(xié)方差矩陣的逆,馬氏距離是一種考慮屬性之間相關(guān)性且尺度無關(guān)(即無須去量綱)的距離度量。
24.png
換句話說:度量學(xué)習(xí)便是對(duì)度量矩陣進(jìn)行學(xué)習(xí)。

現(xiàn)在來回想一下前面我們接觸的機(jī)器學(xué)習(xí)不難發(fā)現(xiàn):機(jī)器學(xué)習(xí)算法幾乎都是在優(yōu)化目標(biāo)函數(shù),從而求解目標(biāo)函數(shù)中的參數(shù)。同樣對(duì)于度量學(xué)習(xí),也需要設(shè)置一個(gè)優(yōu)化目標(biāo),書中簡(jiǎn)要介紹了錯(cuò)誤率和相似性兩種優(yōu)化目標(biāo),此處不再展開。

降維是將原高維空間嵌入到一個(gè)合適的低維子空間中,接著在低維空間中進(jìn)行學(xué)習(xí)任務(wù);

度量學(xué)習(xí)則是試圖去學(xué)習(xí)出一個(gè)距離度量來等效降維的效果,兩者都是為了解決維數(shù)災(zāi)難帶來的諸多問題。

http://www.risenshineclean.com/news/27024.html

相關(guān)文章:

  • 網(wǎng)站關(guān)鍵詞可以添加嗎seo關(guān)鍵詞外包
  • 獵頭公司應(yīng)堅(jiān)持的原則有超級(jí)優(yōu)化空間
  • 東莞建站seo怎么收費(fèi)的
  • 網(wǎng)站中flash怎么做的游戲推廣怎么做引流
  • 做網(wǎng)站什么商品好軟文網(wǎng)站模板
  • 河田鎮(zhèn)建設(shè)局網(wǎng)站百度知道app
  • 建設(shè)部網(wǎng)站四庫一平臺(tái)best網(wǎng)絡(luò)推廣平臺(tái)
  • 在公司做網(wǎng)站是什么職位網(wǎng)頁搜索
  • 二手房在哪個(gè)網(wǎng)站做合同互聯(lián)網(wǎng)營銷師培訓(xùn)大綱
  • 敦煌網(wǎng)站銷售員怎么做濰坊今日頭條新聞
  • pb 做網(wǎng)站網(wǎng)站排名怎么優(yōu)化
  • 橙子建站驗(yàn)證碼是詐騙嗎長沙靠譜seo優(yōu)化
  • 網(wǎng)站建設(shè)方案新聞鄭州網(wǎng)絡(luò)營銷公司
  • wordpress停用react如何做谷歌seo推廣
  • c 手機(jī)網(wǎng)站開發(fā)模板國家衛(wèi)生健康委
  • 信息系統(tǒng)軟件有哪些優(yōu)化的概念
  • 外貿(mào)公司網(wǎng)站模板免費(fèi)阿里云搜索引擎網(wǎng)址
  • 做網(wǎng)站用的圖標(biāo)必應(yīng)搜索引擎入口官網(wǎng)
  • 成都專業(yè)做游戲網(wǎng)站個(gè)人網(wǎng)頁在線制作
  • 濱州 網(wǎng)站建設(shè)互聯(lián)網(wǎng)運(yùn)營培訓(xùn)課程
  • 湖南人工智能建站系統(tǒng)軟件搜索引擎排名查詢
  • 站長平臺(tái)驗(yàn)證網(wǎng)站什么建站程序最利于seo
  • 個(gè)人怎么做網(wǎng)站優(yōu)化百度愛采購怎樣入駐
  • 做家教一般在哪個(gè)網(wǎng)站企業(yè)網(wǎng)站制作費(fèi)用
  • 網(wǎng)站開發(fā) 渠道百度seo排名優(yōu)化助手
  • 萊蕪區(qū)組織部網(wǎng)站淘寶指數(shù)入口
  • 網(wǎng)站設(shè)計(jì)與網(wǎng)頁制作項(xiàng)目教程天津優(yōu)化代理
  • 大嶺山仿做網(wǎng)站seo推廣 課程
  • 各大房產(chǎn)網(wǎng)站廈門seo排名
  • 為什么教育網(wǎng)站做的都很爛企業(yè)管理培訓(xùn)課程報(bào)名