中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

墾利縣建設(shè)局網(wǎng)站admin5站長(zhǎng)網(wǎng)

墾利縣建設(shè)局網(wǎng)站,admin5站長(zhǎng)網(wǎng),服務(wù)器維護(hù)工程師,廣告制作公司需要什么資質(zhì)作者:王同學(xué) 來(lái)源:投稿 編輯:學(xué)姐 1. 基本概念 1.1 KNN k近鄰法(k-nearest neighbor,k-NN)是一種基本分類與回歸方法。 k近鄰法的輸入為實(shí)例的特征向量對(duì)應(yīng)于特征空間的點(diǎn);輸出為實(shí)例的類別&…

作者:王同學(xué) 來(lái)源:投稿
編輯:學(xué)姐

1. 基本概念

1.1 KNN

k近鄰法(k-nearest neighbor,k-NN)是一種基本分類與回歸方法。

k近鄰法的輸入為實(shí)例的特征向量對(duì)應(yīng)于特征空間的點(diǎn);輸出為實(shí)例的類別,可以取多類。

k近鄰法假設(shè)給定一個(gè)訓(xùn)練數(shù)據(jù)集,其中的實(shí)例類別已定。分類時(shí),對(duì)新的實(shí)例,根據(jù)其k個(gè)最近鄰的訓(xùn)練實(shí)例的類別,通過多數(shù)表決等方式進(jìn)行預(yù)測(cè)。因此,k近鄰法不具有顯式的學(xué)習(xí)過程。

k 近鄰法1968年由Cover和Hart提出。

1.2 K-means

K-means是一種聚類方法,聚類是針對(duì)給定的樣本,依據(jù)它們特征的相似度或距離,將其歸并到若干個(gè)“類”或“簇”的數(shù)據(jù)分析問題。

聚類的目的是通過得到的類或簇來(lái)發(fā)現(xiàn)數(shù)據(jù)的特點(diǎn)或?qū)?shù)據(jù)進(jìn)行處理。

聚類屬于無(wú)監(jiān)督學(xué)習(xí),因?yàn)橹皇歉鶕?jù)樣本的相似度或距離將其進(jìn)行歸類,而類或簇事先并不知道。

1.3 KNN 和 K-means對(duì)比

KNN

  • 分類算法

  • 監(jiān)督學(xué)習(xí)

  • 數(shù)據(jù)集是帶Label的數(shù)據(jù)

  • 沒有明顯的訓(xùn)練過程,基于Memory-based learning

  • K值含義 - 對(duì)于一個(gè)樣本X,要給它分類,首先從數(shù)據(jù)集中,在X附近找離它最近的K個(gè)數(shù)據(jù)點(diǎn),將它劃分為歸屬于類別最多的一類

K-means

  • 聚類算法

  • 非監(jiān)督學(xué)習(xí)

  • 數(shù)據(jù)集是無(wú)Label,雜亂無(wú)章的數(shù)據(jù)

  • 有明顯的訓(xùn)練過程

  • K值含義- K是事先設(shè)定的數(shù)字,將數(shù)據(jù)集分為K個(gè)簇,需要依靠人的先驗(yàn)知識(shí)

2. KNN原理、實(shí)現(xiàn)過程

2.1 KKN原理:

KNN算法最簡(jiǎn)單粗暴的就是將預(yù)測(cè)點(diǎn)與所有點(diǎn)距離進(jìn)行計(jì)算,然后保存并排序,選出前面K個(gè)值看看哪些類別比較多,則預(yù)測(cè)的點(diǎn)屬于哪類。

2 KNN過程:

對(duì)未知類別屬性的數(shù)據(jù)集中的每個(gè)點(diǎn)依次執(zhí)行以下操作:

(1) 計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離;

(2) 按照距離遞增次序排序;

(3) 選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn);

(4) 確定前k個(gè)點(diǎn)所在類別的出現(xiàn)頻率;

(5) 返回前k個(gè)點(diǎn)出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類

2.2.1 距離度量(1)

2.2.2 K值選擇(3)

2.2.2.1 K值選擇過小:

  • 如果選擇較小的k值,就相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),“學(xué)習(xí)”的近似誤差(approximation error)會(huì)減小,只有與輸入實(shí)例較近的(相似的)訓(xùn)練實(shí)例才會(huì)對(duì)預(yù)測(cè)結(jié)果起作用。

  • 但缺點(diǎn)是“學(xué)習(xí)”的估計(jì)誤差(estimation error)會(huì)增大,預(yù)測(cè)結(jié)果會(huì)對(duì)近鄰的實(shí)例點(diǎn)非常敏感。如果鄰近的實(shí)例點(diǎn)恰巧是噪聲,預(yù)測(cè)就會(huì)出錯(cuò)。

  • 換句話說(shuō),k 值的減小就意味著整體模型變得復(fù)雜,容易發(fā)生過擬合。

2.2.2.2 K值選擇過大:

  • 如果選擇較大的k值,就相當(dāng)于用較大鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè)。

  • 優(yōu)點(diǎn)是可以減少學(xué)習(xí)的估計(jì)誤差,但缺點(diǎn)是學(xué)習(xí)的近似誤差會(huì)增大。這時(shí)與輸入實(shí)例較遠(yuǎn)的(不相似的)訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用,使預(yù)測(cè)發(fā)生錯(cuò)誤。

  • 換句話說(shuō),k值的增大就意味著整體的模型變得簡(jiǎn)單。

如果k=N,那么無(wú)論輸入實(shí)例是什么,都將簡(jiǎn)單地預(yù)測(cè)它屬于在訓(xùn)練實(shí)例中最多的類。這時(shí),模型過于簡(jiǎn)單,完全忽略訓(xùn)練實(shí)例中的大量有用信息,是不可取的。

2.2.2.3 那么該如何確定K取多少值好呢?

答案是通過交叉驗(yàn)證(將樣本數(shù)據(jù)按照一定比例,拆分出訓(xùn)練用的數(shù)據(jù)和驗(yàn)證用的數(shù)據(jù),比如6:4拆分出部分訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)),從選取一個(gè)較小的K值開始,不斷增加K的值,然后計(jì)算驗(yàn)證集合的方差,最終找到一個(gè)比較合適的K值。

2.2.3 確定前k個(gè)點(diǎn)所在類別的出現(xiàn)頻率(4)

eg.當(dāng)K取4時(shí)候,包含3個(gè)紅點(diǎn)和1個(gè)藍(lán)點(diǎn)

2.2.4 返回前k個(gè)點(diǎn)出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類(5)

因?yàn)?/4>1/4,所以預(yù)測(cè)的點(diǎn)的類別屬于紅色,KNN完成。

3.K-means原理、實(shí)現(xiàn)過程

3.1 K-means原理:

K-Means算法的特點(diǎn)是類別的個(gè)數(shù)是人為給定的,如果讓機(jī)器自己去找類別的個(gè)數(shù),通過一次次重復(fù)這樣的選擇質(zhì)心計(jì)算距離后分類-再次選擇新質(zhì)心的流程,直到我們分組之后所有的數(shù)據(jù)都不會(huì)再變化了,也就得到了最終的聚合結(jié)果。

3.2K-means過程:

(1)隨機(jī)選取k個(gè)質(zhì)心(k值取決于你想聚成幾類)

(2)計(jì)算樣本到質(zhì)心的距離,距離質(zhì)心距離近的歸為一類,分為k類

(3)求出分類后的每類的新質(zhì)心

(4)再次計(jì)算計(jì)算樣本到新質(zhì)心的距離,距離質(zhì)心距離近的歸為一類

(5)判斷新舊聚類是否相同,如果相同就代表已經(jīng)聚類成功,如果沒有就循環(huán)2-4步驟直到相同

3.2.1 隨機(jī)選取k個(gè)質(zhì)心(k值取決于你想聚成幾類)

假設(shè)我想聚4類,那我們隨機(jī)選取四個(gè)五角星作為質(zhì)心(大哥)

3.2.2 計(jì)算樣本到質(zhì)心的距離,距離質(zhì)心距離近的歸為一類,分為k類

計(jì)算除質(zhì)心外的樣本的歐式距離,樣本離哪個(gè)質(zhì)心近,該樣本就跟哪個(gè)質(zhì)心

換句話說(shuō)就是,小圓點(diǎn)是小弟,五角星是大哥,小弟離哪個(gè)大哥近,那么這個(gè)小弟就跟哪個(gè)大哥混。

3.2.3 求出分類后的每類的新質(zhì)心

上面我們已經(jīng)分為4類了,這一步我們需要從4類中重新選出新的質(zhì)心(新的大哥)。

3.2.4 再次計(jì)算計(jì)算樣本到新質(zhì)心的距離,距離質(zhì)心距離近的歸為一類

同樣用上面方法計(jì)算樣本到質(zhì)心(新產(chǎn)生的大哥)的歐式距離,框起來(lái)的就是新大哥。

3.2.5 判斷新舊聚類是否相同

當(dāng)發(fā)現(xiàn)聚類情況并沒有變化,這就說(shuō)明我們的計(jì)算收斂已經(jīng)結(jié)束了,不需要繼續(xù)進(jìn)行分組了,最終數(shù)據(jù)成功按照相似性分成了4組。即紅、橙、綠、藍(lán),完成聚類。

4.總結(jié):

4.1KNN

  1. k 近鄰法是基本且簡(jiǎn)單的分類與回歸方法。k 近鄰法的基本做法是∶ 對(duì)給定的訓(xùn)練實(shí)例點(diǎn)和輸入實(shí)例點(diǎn),首先確定輸入實(shí)例點(diǎn)的k個(gè)最近鄰訓(xùn)練實(shí)例點(diǎn),然后利用這k個(gè)訓(xùn)練實(shí)例點(diǎn)的類的多數(shù)來(lái)預(yù)測(cè)輸入實(shí)例點(diǎn)的類。

  2. k 近鄰模型對(duì)應(yīng)于基于訓(xùn)練數(shù)據(jù)集對(duì)特征空間的一個(gè)劃分。k 近鄰法中,當(dāng)訓(xùn)練集、距離度量、k值及分類決策規(guī)則確定后,其結(jié)果唯一確定。

  3. k 近鄰法三要素∶距離度量、k 值的選擇和分類決策規(guī)則。常用的距離度量是歐氏距離及更一般的L。距離。k值小時(shí),k 近鄰模型更復(fù)雜;k值大時(shí),k 近鄰模型更簡(jiǎn)單。 k 值的選擇反映了對(duì)近似誤差與估計(jì)誤差之間的權(quán)衡,通常由交叉驗(yàn)證選擇最優(yōu)的k。常用的分類決策規(guī)則是多數(shù)表決, 對(duì)應(yīng)于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。

  4. k 近鄰法的實(shí)現(xiàn)需要考慮如何快速搜索k個(gè)最近鄰點(diǎn)。kd樹是一種便于對(duì)k 維空間中的數(shù)據(jù)進(jìn)行快速檢索的數(shù)據(jù)結(jié)構(gòu)。kd樹是二叉樹,表示對(duì)k維空間的一個(gè)劃分,其每個(gè)結(jié)點(diǎn)對(duì)應(yīng)于k維空間劃分中的一個(gè)超矩形區(qū)域。利用kd樹可以省去對(duì)大部分?jǐn)?shù)據(jù)點(diǎn)的搜索,從而減少搜索的計(jì)算量。

4.2K-means

  1. 聚類是針對(duì)給定的樣本,依據(jù)它們屬性的相似度或距離,將其歸并到若干個(gè)“類”或“簇”的數(shù)據(jù)分析問題。一個(gè)類是樣本的一個(gè)子集。直觀上,相似的樣本聚集在同類,不相似的樣本分散在不同類。

  2. 距離或相似度度量在聚類中起著重要作用。 常用的距離度量有閔可夫斯基距離,包括歐氏距離、曼哈頓距離、切比雪夫距離以及馬哈拉諾比斯距離。常用的相似度度量有相關(guān)系數(shù)、夾角余弦。 用距離度量相似度時(shí),距離越小表示樣本越相似;用相關(guān)系數(shù)時(shí),相關(guān)系數(shù)越大表示樣本越相似。

  3. k 均值聚類是常用的聚類算法,有以下特點(diǎn)?;趧澐值木垲惙椒?#xff1b;類別數(shù)k 事先指定;以歐氏距離平方表示樣本之間的距離或相似度,以中心或樣本的均值表示類別;以樣本和其所屬類的中心之間的距離的總和為優(yōu)化的目標(biāo)函數(shù);得到的類別是平坦的、非層次化的;算法是迭代算法,不能保證得到全局最優(yōu)。

  4. k均值聚類算法,首先選擇k個(gè)類的中心,將樣本分到與中心最近的類中,得到一個(gè)聚類結(jié)果;然后計(jì)算每個(gè)類的樣本的均值,作為類的新的中心;重復(fù)以上步驟,直到收斂為止。

5.代碼實(shí)戰(zhàn):

5.1 KNN實(shí)戰(zhàn):

(1)首先自制一個(gè)數(shù)據(jù)集:

(2)導(dǎo)入工具包

import?pandas?as?pd
from?sklearn.neighbors?import?KNeighborsClassifier??

(3)讀取數(shù)據(jù)

data=pd.read_excel("knndata.xlsx")
data??#打印出來(lái)看一下?

(4)劃分?jǐn)?shù)據(jù)集

train_feature=data.iloc[0:9,1:4]#紅色部分
train_label=data.iloc[0:9,4:5]#藍(lán)色部分
test_feature=data.iloc[9:10,1:4]#綠色部分

(5)建模預(yù)測(cè)

knn=KNeighborsClassifier(n_neighbors=4)#n_neighbors=4即指定K值為4
knn.fit(train_feature,train_label)#模型訓(xùn)練
knn.predict(test_feature)#模型預(yù)測(cè)

輸出:

5.2 K-means代碼實(shí)戰(zhàn):

(1)自制個(gè)數(shù)據(jù)集

(2)導(dǎo)入工具包

import?pandas?as?pd
from?sklearn.cluster?import?KMeans

(3)讀取數(shù)據(jù)

data=pd.read_excel("kmeans.xlsx")
data#打印看一下

(4)劃分?jǐn)?shù)據(jù)集

train_feature=data.iloc[0:10,1:4]#紅色部分

(5)建模預(yù)測(cè)

kmeans?=?KMeans(n_clusters=3)#n_clusters=3即指定劃分為3個(gè)類型
kmeans.fit(train_feature)#模型訓(xùn)練
label_kmeans?=?kmeans.predict(train_feature)#模型預(yù)測(cè)
label_kmeans

輸出:

關(guān)注下方卡片《學(xué)姐帶你玩AI》🚀🚀🚀

ACL&CVPR1000+篇論文等你來(lái)拿

回復(fù)“ACL”或“CVPR”免費(fèi)領(lǐng)

碼字不易,歡迎大家點(diǎn)贊評(píng)論收藏!

http://www.risenshineclean.com/news/61149.html

相關(guān)文章:

  • 二手車為什么做網(wǎng)站今天株洲最新消息
  • 漢化wordpress主題如何優(yōu)化搜索引擎
  • 長(zhǎng)沙優(yōu)化網(wǎng)站廠家百度在線客服系統(tǒng)
  • 新鄉(xiāng)高端網(wǎng)站建設(shè)搜索引擎優(yōu)化的具體操作
  • 石家莊網(wǎng)站建設(shè)找哪家渠道推廣策略
  • 昆明做網(wǎng)站優(yōu)化公司優(yōu)化的含義是什么
  • 公司專業(yè)做網(wǎng)站湖南企業(yè)seo優(yōu)化推薦
  • 網(wǎng)站建設(shè)項(xiàng)目選題寧波seo教學(xué)
  • 網(wǎng)絡(luò)招商平臺(tái)網(wǎng)站怎么做seo攻略
  • 婚紗影樓網(wǎng)站建設(shè)百度瀏覽器手機(jī)版
  • 人才招聘網(wǎng)站開發(fā)+源代碼廣告策劃公司
  • node可以做電商網(wǎng)站么網(wǎng)絡(luò)銷售每天做什么
  • 河南做網(wǎng)站聯(lián)系電話東莞建設(shè)企業(yè)網(wǎng)站公司
  • vps網(wǎng)站如何綁定多個(gè)域名蕭山區(qū)seo關(guān)鍵詞排名
  • 嗶哩嗶哩做視頻網(wǎng)站如何推銷產(chǎn)品給客戶
  • 精美網(wǎng)站開發(fā)方案蘭州seo新站優(yōu)化招商
  • 企業(yè)網(wǎng)絡(luò)推廣整合營(yíng)銷廣州seo外包多少錢
  • 城鄉(xiāng)建設(shè)網(wǎng)站首頁(yè)電商運(yùn)營(yíng)公司排名
  • 有利于優(yōu)化的網(wǎng)站模板濰坊百度seo公司
  • discuz網(wǎng)站搬家百度宣傳做網(wǎng)站多少錢
  • 開展網(wǎng)站建設(shè)服務(wù)免費(fèi)收錄平臺(tái)
  • 昆明網(wǎng)絡(luò)營(yíng)銷公司哪家比較好徐州seo顧問
  • 蘭州做網(wǎng)站優(yōu)化市場(chǎng)調(diào)研的方法
  • 邢臺(tái)網(wǎng)站建設(shè)03191688網(wǎng)站推廣軟件哪個(gè)好
  • 網(wǎng)站沒詢盤怎么做推廣企業(yè)網(wǎng)絡(luò)規(guī)劃與設(shè)計(jì)
  • 內(nèi)鄉(xiāng)網(wǎng)站建設(shè)重慶seo和網(wǎng)絡(luò)推廣
  • vps 網(wǎng)站能打開蘭州網(wǎng)站開發(fā)公司
  • 網(wǎng)頁(yè)制作基礎(chǔ)教程素材沈陽(yáng)專業(yè)seo
  • jsp網(wǎng)站開發(fā)論文seo快速排名案例
  • 個(gè)人域名申請(qǐng)的方法東莞公司seo優(yōu)化