中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

濟(jì)寧萬達(dá)網(wǎng)站建設(shè)合肥網(wǎng)站推廣公司

濟(jì)寧萬達(dá)網(wǎng)站建設(shè),合肥網(wǎng)站推廣公司,專升本要什么條件,網(wǎng)站底部的制作數(shù)據(jù)分析:基于K-近鄰(KNN)對Pima人糖尿病預(yù)測分析 作者:AOAIYI 作者簡介:Python領(lǐng)域新星作者、多項(xiàng)比賽獲獎(jiǎng)?wù)?amp;#xff1a;AOAIYI首頁 😊😊😊如果覺得文章不錯(cuò)或能幫助到你學(xué)習(xí),可以點(diǎn)贊&#x…

數(shù)據(jù)分析:基于K-近鄰(KNN)對Pima人糖尿病預(yù)測分析

作者:AOAIYI

作者簡介:Python領(lǐng)域新星作者、多項(xiàng)比賽獲獎(jiǎng)?wù)?#xff1a;AOAIYI首頁

😊😊😊如果覺得文章不錯(cuò)或能幫助到你學(xué)習(xí),可以點(diǎn)贊👍收藏📁評論📒+關(guān)注哦!👍👍👍

📜📜📜如果有小伙伴需要數(shù)據(jù)集和學(xué)習(xí)交流,文章下方有交流學(xué)習(xí)區(qū)!一起學(xué)習(xí)進(jìn)步!💪


專欄案例:數(shù)據(jù)分析
數(shù)據(jù)分析:某電商優(yōu)惠卷數(shù)據(jù)分析
數(shù)據(jù)分析:旅游景點(diǎn)銷售門票和消費(fèi)情況分析
數(shù)據(jù)分析:消費(fèi)者數(shù)據(jù)分析
數(shù)據(jù)分析:餐廳訂單數(shù)據(jù)分析
數(shù)據(jù)分析:基于隨機(jī)森林(RFC)對酒店預(yù)訂分析預(yù)測

文章目錄

  • 數(shù)據(jù)分析:基于K-近鄰(KNN)對Pima人糖尿病預(yù)測分析
  • 一、前言
  • 二、數(shù)據(jù)準(zhǔn)備
  • 三、數(shù)據(jù)預(yù)處理
  • 四、建立模型
  • 五、模型驗(yàn)證
  • 總結(jié)


一、前言

k-近鄰算法是分類數(shù)據(jù)最簡單最有效的算法,k-近鄰算法是基于實(shí)例的學(xué)習(xí),使用算法時(shí)我們必須有接近實(shí)際數(shù)據(jù)的訓(xùn)練樣本數(shù)據(jù)。k-近鄰算法必須保存全部數(shù)據(jù)集,如果訓(xùn)練數(shù)據(jù)集的很大,必須使用大量的存儲(chǔ)空間。此外,由于必須對數(shù)據(jù)集中的每個(gè)數(shù)據(jù)計(jì)算距離值,實(shí)際使用時(shí)可能非常耗時(shí)。k-近鄰算法的另一個(gè)缺陷是它無法給出任何數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)信息,因此我們也無法知曉平均實(shí)例樣本和典型實(shí)例樣本具有什么特征。

二、數(shù)據(jù)準(zhǔn)備

1.數(shù)據(jù)準(zhǔn)備
在這里插入圖片描述
2.導(dǎo)入數(shù)據(jù)

import pandas as pd
import warnings
warnings.filterwarnings("ignore")
data = pd.read_csv("../input/Diabetes/pima-indians-diabetes.csv")
data.head()

在這里插入圖片描述

data.shape

在這里插入圖片描述

三、數(shù)據(jù)預(yù)處理

1.將每一列的標(biāo)簽重新命名

data.columns = ["Pregnancies","Glucose","BloodPressure","SkinThickness","Insulin","BMI","DiabetesPedigreeFunction","Age","Outcome"]
data.head()

在這里插入圖片描述
2.查看有沒有空值數(shù)據(jù)

data.isnull().any()

在這里插入圖片描述

3.觀察樣本中陽性和陰性的個(gè)數(shù)

data.groupby("Outcome").size()

在這里插入圖片描述

4.分離特征和標(biāo)簽

X=data.iloc[:,0:8]
Y=data.iloc[:,8]
X=np.array(X)
Y=np.array(Y)
print("X:",X)
print('\n')
print("Y",Y)

在這里插入圖片描述
在這里插入圖片描述

5.劃分訓(xùn)練集和測試集

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier,RadiusNeighborsClassifier
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size=0.2)

四、建立模型

models = []
models.append(("KNN",KNeighborsClassifier(n_neighbors=2)))
models.append(("KNN with weights",KNeighborsClassifier(n_neighbors=2,weights="distance")))
models.append(("Radius Neighbors",RadiusNeighborsClassifier(n_neighbors=2,radius=500.0)))
models

在這里插入圖片描述
分別訓(xùn)練三個(gè)模型,計(jì)算平均評分

results = []
for name,model in models:model.fit(X_train,Y_train)results.append((name,model.score(X_test,Y_test)))

for i in range(len(results)):print("name:{},score:{}".format(results[i][0],results[i][1]))

在這里插入圖片描述

利用交叉驗(yàn)證準(zhǔn)確對比算法的精確性

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
results = []
for name,model in models:Kfold = KFold(n_splits=10)cv_result = cross_val_score(model,X_train,Y_train,cv=Kfold)results.append((name,cv_result))for i in range(len(results)):print("name:{};cross_val_score:{}".format(results[i][0],results[i][1].mean()))

在這里插入圖片描述

通過以上結(jié)果顯示,普通KNN算法的性能更優(yōu)一些,接下來用普通KNN進(jìn)行訓(xùn)練

五、模型驗(yàn)證

knn =KNeighborsClassifier(n_neighbors=2)
knn.fit(X_train,Y_train)

在這里插入圖片描述

train_score = knn.score(X_train,Y_train)
test_score = knn.score(X_test,Y_test)
print("train_score:{};test score:{}".format(train_score,test_score))

在這里插入圖片描述

以上結(jié)果顯示表明,訓(xùn)練樣本的擬合情況不佳,模型的準(zhǔn)確性欠佳
通過畫學(xué)習(xí)率曲線來觀察這一結(jié)論.


from sklearn.model_selection import ShuffleSplit
from sklearn.model_selection import learning_curveimport matplotlib.pyplot as plt
%matplotlib inline
knn = KNeighborsClassifier(n_neighbors=2)
cv= ShuffleSplit(n_splits=10,test_size=0.2,random_state=0)
plt.figure(figsize=(10,6),dpi=200)
plot_learning_curve(knn,"Learning Curve for KNN Diabetes",X,Y,ylim=(0.0,1.01),cv=cv)
plt.show()

在這里插入圖片描述

學(xué)習(xí)曲線分析
從圖中可以看出來,訓(xùn)練樣本的評分較低,且測試樣本與訓(xùn)練樣本距離較大,這是典型的欠擬合現(xiàn)象,KNN算法沒有更好的措施解決欠擬合的問題,可以嘗試用其他的分類器。

總結(jié)

k-近鄰算法是分類數(shù)據(jù)最簡單最有效的算法,k-近鄰算法是基于實(shí)例的學(xué)習(xí),使用算法時(shí)我們必須有接近實(shí)際數(shù)據(jù)的訓(xùn)練樣本數(shù)據(jù)。k-近鄰算法必須保存全部數(shù)據(jù)集,如果訓(xùn)練數(shù)據(jù)集的很大,必須使用大量的存儲(chǔ)空間。此外,由于必須對數(shù)據(jù)集中的每個(gè)數(shù)據(jù)計(jì)算距離值,實(shí)際使用時(shí)可能非常耗時(shí)。k-近鄰算法的另一個(gè)缺陷是它無法給出任何數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)信息,因此我們也無法知曉平均實(shí)例樣本和典型實(shí)例樣本具有什么特征。

http://www.risenshineclean.com/news/53262.html

相關(guān)文章:

  • 主要怎么學(xué)的呢seo網(wǎng)站建設(shè)是什么意思
  • python做公司網(wǎng)站人工智能培訓(xùn)心得
  • 城鄉(xiāng)建設(shè)部網(wǎng)站首頁甲級網(wǎng)站搜索優(yōu)化價(jià)格
  • 濟(jì)南網(wǎng)站建設(shè)凡科seo主要優(yōu)化
  • 安徽建設(shè)監(jiān)理協(xié)會(huì)網(wǎng)站seo有哪些網(wǎng)站
  • 模板網(wǎng)站制作時(shí)間百度指數(shù)分析大數(shù)據(jù)
  • ps做網(wǎng)站效果圖尺寸如何網(wǎng)站建設(shè)軟件
  • 銀川制作網(wǎng)站百度熱門排行榜
  • 建站如何掙錢seo教程網(wǎng)站優(yōu)化
  • 簡單網(wǎng)站搭建媒介星軟文平臺(tái)
  • 網(wǎng)站建設(shè) 后期維護(hù)抖音關(guān)鍵詞排名軟件
  • 網(wǎng)站怎么做懸浮圖片bing搜索引擎入口
  • 備案號網(wǎng)站下邊優(yōu)化網(wǎng)站收費(fèi)標(biāo)準(zhǔn)
  • 網(wǎng)站怎么做視頻教程上海十大公關(guān)公司排名
  • wordpress加速r網(wǎng)站搜索優(yōu)化公司
  • 網(wǎng)站開發(fā)專業(yè)職稱有哪些武漢網(wǎng)絡(luò)推廣公司排名
  • 班級網(wǎng)站設(shè)計(jì)模板域名收錄查詢工具
  • 專業(yè)做網(wǎng)站關(guān)鍵詞排名下掉長尾關(guān)鍵詞是什么意思
  • 在家做兼職官方網(wǎng)站平臺(tái)輿情信息網(wǎng)
  • php網(wǎng)站開發(fā)技術(shù)文檔廣告聯(lián)盟怎么賺錢
  • 做app網(wǎng)站有哪些功能怎么做ppt
  • 紹興專業(yè)做網(wǎng)站的公司蘇州seo按天扣費(fèi)
  • 網(wǎng)站 被攻擊_主業(yè)篡改 被黑了 織夢做的站市場調(diào)研
  • 網(wǎng)站建設(shè)可以幫助花店怎么樣百度投訴中心24人工客服電話
  • 大學(xué)生實(shí)訓(xùn)網(wǎng)站建設(shè)心得關(guān)鍵詞查詢
  • 相親網(wǎng)站做期貨現(xiàn)貨貴金屬的人近期國內(nèi)新聞?wù)?/a>
  • 最新足球消息seo搜索引擎優(yōu)化ppt
  • 自己做的網(wǎng)站怎么連接計(jì)算機(jī)免費(fèi)漲粉工具
  • wordpress 懸浮播放器公司網(wǎng)站seo公司
  • 網(wǎng)站建設(shè)完成后如何備案安陽seo