中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

網(wǎng)站節(jié)日制作快速網(wǎng)站輕松排名

網(wǎng)站節(jié)日制作,快速網(wǎng)站輕松排名,商城網(wǎng)站建設(shè)方案書,59網(wǎng)站一起做網(wǎng)店一、說明 K-means 的目標(biāo)是將一組觀測值劃分為 k 個聚類,每個觀測值分配給均值(聚類中心或質(zhì)心)最接近的聚類,從而充當(dāng)該聚類的代表。 在本文中,我們將全面介紹 k 均值聚類(最常用的聚類方法之一&#xff0…

一、說明

????????K-means 的目標(biāo)是將一組觀測值劃分為 k 個聚類,每個觀測值分配給均值(聚類中心或質(zhì)心)最接近的聚類,從而充當(dāng)該聚類的代表。

????????在本文中,我們將全面介紹 k 均值聚類(最常用的聚類方法之一)及其組成部分的所有內(nèi)容。我們將了解聚類,為什么它很重要,以及它的應(yīng)用。

二、什么是 K-means 聚類?

????????K-Means 聚類是一種流行的無監(jiān)督機(jī)器學(xué)習(xí)算法,用于將數(shù)據(jù)集劃分為一組不同的、不重疊的組或聚類。目標(biāo)是以這樣一種方式對數(shù)據(jù)點(diǎn)進(jìn)行分組,即同一聚類中的點(diǎn)彼此之間比與其他聚類中的點(diǎn)更相似。該技術(shù)廣泛應(yīng)用于數(shù)據(jù)挖掘、市場細(xì)分、圖像壓縮以及其他需要模式識別的領(lǐng)域。

2.1 K-means 中使用的數(shù)學(xué)概念

????????在我們開始計算 k 均值之前,我們將討論 K 均值中使用的數(shù)學(xué)概念。

  • 質(zhì)心:這些是聚類的中心點(diǎn),在每次迭代中都會重新計算,以作為分配給聚類的點(diǎn)的平均值。
  • 歐幾里得距離:這是 K-Means 中最常用的距離度量。它計算歐幾里得空間中兩點(diǎn)之間的直線距離。

對于 n 維的 X(x1,x2,...,xn) 和 Y(y1,y2,...,yn) 2 個點(diǎn),使用此公式測量歐幾里得距離。

  • 慣性:它衡量集群的分布程度。它是每個數(shù)據(jù)點(diǎn)與其分配的質(zhì)心之間的平方距離之和。目標(biāo)是將慣性降至最低。

WCSS = d12 + d22+ d32 + ...........+ dn2

2.2 K-means是如何工作的?

# Generating Data
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs# Parameters
n_samples = 300
n_features = 2
centers = 4# Generate data
X, y = make_blobs(n_samples=n_samples, n_features=n_features, centers=centers, cluster_std=3, random_state=42)# Visualize the data
plt.scatter(X[:, 0], X[:, 1], s=50, cmap='viridis')
plt.title("Initial Data")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.show()

from sklearn.cluster import KMeanskmeans = KMeans(n_init = 10, n_clusters = 4, verbose=100)
kmeans.fit(X)y_kmeans = kmeans.predict(X)plt.scatter(X[y_kmeans == 0, 0], X[y_kmeans == 0, 1], s = 60, c = 'red', label = 'Cluster1')
plt.scatter(X[y_kmeans == 1, 0], X[y_kmeans == 1, 1], s = 60, c = 'blue', label = 'Cluster2')
plt.scatter(X[y_kmeans == 2, 0], X[y_kmeans == 2, 1], s = 60, c = 'green', label = 'Cluster3')
plt.scatter(X[y_kmeans == 3, 0], X[y_kmeans == 3, 1], s = 60, c = 'yellow', label = 'Cluster4')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s = 100, c = 'black', label = 'Centroids')plt.legend()plt.show()

  1. 初始化
  • 選擇簇數(shù) K。
  • 隨機(jī)初始化 K 個質(zhì)心,它們是數(shù)據(jù)集中表示每個聚類中心的點(diǎn)。

2. 分配步驟

  • 根據(jù)歐幾里得距離將每個數(shù)據(jù)點(diǎn)分配給最近的質(zhì)心。這將創(chuàng)建 K 個聚類。

我們計算一個點(diǎn)到每個質(zhì)心的歐幾里得距離,并將其放入距離最小的聚類中。

3. 更新步驟

  • 通過取分配給每個聚類的所有數(shù)據(jù)點(diǎn)的平均值來計算新的質(zhì)心。

我們計算聚類中所有點(diǎn)的平均值,以獲得新的質(zhì)心。

4.重復(fù):

  • 使用新的質(zhì)心重復(fù)分配和更新步驟,直到質(zhì)心不再更改或更改低于預(yù)定義的閾值。

生成上述圖像的代碼在此處。

三、如何確定質(zhì)心的數(shù)量?

3.1 彎頭法

肘部方法是一種用于確定 K-Means 聚類中最佳聚類數(shù)的技術(shù)。這個想法是對 K 的值范圍運(yùn)行 K-Means,并計算從每個點(diǎn)到其分配的質(zhì)心的距離平方和(稱為慣性或簇內(nèi)平方和)。隨著 K 的增加,慣性減小,因?yàn)辄c(diǎn)更接近它們的質(zhì)心。

目標(biāo)是找到“肘點(diǎn)”,其中下降速度急劇減慢,表明隨著 K 的增加,回報遞減,即在肘點(diǎn)之后增加 K 的值沒有多大好處。

WCSS = d12 + d22 + d32 + ...........+ dn2

我們通常計算前 10 個聚類的慣性。對于 K = 數(shù)據(jù)點(diǎn)數(shù),慣性將為零。

from sklearn.cluster import KMeanswcss = []
for i in range(1, 11):kmeans = KMeans(n_init = 10, n_clusters = i)kmeans.fit(X)wcss.append(kmeans.inertia_)plt.title("Elbow Method")
plt.xlabel("Number of Clusters(k)")
plt.ylabel("WCSS")
plt.plot(range(1,11),wcss)

因此,集群的數(shù)量可以是 3 個或 4 個。

肘部方法有一些限制,例如:

  1. 肘點(diǎn)的選擇是主觀的。
  2. 它不適用于所有數(shù)據(jù)集,例如當(dāng)聚類具有不規(guī)則形狀或大量特征時。

3.2 剪影分?jǐn)?shù)

Silhouette 分?jǐn)?shù)是一個指標(biāo),用于量化集群的質(zhì)量。它適用于任何聚類算法。

剪影分?jǐn)?shù)的值從 -1 到 +1 不等。

  • +1 : 良好(集群分離良好)
  • 0 : 集群彼此靠近
  • -1 : 錯誤(錯誤的聚類)

內(nèi)聚力:?同一聚類中元素彼此接近的程度。(它衡量集群的緊湊性。

分離:?它指的是不同的集群彼此之間有多么不同或分辨得多么好。

S(i)?是剪影分?jǐn)?shù)。

a(i)?是所取點(diǎn)與其自身聚類中所有點(diǎn)的平均距離。它代表著凝聚力。

b(i)?是所取點(diǎn)與剩余最近聚類的所有點(diǎn)之間的平均聚類距離。它代表分離。

from sklearn.metrics import silhouette_score
sil = []
for i in range(2, 11):kmeans = KMeans(n_clusters=i)cluster_labels = kmeans.fit_predict(X)silhouette_avg = silhouette_score(X, cluster_labels)sil.append(silhouette_avg)plt.xlabel("Number of Clusters(k)")
plt.ylabel("Silhouette Score")
plt.plot(range(2,11),sil)

根據(jù)輪廓分?jǐn)?shù),我們應(yīng)該假設(shè) k=3,因?yàn)閷τ?3 個聚類,分?jǐn)?shù)是最大的。

四、如何初始化質(zhì)心?

4.1 K-均值++

K-Means++ 是 K-Means 聚類算法的高級版本,它改進(jìn)了質(zhì)心的初始選擇,旨在提高聚類結(jié)果和收斂速度。標(biāo)準(zhǔn)的 K-Means 算法對質(zhì)心的初始放置很敏感,初始化不良會導(dǎo)致聚類次優(yōu)和收斂速度變慢。K-Means++ 通過使用更智能的初始化策略來解決這個問題。

4.2 K-Means++ 初始化的步驟

1. 選擇第一個質(zhì)心:
? 從數(shù)據(jù)集中隨機(jī)選擇第一個質(zhì)心。
2. 選擇后續(xù)質(zhì)心:
? 對于每個后續(xù)質(zhì)心,計算從每個
數(shù)據(jù)點(diǎn) x 到最近的已選質(zhì)心的距離 D(x)。
? 從數(shù)據(jù)點(diǎn)中選擇下一個質(zhì)心,其概率與 D(x)2 成正比。概率最大的點(diǎn)作為質(zhì)心。(我們采用概率而不是距離本身來減少異常值的影響。
3. 重復(fù):
? 重復(fù)該過程,直到選擇 K 個質(zhì)心。
4. 繼續(xù)使用標(biāo)準(zhǔn) K-Means:
? 使用這些 K 質(zhì)心作為初始起點(diǎn),并運(yùn)行標(biāo)準(zhǔn) K-Means 算法

五、K-means的假設(shè)和局限性

  1. 假設(shè)簇是球形和各向同性(不是不規(guī)則形狀)。
  2. 假定聚類具有相似的大小。
  3. 假設(shè)所有聚類都具有相似的方差。
  4. 集群的數(shù)量是預(yù)定義的。
  5. 當(dāng)聚類分離良好時,此算法效果最佳。
  6. K 均值不能在存在異常值的情況下應(yīng)用(因?yàn)橘|(zhì)心會移動太多并且無法正確分配)

六、結(jié)論

K-Means 簡單性和效率使其成為各種應(yīng)用的熱門選擇,包括圖像分割、市場分割和模式識別。盡管它很簡單,但它為各個領(lǐng)域的許多應(yīng)用程序提供了堅(jiān)實(shí)的基礎(chǔ)。但是,它對質(zhì)心的初始放置很敏感,這可能導(dǎo)致次優(yōu)聚類。盡管存在一些局限性,例如對 K 選擇的敏感性以及卡在局部最小值中的可能性,但 K-Means 仍然是數(shù)據(jù)分析和機(jī)器學(xué)習(xí)中一種基本且高效的聚類技術(shù)。

K-Means 有其局限性,其他聚類算法(如 DBSCAN 和 GMM)可以克服這些局限性。

K 表示
聚類
http://www.risenshineclean.com/news/8803.html

相關(guān)文章:

  • 社交網(wǎng)站開發(fā)語言俄羅斯引擎搜索
  • 網(wǎng)站交換鏈接怎么做百度競價個人開戶
  • 網(wǎng)站代理什么意思百度seo排名優(yōu)化助手
  • 在合肥做網(wǎng)站多少錢千川推廣官網(wǎng)
  • 做網(wǎng)站需要云數(shù)據(jù)庫嗎2345網(wǎng)址導(dǎo)航手機(jī)版
  • 上海網(wǎng)站建設(shè)與設(shè)計公司好百度手機(jī)網(wǎng)頁版入口
  • 小說網(wǎng)站架構(gòu)win10優(yōu)化工具下載
  • 深圳福田做網(wǎng)站百度推廣開戶需要多少錢
  • 網(wǎng)站開發(fā)網(wǎng)站開發(fā)拼多多怎么查商品排名
  • 成品網(wǎng)站 免費(fèi)網(wǎng)絡(luò)推廣的基本方法有哪些
  • 通江網(wǎng)站建設(shè)國際最新新聞熱點(diǎn)事件
  • 教育行業(yè)網(wǎng)站建設(shè)價格培訓(xùn)方案
  • 打造公司的網(wǎng)站互聯(lián)網(wǎng)推廣是干什么的
  • 北京做網(wǎng)站好的關(guān)鍵詞熱度分析
  • 網(wǎng)絡(luò)公司給別人做網(wǎng)站的cms是買的授權(quán)么自媒體怎么入門
  • 做網(wǎng)站要用到數(shù)據(jù)庫嗎東莞網(wǎng)站定制開發(fā)
  • 制作表格的軟件app優(yōu)化大師怎么提交作業(yè)
  • 儀征網(wǎng)站建設(shè)河北網(wǎng)站建設(shè)公司排名
  • 虛擬主機(jī)如何建設(shè)多個網(wǎng)站企業(yè)網(wǎng)站建設(shè)流程
  • 重慶做網(wǎng)站建設(shè)深圳市seo上詞多少錢
  • js實(shí)現(xiàn)網(wǎng)站浮動窗口產(chǎn)品關(guān)鍵詞
  • 烏魯木齊app制作seo引擎優(yōu)化軟件
  • 公司做網(wǎng)站怎么做網(wǎng)頁制作app
  • 網(wǎng)站做多個產(chǎn)品google官網(wǎng)瀏覽器
  • 推廣哪些app最掙錢天津seo選天津旗艦科技a
  • 網(wǎng)站建設(shè)電商百度seo手機(jī)
  • 網(wǎng)站與網(wǎng)頁 主頁的概念及它們的區(qū)別游戲推廣公司
  • 畢業(yè)設(shè)計做音樂網(wǎng)站seo搜索優(yōu)化專員
  • 外貿(mào)網(wǎng)站建設(shè).cover有利于seo優(yōu)化的是
  • 在工商局網(wǎng)站做年報要交費(fèi)嗎快手流量推廣免費(fèi)網(wǎng)站