武漢網(wǎng)站建設(shè)公司哪家專業(yè)產(chǎn)品seo優(yōu)化
k-means算法
k-means算法,也被稱為k-平均或k-均值,是一種得到最廣泛應(yīng)用的聚類算法。

算法首先隨機(jī)選擇k個(gè)對(duì)象,每個(gè)對(duì)象初始地代表了一個(gè)簇的平均值或中心。對(duì)剩余的每個(gè)對(duì)象根據(jù)其與各個(gè)簇中心的距離,將它賦給最近的簇。然后重新計(jì)算每個(gè)簇的平均值。這個(gè)過程不斷重復(fù)直到準(zhǔn)則函數(shù)收斂。
準(zhǔn)則函數(shù)試圖使生成的結(jié)果簇盡可能地緊湊和獨(dú)立。

算法步驟
(1) 首先我們選擇一些類/組,并隨機(jī)初始化它們各自的中心點(diǎn)。中心點(diǎn)是與每個(gè)數(shù)據(jù)點(diǎn)向量長度相同的位置。這需要我們提前預(yù)知類的數(shù)量(即中心點(diǎn)的數(shù)量)。
(2) 計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離,數(shù)據(jù)點(diǎn)距離哪個(gè)中心點(diǎn)最近就劃分到哪一類中。
(3) 計(jì)算每一類中中心點(diǎn)作為新的中心點(diǎn)。
(4) 重復(fù)以上步驟,直到每一類中心在每次迭代后變化不大為止。也可以多次隨機(jī)初始化中心點(diǎn),然后選擇運(yùn)行結(jié)果最好的一個(gè)。

算法優(yōu)點(diǎn)
(1)速度快;
(2)計(jì)算簡便 ;
算法缺點(diǎn)
(1)我們必須提前知道數(shù)據(jù)有多少類/組;
(2)K-Medians是K-Means的一種變體,是用數(shù)據(jù)集的中位數(shù)而不是均值來計(jì)算數(shù)據(jù)的中心點(diǎn)。;
(3)K-Means對(duì)于“噪聲”和“孤立點(diǎn)數(shù)據(jù)”等異常值是敏感的,K-Medians的優(yōu)勢(shì)是使用中位數(shù)來計(jì)算中心點(diǎn)不受異常值的影響;缺點(diǎn)是計(jì)算中位數(shù)時(shí)需要對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行排序,速度相對(duì)于K-Means較慢。
