武漢網站建設公司哪家專業(yè)重慶網站優(yōu)化軟件
k-means算法
k-means算法,也被稱為k-平均或k-均值,是一種得到最廣泛應用的聚類算法。

算法首先隨機選擇k個對象,每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象根據其與各個簇中心的距離,將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復直到準則函數收斂。
準則函數試圖使生成的結果簇盡可能地緊湊和獨立。

算法步驟
(1) 首先我們選擇一些類/組,并隨機初始化它們各自的中心點。中心點是與每個數據點向量長度相同的位置。這需要我們提前預知類的數量(即中心點的數量)。
(2) 計算每個數據點到中心點的距離,數據點距離哪個中心點最近就劃分到哪一類中。
(3) 計算每一類中中心點作為新的中心點。
(4) 重復以上步驟,直到每一類中心在每次迭代后變化不大為止。也可以多次隨機初始化中心點,然后選擇運行結果最好的一個。

算法優(yōu)點
(1)速度快;
(2)計算簡便 ;
算法缺點
(1)我們必須提前知道數據有多少類/組;
(2)K-Medians是K-Means的一種變體,是用數據集的中位數而不是均值來計算數據的中心點。;
(3)K-Means對于“噪聲”和“孤立點數據”等異常值是敏感的,K-Medians的優(yōu)勢是使用中位數來計算中心點不受異常值的影響;缺點是計算中位數時需要對數據集中的數據進行排序,速度相對于K-Means較慢。
