中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

東莞網(wǎng)站建設(shè)公司怎么做網(wǎng)絡(luò)營(yíng)銷的核心是

東莞網(wǎng)站建設(shè)公司怎么做,網(wǎng)絡(luò)營(yíng)銷的核心是,廣告公司寮步網(wǎng)站建設(shè),wordpress郵箱驗(yàn)證失敗🚀個(gè)人主頁(yè):為夢(mèng)而生~ 關(guān)注我一起學(xué)習(xí)吧! 💡專欄:機(jī)器學(xué)習(xí) 歡迎訂閱!相對(duì)完整的機(jī)器學(xué)習(xí)基礎(chǔ)教學(xué)! ?特別提醒:針對(duì)機(jī)器學(xué)習(xí),特別開始專欄:機(jī)器學(xué)習(xí)python實(shí)戰(zhàn)…

🚀個(gè)人主頁(yè):為夢(mèng)而生~ 關(guān)注我一起學(xué)習(xí)吧!
💡專欄:機(jī)器學(xué)習(xí) 歡迎訂閱!相對(duì)完整的機(jī)器學(xué)習(xí)基礎(chǔ)教學(xué)!
?特別提醒:針對(duì)機(jī)器學(xué)習(xí),特別開始專欄:機(jī)器學(xué)習(xí)python實(shí)戰(zhàn) 歡迎訂閱!本專欄針對(duì)機(jī)器學(xué)習(xí)基礎(chǔ)專欄的理論知識(shí),利用python代碼進(jìn)行實(shí)際展示,真正做到從基礎(chǔ)到實(shí)戰(zhàn)!
💡往期推薦
【機(jī)器學(xué)習(xí)基礎(chǔ)】機(jī)器學(xué)習(xí)入門(1)
【機(jī)器學(xué)習(xí)基礎(chǔ)】機(jī)器學(xué)習(xí)入門(2)
【機(jī)器學(xué)習(xí)基礎(chǔ)】機(jī)器學(xué)習(xí)的基本術(shù)語(yǔ)
【機(jī)器學(xué)習(xí)基礎(chǔ)】機(jī)器學(xué)習(xí)的模型評(píng)估(評(píng)估方法及性能度量原理及主要公式)
【機(jī)器學(xué)習(xí)基礎(chǔ)】一元線性回歸(適合初學(xué)者的保姆級(jí)文章)
【機(jī)器學(xué)習(xí)基礎(chǔ)】多元線性回歸(適合初學(xué)者的保姆級(jí)文章)
【機(jī)器學(xué)習(xí)基礎(chǔ)】對(duì)數(shù)幾率回歸(logistic回歸)
【機(jī)器學(xué)習(xí)基礎(chǔ)】正則化
【機(jī)器學(xué)習(xí)基礎(chǔ)】決策樹(Decision Tree)
💡本期內(nèi)容:前面介紹的各種模型都是有監(jiān)督的模型,對(duì)于無(wú)監(jiān)督,最經(jīng)典的就是聚類算法,本文就來(lái)介紹一下主要的聚類方法。


文章目錄

  • 1 聚類算法分析概述
  • 2 K-Means聚類算法
  • 3 K-Means參數(shù)概念及公式推導(dǎo)
    • 3.1 平方誤差(Sum of Squared Errors)
    • 3.2 歐氏距離(euclidean metric)
    • 3.3 輪廓系數(shù)(Silhouette Coefficient)
    • 3.4 DB指數(shù)(Davies-Bouldin Index)
  • 4 K-Means聚類算法的實(shí)現(xiàn)
    • 4.1 算法流程
    • 4.2 算法的偽代碼描述
    • 4.3 算法優(yōu)缺點(diǎn)


1 聚類算法分析概述

近幾年,隨著網(wǎng)絡(luò)的發(fā)展,越來(lái)越多的人開始習(xí)慣于在網(wǎng)上找信息,而網(wǎng)絡(luò)也逐漸地走進(jìn)了人們的日常生活。從人們每天都會(huì)接觸到大量的數(shù)據(jù),比如文字、音樂(lè)、圖像、視頻等等。隨著信息的增多,人工智能應(yīng)運(yùn)而生。而在人工智能這個(gè)概念中,機(jī)器學(xué)習(xí)尤為重要,是實(shí)現(xiàn)人工智能的基礎(chǔ)。機(jī)器學(xué)習(xí),就是讓計(jì)算機(jī)具有人一樣的學(xué)習(xí)能力的技術(shù),對(duì)當(dāng)前和歷史的海量數(shù)據(jù)進(jìn)行挖掘、分析,并從中發(fā)現(xiàn)有價(jià)值的信息和規(guī)律。
在這里插入圖片描述

隨著大數(shù)據(jù)時(shí)代的來(lái)臨,數(shù)據(jù)挖掘技術(shù)逐漸成為一種通用的業(yè)務(wù)方式,并推動(dòng)了機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展。2021年,我國(guó)電商交易額為42.30萬(wàn)億元,較上年同期增加了19.6%。在電商和其他行業(yè)中,要想獲得更好的用戶體驗(yàn),就必須要對(duì)新用戶進(jìn)行類型的識(shí)別,這時(shí),就可以將新用戶進(jìn)行聚類,將其分成多個(gè)簇,之后再以獲得的結(jié)果為依據(jù),來(lái)訓(xùn)練分類模型,進(jìn)而判別新用戶的類型。但是傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)已經(jīng)不能適應(yīng)海量的數(shù)據(jù),K-Means聚類算法依賴其較簡(jiǎn)單的推導(dǎo)過(guò)程和實(shí)用、簡(jiǎn)單和高效的特性等廣受青睞,在很多領(lǐng)域有巨大的貢獻(xiàn),例如:文檔聚類、市場(chǎng)細(xì)分、圖像分割、特征學(xué)習(xí)等。在非監(jiān)督學(xué)習(xí)領(lǐng)域,K均值聚類是最廣泛的,也是研究最多,應(yīng)用最廣泛的。而在聚類算法中,最常見的就是原型聚類(也稱原型判別),以K均值算法為代表。


2 K-Means聚類算法

給定或隨機(jī)產(chǎn)生m個(gè)樣本的樣本集。為了描述每個(gè)示例(即樣本),我們給出了這樣一個(gè)假設(shè):每個(gè)示例具有d個(gè)屬性來(lái)描述,這些屬性反映了它與其他示例的關(guān)系,即每個(gè)示例是d維樣本空間中的一個(gè)向量。

K-Means算法的基本思想是:將數(shù)據(jù)集按照距離進(jìn)行劃分,對(duì)于每一個(gè)樣本,將它的鄰域內(nèi)的所有樣本都分配到最近的那個(gè)類中。

首先,算法需要預(yù)先指定并且劃分為k個(gè)簇,這也是與其他算法的不同點(diǎn)。在這里定義簇的均值向量為:
在這里插入圖片描述
基于此,定義簇內(nèi)樣本圍繞簇均值向量的緊密程度[13],即平方誤差為:
在這里插入圖片描述
E的值越小則簇內(nèi)樣本相似度越高,K-Means算法就是通過(guò)通過(guò)最小化SSE來(lái)尋找使得模型預(yù)測(cè)誤差最小的模型參數(shù)。

3 K-Means參數(shù)概念及公式推導(dǎo)

3.1 平方誤差(Sum of Squared Errors)

在聚類分析中,平方誤差(Sum of Squared
Errors,SSE)是一種衡量聚類效果的指標(biāo)。聚類算法將數(shù)據(jù)點(diǎn)分配到不同的簇中,每個(gè)數(shù)據(jù)點(diǎn)與它所屬的簇的質(zhì)心之間的距離被計(jì)算出來(lái),然后平方,最后這些平方距離的和被稱為平方誤差。

具體來(lái)說(shuō),對(duì)于每個(gè)數(shù)據(jù)點(diǎn)xi和它所屬的簇ci的質(zhì)心,平方誤差會(huì)計(jì)算為(xi - ci)^2。然后,所有簇的平方誤差會(huì)相加,得到總的平方誤差。這個(gè)值越小,說(shuō)明每個(gè)數(shù)據(jù)點(diǎn)與它所屬的簇的質(zhì)心之間的距離越小,也就是聚類效果越好。

在這里插入圖片描述

這個(gè)概念可以用于評(píng)估和優(yōu)化聚類算法。比如在K-means算法中,初始質(zhì)心的選擇可能會(huì)影響聚類結(jié)果。K-means++ 算法通過(guò)讓選擇的質(zhì)心盡可能分散來(lái)改善這個(gè)問(wèn)題。另外,二分K-means算法則通過(guò)反復(fù)將一個(gè)簇劃分為兩個(gè)簇,直到達(dá)到用戶給定的簇?cái)?shù)目為止。在這個(gè)過(guò)程中,被劃分出去的總是誤差平方和最大的簇,因?yàn)檫@通常意味著這個(gè)簇的聚類效果最不好。

3.2 歐氏距離(euclidean metric)

也被稱為歐幾里得度量,是一個(gè)經(jīng)常使用的在m維空間中兩點(diǎn)之間的距離定義,或者向量的自然長(zhǎng)度,即該點(diǎn)到原點(diǎn)的距離。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。

在聚類分析中,歐氏距離是常用的距離度量方式之一。它表示的是在n維空間中,兩個(gè)點(diǎn)之間的直線距離。

具體計(jì)算公式為:

在這里插入圖片描述
其中,x和y是兩個(gè)n維向量,x1,x2,…,xn和y1,y2,…,yn是它們的對(duì)應(yīng)維度上的值。

在應(yīng)用方面,歐氏距離經(jīng)常被用于衡量數(shù)據(jù)點(diǎn)之間的相似度,數(shù)據(jù)點(diǎn)之間的距離越小,說(shuō)明它們?cè)较嗨?。例?#xff0c;在客戶分群中,可以使用該算法將相似行為模式的客戶歸類到同一簇中,以便進(jìn)行個(gè)性化推薦和精準(zhǔn)營(yíng)銷。在圖像分析中,可以使用該算法將相似的圖像歸類到同一簇中,以便進(jìn)行圖像檢索和內(nèi)容識(shí)別。

  • 缺點(diǎn)

例如,它對(duì)數(shù)據(jù)的尺度敏感,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,以避免尺度差異對(duì)聚類結(jié)果的影響。此外,它只考慮了數(shù)據(jù)點(diǎn)之間的距離,沒(méi)有考慮到數(shù)據(jù)點(diǎn)之間的方向關(guān)系,因此在處理某些特殊數(shù)據(jù)集時(shí)可能會(huì)出現(xiàn)聚類效果不佳的情況。

3.3 輪廓系數(shù)(Silhouette Coefficient)

輪廓系數(shù)(Silhouette Coefficient)是一種用于評(píng)估聚類效果的指標(biāo),它考慮了聚類中的內(nèi)聚度和分離度。

輪廓系數(shù)的計(jì)算涉及到每個(gè)數(shù)據(jù)點(diǎn)和其所屬簇內(nèi)其他數(shù)據(jù)點(diǎn)的距離,以及該數(shù)據(jù)點(diǎn)與其他簇的距離。具體而言,對(duì)于每個(gè)數(shù)據(jù)點(diǎn),其輪廓系數(shù)被定義為:s = (b - a) / max(a, b),其中a是數(shù)據(jù)點(diǎn)與其同簇其他數(shù)據(jù)點(diǎn)的平均距離,b是數(shù)據(jù)點(diǎn)與其他簇的平均距離。

輪廓系數(shù)計(jì)算公式如下:
在這里插入圖片描述

根據(jù)輪廓系數(shù)的定義,si接近1時(shí),說(shuō)明樣本i聚類合理;si接近-1時(shí),說(shuō)明樣本i更應(yīng)該分類到另外的簇;若si近似為0,則說(shuō)明樣本i在兩個(gè)簇的邊界上。所有樣本的si的均值稱為聚類結(jié)果的輪廓系數(shù),是該聚類是否合理、有效的度量。

在這里插入圖片描述

  • 優(yōu)點(diǎn)

它可以用于處理不等簇大小的情況,因?yàn)樗紤]了每個(gè)樣本點(diǎn)與其他簇的平均距離。

輪廓系數(shù)的值域?yàn)閇-1,1],方便理解和使用。

  • 局限性

它對(duì)異常值比較敏感,可能會(huì)受到離群點(diǎn)的影響。

3.4 DB指數(shù)(Davies-Bouldin Index)

DB指數(shù)(Davies-Bouldin Index)是一種用于評(píng)估聚類效果的內(nèi)部指標(biāo)。它考慮了每個(gè)簇內(nèi)的樣本點(diǎn)的緊密程度以及不同簇之間的分離度。

DB指數(shù)的計(jì)算方法如下:

  1. 對(duì)于每個(gè)簇Ck,計(jì)算其內(nèi)部樣本點(diǎn)之間的平均距離avg(Ck)。
  2. 對(duì)于每個(gè)簇Ck,計(jì)算其與其它簇之間的最小樣本距離dmin(Ck, Cj)。
  3. 對(duì)于每個(gè)簇Ck,計(jì)算其中心點(diǎn)與其它簇中心點(diǎn)之間的距離dcen(Ck, Cj)。
  4. 計(jì)算DB指數(shù),公式為:DBI=k1i=1∑kmaxj??=i?(dcen(ui,uj)avg(Ci)+avg(Cj)?)。

DB指數(shù)的值越小,說(shuō)明聚類效果越好。這是因?yàn)?strong>DB指數(shù)衡量的是不同簇之間的分離度和簇內(nèi)的緊密程度之間的平衡,當(dāng)DB指數(shù)越小,說(shuō)明聚類效果越好。

  • 缺點(diǎn)

DB指數(shù)對(duì)于異常值比較敏感,因?yàn)楫惓V悼赡軙?huì)影響簇內(nèi)樣本點(diǎn)的平均距離的計(jì)算。

此外,DB指數(shù)也可能會(huì)受到樣本規(guī)模的影響,因?yàn)闃颖疽?guī)模的增加可能會(huì)增加計(jì)算量,從而影響聚類效果的評(píng)價(jià)。

DB指數(shù)在計(jì)算過(guò)程中需要知道真實(shí)標(biāo)簽信息,因此常常被用作無(wú)監(jiān)督聚類算法的評(píng)價(jià)指標(biāo),在比較不同算法或不同參數(shù)設(shè)置時(shí)提供了重要的幫助。


4 K-Means聚類算法的實(shí)現(xiàn)

K-Means聚類算法的基本原理是,針對(duì)聚類簇劃分,最小化平方誤差。平方誤差在一定程度上描述了簇內(nèi)樣本點(diǎn)圍繞簇均值向量的緊密程度,它的值越小說(shuō)明聚類效果越好。

4.1 算法流程

  • 從數(shù)據(jù)中選擇K個(gè)對(duì)象作為初始聚類中心。
  • 計(jì)算每個(gè)聚類對(duì)象到聚類中心的距離,將每個(gè)對(duì)象歸到距離最近的聚類中心所對(duì)應(yīng)的類別。
  • 對(duì)于每個(gè)聚類,計(jì)算其所有數(shù)據(jù)點(diǎn)的均值,作為新的聚類中心。
  • 如果聚類中心發(fā)生變化,返回第2步;否則算法結(jié)束。
  • 整個(gè)算法會(huì)反復(fù)迭代第2步至第4步,直到聚類中心不再發(fā)生變化或達(dá)到最大迭代次數(shù)為止。最終,算法將會(huì)得到聚類結(jié)果,將每個(gè)數(shù)據(jù)點(diǎn)劃分到不同的聚類中心所對(duì)應(yīng)的類別中。

在這里插入圖片描述

4.2 算法的偽代碼描述

在這里插入圖片描述
K-Means聚類算法的執(zhí)行效果如下圖所示:
在這里插入圖片描述

4.3 算法優(yōu)缺點(diǎn)

  • 優(yōu)點(diǎn)
    首先,此算法容易理解、方便實(shí)現(xiàn),其次,K均值算法可以看作高斯混合聚類在混合成分方差相等、且每個(gè)樣本僅派給一個(gè)混合成分時(shí)的特例,所以該算法在數(shù)據(jù)集近似高斯分布時(shí),聚類效果不錯(cuò)。同時(shí),該算法可以處理大規(guī)模數(shù)據(jù)集,效率高。

  • 缺點(diǎn)
    但是,缺點(diǎn)也很顯然。K值和初始聚類點(diǎn)的選取對(duì)于聚類的效果可能產(chǎn)生較大的影響,其次,樣本點(diǎn)的離散程度可能對(duì)于聚類影響有較大的差別,特別是離群點(diǎn)的處理問(wèn)題。由于K-Means聚類算法只能使用歐氏距離進(jìn)行計(jì)算,所以只能較好的適用于橢球形類簇,對(duì)于非凸形狀的簇不適合。K-Means算法只能處理數(shù)值型數(shù)據(jù),對(duì)于非數(shù)值型數(shù)據(jù)需要進(jìn)行轉(zhuǎn)換才能使用。最后,由于此算法的時(shí)間復(fù)雜度為 O ( n k t ) O(nkt) O(nkt),所以在大規(guī)模數(shù)據(jù)上收斂較慢甚至引起崩潰。

http://www.risenshineclean.com/news/45010.html

相關(guān)文章:

  • 甘肅建設(shè)廳官方網(wǎng)站知名的seo快速排名多少錢
  • 長(zhǎng)沙專業(yè)網(wǎng)站制作設(shè)計(jì)網(wǎng)絡(luò)推廣和網(wǎng)站推廣
  • 怎樣自己做網(wǎng)絡(luò)推廣網(wǎng)站seo刷網(wǎng)站
  • 如何做網(wǎng)站的管理后臺(tái)百度廣告聯(lián)盟收益
  • 網(wǎng)站logo是什么排名查詢
  • 濰坊設(shè)計(jì)網(wǎng)站建設(shè)百度建站云南服務(wù)中心
  • css網(wǎng)站背景模糊百度seo服務(wù)公司
  • 如何提升網(wǎng)站訪問(wèn)速度文章推廣平臺(tái)
  • 網(wǎng)站開發(fā)需要幾個(gè)人網(wǎng)站開發(fā)流程是什么
  • 用dw做網(wǎng)站 的過(guò)程seo薪酬
  • 購(gòu)物網(wǎng)站設(shè)計(jì)開題報(bào)告微商軟文范例大全100
  • 網(wǎng)站制seopc流量排名官網(wǎng)
  • wordpress 所有文章優(yōu)化seo
  • 前端做網(wǎng)站是什么流程代運(yùn)營(yíng)公司
  • 重慶網(wǎng)站優(yōu)化公司惠州seo計(jì)費(fèi)管理
  • 做創(chuàng)意ppt網(wǎng)站有哪些方面網(wǎng)絡(luò)seo首頁(yè)
  • saas 做網(wǎng)站合肥網(wǎng)絡(luò)營(yíng)銷公司
  • 國(guó)外黃岡網(wǎng)站推廣西安發(fā)布最新通知
  • 韓國(guó)免費(fèi)行情網(wǎng)站的推薦理由seo優(yōu)化方式包括
  • 自己組裝電腦做網(wǎng)站服務(wù)器不受國(guó)內(nèi)限制的瀏覽器
  • 做網(wǎng)站自適應(yīng)框架他達(dá)那非片能延時(shí)多久
  • 貴德網(wǎng)站建設(shè)公司專業(yè)網(wǎng)站優(yōu)化
  • 內(nèi)衣網(wǎng)站建設(shè)詳細(xì)方案seo官網(wǎng)優(yōu)化詳細(xì)方法
  • 大連網(wǎng)站建設(shè)酷網(wǎng)seo網(wǎng)站快速排名外包
  • 鎮(zhèn)江網(wǎng)站建設(shè)yubei021快速建站哪個(gè)平臺(tái)好
  • 國(guó)外做兼職的網(wǎng)站企業(yè)品牌網(wǎng)站營(yíng)銷
  • wordpress評(píng)論樓廣州百度seo排名
  • 如何給網(wǎng)站做宣傳aso優(yōu)化費(fèi)用
  • 永州做網(wǎng)站費(fèi)用做百度線上推廣
  • 莆田交友網(wǎng)站市場(chǎng)惠州網(wǎng)站建設(shè)方案推廣