濱城區(qū)住房和城鄉(xiāng)建設(shè)局網(wǎng)站seo優(yōu)化的優(yōu)點
🤵?♂? 個人主頁: @AI_magician
📡主頁地址: 作者簡介:CSDN內(nèi)容合伙人,全棧領(lǐng)域優(yōu)質(zhì)創(chuàng)作者。
👨?💻景愿:旨在于能和更多的熱愛計算機的伙伴一起成長!!🐱?🏍
🙋?♂?聲明:本人目前大學就讀于大二,研究興趣方向人工智能&硬件(雖然硬件還沒開始玩,但一直很感興趣!希望大佬帶帶)
摘要: 本系列旨在普及那些深度學習路上必經(jīng)的核心概念,文章內(nèi)容都是博主用心學習收集所寫,歡迎大家三聯(lián)支持!本系列會一直更新,核心概念系列會一直更新!歡迎大家訂閱
該文章收錄專欄
[?— 《深入解析機器學習:從原理到應用的全面指南》 —?]
聚類算法
聚類算法是一種無監(jiān)督學習的機器學習算法,用于將數(shù)據(jù)集中的樣本劃分為具有相特征的組或簇。其目標劃分的原則是組內(nèi)(內(nèi)部)距離最小化,而組間(外部)距離最大化。在商業(yè)上,聚類可以幫助市場分析人員從消費者數(shù)據(jù)庫中區(qū)分出不同的消費群體,并且概括出每一類消費者的消費模式或消費習慣。同時,聚類分析也可以作為數(shù)據(jù)分析算法中其他分析算法的一個預處理步驟,如異常值識別、連續(xù)型特征離散化等。
以下是基于不同方法的算法類別表
算法類別 | 包括的主要算法 | 優(yōu)缺點分析 |
---|---|---|
劃分(分裂)方法 | K-Means算法(K-平均),K-MEDOIDS算法(K-中心點)和CLARANS算法(基于選擇的算法)。 | 優(yōu)點:簡單且易于實現(xiàn),對處理大數(shù)據(jù)集和高維數(shù)據(jù)具有良好的可擴展性。缺點:對初始聚類中心的選擇敏感,可能收斂到局部最優(yōu)解,對異常值和噪聲敏感。 |
層次分析方法 | BIRCH算法(平衡迭代規(guī)約和聚類),CURE算法(代表點聚類)和CHAMELEON算法(動態(tài)模型)。 | 優(yōu)點:可以自動發(fā)現(xiàn)任意形狀和大小的聚類,不需要預先指定聚類個數(shù)。缺點:對于大數(shù)據(jù)集,計算成本較高,可能受到噪聲和異常點的干擾。 |
基于密度的方法 | DBSCAN算法(基于高密度連接區(qū)域),DENCLUE算法(密度分布函數(shù))和OPTICS算法(對象排序識別)。 | 優(yōu)點:能夠發(fā)現(xiàn)任意形狀的聚類,對噪聲和異常值具有較好的魯棒性。缺點:對于高維數(shù)據(jù)和具有不同密度聚類的數(shù)據(jù)集效果較差,需要事先指定一些參數(shù)。 |
基于網(wǎng)格的方法 | STING算法(統(tǒng)計信息網(wǎng)絡(luò)),CLIOUE算法(聚類高維空間)和WAVE-CLUSTER算法(小波變換)。 | 優(yōu)點:對于高維數(shù)據(jù)和大規(guī)模數(shù)據(jù)集有良好的可擴展性,能夠處理不同形狀和大小的聚類。缺點:對初始網(wǎng)格的選擇敏感,可能受到數(shù)據(jù)分布的影響。 |
以下是常用的聚類算法,
聚類算法 | 模型所需參數(shù) | 適用范圍 | 距離度量 | 優(yōu)缺點 |
---|---|---|---|---|
K-means | 簇的數(shù)量 | 數(shù)值型數(shù)據(jù) | 歐幾里德距離 | 優(yōu)點:簡單易實現(xiàn),計算效率高;缺點:對初始聚類中心敏感,不適用于非凸形狀的簇 |
層次聚類(Hierarchical Clustering) | 距離或相似度的度量方法 | 數(shù)值型或類別型數(shù)據(jù) | 可選多種距離度量方法,如歐幾里德距離、曼哈頓距離等 | 優(yōu)點:不需要預先指定簇的數(shù)量,可用于發(fā)現(xiàn)任意形狀的簇;缺點:計算復雜度高,不適用于處理大規(guī)模數(shù)據(jù) |
DBSCAN | 鄰域半徑(epsilon)和最小鄰域樣本數(shù)(min_samples) | 數(shù)值型或類別型數(shù)據(jù) | 基于密度的距離度量 | 優(yōu)點:能夠發(fā)現(xiàn)任意形狀的簇,對初始聚類中心不敏感;缺點:對參數(shù)的選擇敏感,不適用于高維數(shù)據(jù) |
密度聚類(Density-Based Clustering) | 鄰域密度閾值 | 數(shù)值型或類別型數(shù)據(jù) | 基于密度的距離度量 | 優(yōu)點:對噪聲數(shù)據(jù)和離群點具有較好的魯棒性;缺點:對參數(shù)的選擇敏感 |
局部離群因子(Local Outlier Factor,LOF) | 鄰域大小(k) | 數(shù)值型或類別型數(shù)據(jù) | 基于密度的距離度量 | 優(yōu)點:能夠檢測出離群點和數(shù)據(jù)集中的聚類結(jié)構(gòu);缺點:對數(shù)據(jù)集中的局部結(jié)構(gòu)敏感 |
高斯混合模型(Gaussian Mixture Model,GMM) | 簇的數(shù)量 | 數(shù)值型數(shù)據(jù) | 基于概率模型的距離度量 | 優(yōu)點:能夠?qū)?shù)據(jù)進行軟聚類,靈活性高;缺點:對初始聚類中心敏感,計算復雜度高 |
以下是常用的聚類中的距離度量算法及其介紹,以及相應的優(yōu)缺點分析:
名稱 | 介紹 | 優(yōu)缺點分析 |
---|---|---|
歐氏距離(Euclidean Distance) | 歐氏距離是最常用的距離度量算法之一,它衡量兩個向量之間的直線距離。在歐氏空間中,兩個向量的歐氏距離等于它們各個維度差值的平方和的開方。 | 優(yōu)點:簡單直觀,易于理解和計算。缺點:對異常值敏感,受維度災難影響。 |
曼哈頓距離(Manhattan Distance) | 曼哈頓距離衡量兩個向量之間沿坐標軸的總距離。在二維空間中,曼哈頓距離等于兩個點橫坐標差的絕對值加上縱坐標差的絕對值。 | 優(yōu)點:對異常值不敏感,適用于稀疏數(shù)據(jù)。缺點:不考慮維度之間的相關(guān)性。 |
切比雪夫距離(Chebyshev Distance) | 切比雪夫距離是衡量兩個向量之間的最大維度差值。在二維空間中,切比雪夫距離等于兩個點橫坐標差的最大絕對值和縱坐標差的最大絕對值中的較大值。 | 優(yōu)點:對異常值不敏感,適用于稀疏數(shù)據(jù)。缺點:不考慮維度之間的相關(guān)性。 |
閔可夫斯基距離(Minkowski Distance) | 閔可夫斯基距離是歐氏距離和曼哈頓距離的一種推廣,它通過參數(shù)p來控制距離的計算方式。當p=1時,閔可夫斯基距離等同于曼哈頓距離;當p=2時,等同于歐氏距離。 | 優(yōu)點:靈活性強,可以根據(jù)需求選擇不同的參數(shù)p。缺點:對于參數(shù)p的選擇較為敏感。 |
馬氏距離(Mahalanobis Distance) | 馬氏距離考慮了數(shù)據(jù)集的協(xié)方差矩陣,通過將數(shù)據(jù)映射到一個空間中,使得在該空間中的歐氏距離與原始空間中的馬氏距離等價。馬氏距離可以解決特征之間的相關(guān)性和尺度不同的問題。 | 優(yōu)點:考慮了特征之間的相關(guān)性,適用于高維數(shù)據(jù)。缺點:需要估計協(xié)方差矩陣,計算復雜度較高。 |
皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient) | 皮爾遜相關(guān)系數(shù)衡量兩個向量之間的線性相關(guān)性。它的取值范圍在-1到1之間,其中-1表示完全負相關(guān),1表示完全正相關(guān),0表示無相關(guān)性。 | 優(yōu)點:可以衡量線性相關(guān)性,不受尺度變換影響。缺點:只能衡量線性相關(guān)性,對于非線性關(guān)系不敏感。 |
余弦相似度(Cosine Similarity) | 余弦相似度衡量兩個向量之間的夾角余弦。它通過計算兩個向量的內(nèi)積除以它們的模的乘積來衡量相似度。余弦相似度的取值范圍在-1到1之間,其中1表示完全相似,-1表示完全相反,0表示無相似性。 | 優(yōu)點:對于稀疏向量計算高效,不受維度災難影響。缺點:不考慮維度之間的差異。 |
其中大部分算法都可以通過sklearn 庫進行實現(xiàn).
🤞到這里,如果還有什么疑問🤞🎩歡迎私信博主問題哦,博主會盡自己能力為你解答疑惑的!🎩🥳如果對你有幫助,你的贊是對博主最大的支持!!🥳