網(wǎng)站制作最便宜比較靠譜的推廣公司
福爾克斯–馬洛斯指數(shù)(Fowlkes–Mallows Index, FMI)是一種用于評估聚類結(jié)果與實際標簽之間一致性的指標。FMI 值可以用于衡量聚類的準確性,特別是在有真值標簽的監(jiān)督評估場景中。
計算公式
FMI 的計算基于以下公式:
其中:
- TP(True Positive):聚類中正確地將同一類別的樣本分到同一簇的對數(shù)。
- FP(False Positive):聚類中錯誤地將不同類別的樣本分到同一簇的對數(shù)。
- FN(False Negative):聚類中錯誤地將同一類別的樣本分到不同簇的對數(shù)。
FMI 是基于樣本對(pairwise)的評價方法,它考慮了聚類結(jié)果與實際標簽在配對樣本之間的一致性。
FMI 的取值范圍
- FMI∈[0,1]
- 值越接近 1,表示聚類結(jié)果與實際標簽越一致。
- 值越接近 0,表示聚類結(jié)果與實際標簽基本無關(guān)。
優(yōu)點
- 平衡性:FMI 通過結(jié)合精確率(Precision)和召回率(Recall)的平方根,能夠綜合反映聚類的性能。
- 可解釋性強:與常見的分類指標類似,易于理解和分析。
- 適用于有標簽數(shù)據(jù):特別適用于監(jiān)督學習場景下的聚類結(jié)果評估。
缺點
- 對類別不平衡敏感:當數(shù)據(jù)的類別分布不均衡時,FMI 的結(jié)果可能會受到影響。
- 計算成本較高:在大規(guī)模數(shù)據(jù)集上,由于需要計算所有樣本對之間的關(guān)系,計算開銷可能較大。
應(yīng)用場景
- 聚類性能評估:用于評價聚類算法在有真值標簽數(shù)據(jù)集上的性能。
- 多模態(tài)數(shù)據(jù)對齊:在多模態(tài)單細胞分析中,FMI 可用于衡量不同模態(tài)數(shù)據(jù)對齊結(jié)果的優(yōu)劣。
- 模型比較:在聚類算法的對比實驗中,FMI 常作為關(guān)鍵評估指標之一。
常見的有監(jiān)督評價方式
以下是一些典型的有監(jiān)督聚類評價指標及其特點:
-
調(diào)整蘭德指數(shù)(ARI, Adjusted Rand Index): 衡量兩個聚類(算法結(jié)果 vs. 真值標簽)的一致性,調(diào)整了隨機聚類帶來的影響。
-
歸一化互信息(NMI, Normalized Mutual Information): 測量聚類結(jié)果與真值標簽之間的信息共享,值越大表明聚類質(zhì)量越高。
-
聚類準確率(CA, Clustering Accuracy): 簡單地計算聚類結(jié)果與真值標簽匹配的準確率。
-
福爾克斯–馬洛斯指數(shù)(FMI, Fowlkes-Mallows Index): 衡量聚類中同類點和異類點的正確劃分比例,尤其對簇大小不平衡問題敏感。
聚類評價中的注意事項
-
真值標簽的質(zhì)量: 如果“真值”標簽本身不可靠(如細胞類型標簽的分類標準主觀性較強),則評價結(jié)果可能存在偏差。
-
不依賴標簽的無監(jiān)督評價: 除了上述有監(jiān)督指標,還可以采用無監(jiān)督指標,如輪廓系數(shù)(Silhouette Coefficient)或聚類內(nèi)的平方誤差(SSE),來評價聚類效果。
-
真實應(yīng)用場景: 在實際無標注場景中,我們無法依賴有監(jiān)督指標,這時需要結(jié)合領(lǐng)域知識或其他方式驗證聚類的意義。