在北京網(wǎng)站建設(shè)的崗位湖北網(wǎng)站建設(shè)制作
一、核心概念
????????1.項集(Itemset)
????????2.規(guī)則(Rule)
????????3.支持度(Support)
????????????????3.1?支持度的定義
????????????????3.2?支持度的意義
????????????????3.3 支持度的應(yīng)用
????????????????3.4?支持度的示例
????????????????3.5?支持度的調(diào)整
????????????????3.6?支持度與其他指標的關(guān)系
????????4.置信度(Confidence)
????????5.提升度(Lift)
????????????????5.1Lift說明
????????????????5.2提升度的意義
????????????????5.3提升度的計算示例
????????????????5.4提升度的應(yīng)用
????????????????5.5. 提升度與其他指標的關(guān)系
????????????????5.6在 RapidMiner 中使用提升度
????????2.關(guān)聯(lián)分析的目標
二、關(guān)聯(lián)分析實踐
????????1.表Attributes說明
????????2.修改數(shù)據(jù)預(yù)處理相關(guān)參數(shù)
????????????????2.1 復(fù)制之前的流程并修改名字
????????????????2.2 修改預(yù)處理中的相關(guān)參數(shù)
????????????????2.3?進行關(guān)聯(lián)分析
????????????????2.4 結(jié)論
????????3.收尾工作
關(guān)聯(lián)分析說明:
????????關(guān)聯(lián)分析(Association Analysis)?是一種用于發(fā)現(xiàn)數(shù)據(jù)集中項與項之間關(guān)系的技術(shù)。它通常用于幫助商家識別顧客購買行為中的規(guī)律,例如“購買商品 A 的顧客也傾向于購買商品 B”。
? ? ? ? 舉兩個小列子,比如在超市購物,相關(guān)聯(lián)的物品會擺在靠近的位置,比如賣牙膏的附近會有牙刷,賣咖啡的地方通常會有咖啡伴侶,煉乳等;又比如你在購物APP中買了東西,比如一個新手機,最近一段時間它就會給你推薦手機膜,手機殼等等.當然結(jié)論是推薦算法給出的,但推薦算法依賴的數(shù)據(jù)是通過類似于關(guān)聯(lián)分析得到的結(jié)果.
在關(guān)聯(lián)分析中一些重要的核心概念說明:
一、核心概念
1.項集(Itemset)
?一組項的集合,例如 {牛奶, 面包}、{牙膏,牙刷}、{咖啡,咖啡伴侶},{手機,手機周邊材料}。
2.規(guī)則(Rule)
形如?{A} → {B}
?的關(guān)聯(lián)規(guī)則,表示“如果購買了 A,則可能購買 B”。
3.支持度(Support)
項集或規(guī)則在數(shù)據(jù)集中出現(xiàn)的頻率。例如,{牛奶, 面包}
?的支持度為 30%,表示 30% 的交易中同時包含牛奶和面包。
3.1?支持度的定義
支持度表示某個項集或規(guī)則在數(shù)據(jù)集中出現(xiàn)的比例。它的計算公式如下:
-
項集的支持度:
例如,項集 {牛奶, 面包} 的支持度為 30%,表示在所有交易中,30% 的交易同時包含牛奶和面包。
-
規(guī)則的支持度:
例如,規(guī)則 {牛奶} → {面包} 的支持度為 25%,表示在所有交易中,25% 的交易同時包含牛奶和面包。
3.2?支持度的意義
-
衡量頻率:
支持度反映了項集或規(guī)則在數(shù)據(jù)集中出現(xiàn)的普遍性。支持度越高,說明該模式在數(shù)據(jù)中越常見。 -
過濾不重要項:
通過設(shè)置最小支持度閾值(如 0.1),可以過濾掉低頻的項集或規(guī)則,減少計算量并聚焦于有意義的模式。
3.3 支持度的應(yīng)用
? ? ? ? ①發(fā)現(xiàn)頻繁項集:在關(guān)聯(lián)分析中,首先需要找到所有滿足最小支持度閾值的頻繁項集。例如,如果最小支持度為 0.2,則只有支持度 ≥ 20% 的項集會被保留。
? ? ? ? ②生成關(guān)聯(lián)規(guī)則:基于頻繁項集生成關(guān)聯(lián)規(guī)則時,規(guī)則的支持度必須滿足最小支持度閾值。例如,規(guī)則 {牛奶} → {面包} 的支持度為 25%,如果最小支持度為 0.2,則該規(guī)則會被保留。
3.4?支持度的示例
假設(shè)有以下交易數(shù)據(jù):
交易ID | 商品 |
---|---|
1 | 牛奶, 面包 |
2 | 牛奶, 尿布 |
3 | 牛奶, 面包, 啤酒 |
4 | 面包, 啤酒 |
5 | 牛奶, 面包 |
-
計算項集 {牛奶, 面包} 的支持度:
-
包含 {牛奶, 面包} 的交易:交易 1、3、5。
-
總交易數(shù):5。
-
支持度 = 3 / 5 = 0.6(即 60%)。
-
-
計算規(guī)則 {牛奶} → {面包} 的支持度:
-
同時包含 {牛奶} 和 {面包} 的交易:交易 1、3、5。
-
總交易數(shù):5。
-
支持度 = 3 / 5 = 0.6(即 60%)。
-
3.5?支持度的調(diào)整
-
最小支持度閾值:
-
設(shè)置過高的閾值可能會漏掉一些有意義的低頻模式。
-
設(shè)置過低的閾值可能會產(chǎn)生大量無意義的規(guī)則。
-
通常需要根據(jù)數(shù)據(jù)規(guī)模和業(yè)務(wù)需求進行調(diào)整。
-
3.6?支持度與其他指標的關(guān)系
-
置信度(Confidence):
-
置信度衡量規(guī)則的可靠性,計算公式為:
-
支持度是置信度計算的基礎(chǔ)。
-
-
提升度(Lift):
-
提升度衡量規(guī)則的相關(guān)性,計算公式為:
-
支持度也是提升度計算的基礎(chǔ)。
-
4.置信度(Confidence)
規(guī)則的可靠性。例如,規(guī)則?{牛奶} → {面包}
?的置信度為 80%,表示在購買牛奶的交易中,80% 也購買了面包。
5.提升度(Lift)
衡量規(guī)則的相關(guān)性。提升度 > 1 表示正相關(guān),< 1 表示負相關(guān)。用于評估兩個事件之間的關(guān)聯(lián)強度,以及一個事件的發(fā)生對另一個事件發(fā)生的概率的影響.比如該用戶長時間不購買牛奶會不會影響其購買面包等.
5.1Lift說明
提升度(Lift)表示在給定條件下(例如,事件A發(fā)生的情況下),事件B發(fā)生的概率與不考慮該條件時事件B發(fā)生的概率之比。其數(shù)學(xué)公式為:
其中:
- P(A∩B)?表示事件A和事件B同時發(fā)生的概率。
- P(A)?表示事件A發(fā)生的概率。
- P(B)?表示事件B發(fā)生的概率。
提升度衡量的是規(guī)則?{A} → {B}
?的相關(guān)性,具體定義為:
5.2提升度的意義
-
Lift = 1:
-
表示 A 和 B 是獨立的,兩者之間沒有相關(guān)性。
-
-
Lift > 1:
-
表示 A 和 B 是正相關(guān)的,A 的出現(xiàn)會提高 B 出現(xiàn)的概率。
-
例如,Lift = 2 表示在 A 出現(xiàn)的情況下,B 出現(xiàn)的概率是原本的 2 倍。
-
-
Lift < 1:
-
表示 A 和 B 是負相關(guān)的,A 的出現(xiàn)會降低 B 出現(xiàn)的概率。
-
5.3提升度的計算示例
假設(shè)有以下交易數(shù)據(jù):
交易ID | 商品A | 商品B |
---|---|---|
1 | 是 | 是 |
2 | 是 | 否 |
3 | 否 | 是 |
4 | 否 | 否 |
-
Support(A):商品 A 出現(xiàn)的頻率 = 2/4 = 0.5
-
Support(B):商品 B 出現(xiàn)的頻率 = 2/4 = 0.5
-
Support(A ∪ B):商品 A 和 B 同時出現(xiàn)的頻率 = 1/4 = 0.25
計算提升度:
?5.4提升度的應(yīng)用
? ? ? ? ①評估規(guī)則的有效性:提升度 > 1 的規(guī)則通常更有意義,表明 A 和 B 之間存在正相關(guān)。
? ? ? ? ②優(yōu)化營銷策略:例如,如果?{牛奶} → {面包}
?的提升度為 2,可以在牛奶附近擺放面包,促進銷售。
? ? ? ? ③過濾無效規(guī)則:提升度接近 1 的規(guī)則可能沒有實際意義,可以忽略。
5.5. 提升度與其他指標的關(guān)系
-
支持度(Support):
-
衡量規(guī)則在數(shù)據(jù)中的普遍性。
-
-
置信度(Confidence):
-
衡量規(guī)則的可靠性。
-
-
提升度(Lift):
-
衡量規(guī)則的相關(guān)性。
-
5.6在 RapidMiner 中使用提升度
? ? ? ? ①使用?FP-Growth
?算子生成頻繁項集。
? ? ? ? ②使用?Create Association Rules
?算子生成規(guī)則,并設(shè)置最小提升度閾值。
? ? ? ? ③在結(jié)果中查看每條規(guī)則的提升度,篩選出有意義的規(guī)則。
2.關(guān)聯(lián)分析的目標
“購買商品 A 的顧客也傾向于購買商品 B”,支持這個目標的項集(Itemset)、規(guī)則(Rule)、支持度(Support)、置信度(Confidence)、提升度(Lift)分別是什么,是否靠譜。
二、關(guān)聯(lián)分析實踐
說明:數(shù)據(jù)預(yù)處理部分參照?數(shù)據(jù)分析系列--③RapidMiner算子說明及數(shù)據(jù)預(yù)處理中的步驟,只是將數(shù)據(jù)表改為AssociationAnalysisData.xlsx?.
1.表Attributes說明
表屬性數(shù)據(jù)說明 | |
Elapsed_Time | :?每個調(diào)查對象完成調(diào)查所用的時間。精確到0.01分鐘。 |
Time_in_Community | :?用于詢問調(diào)查對象在該社區(qū)的居住時間是0-2年、3-9年,還是10年以上,并在數(shù)據(jù)集中分別記錄為“Short”、“Medium”或“Long”。 |
Gender | : 調(diào)查對象性別。 |
Working | :?調(diào)查對象是否從事有薪工作,結(jié)果為yes/no。 |
Age | :?調(diào)查對象年齡。 |
Family | :?調(diào)查對象是否結(jié)婚,結(jié)果為yes/no。 |
Hobbies | :?調(diào)查對象是否參與興趣愛好協(xié)會,結(jié)果為yes/no。 |
Social_Club | :?調(diào)查對象是否參與社會組織,結(jié)果為yes/no。 |
Political | :?調(diào)查對象是否參與政治組織,結(jié)果為yes/no。?Professional:?調(diào)查對象是否參與專業(yè)組織,結(jié)果為yes/no。 |
Religious | :?調(diào)查對象是否參與教會組織,結(jié)果為yes/no。 |
Support_Group | :?調(diào)查對象是否參與援助導(dǎo)向型組織,結(jié)果為yes/no。 |
2.修改數(shù)據(jù)預(yù)處理相關(guān)參數(shù)
2.1 復(fù)制之前的流程并修改名字
2.2 修改預(yù)處理中的相關(guān)參數(shù)
ctrl + s保存
2.3?進行關(guān)聯(lián)分析
觀察數(shù)據(jù):
引入Numerical to Binominal算子將0和1的數(shù)據(jù)轉(zhuǎn)化為false和true便于后續(xù)分析:
引入?FP-Growth找到頻繁項集(概念在前面):
我的理解是一組經(jīng)常同時出現(xiàn)的項的集合,面包+牛奶++++等等等.
?
結(jié)論:是否結(jié)婚與是否參加社交俱樂部及是否參加政治組織可能存在關(guān)聯(lián).?
產(chǎn)生關(guān)聯(lián)規(guī)則,使用算子Create Association Rules
?2.4 結(jié)論
3.收尾工作
Ending,??congratulations, you're done.?