網(wǎng)站開發(fā)工程師月薪平均奶茶的營銷推廣軟文
案例 26: 檢測異常值
知識點講解
在數(shù)據(jù)分析中,檢測和處理異常值(或離群值)是一個重要的步驟。異常值可能會影響數(shù)據(jù)的整體分析。一種常用的方法是使用四分位數(shù)和四分位數(shù)間距(IQR)來識別異常值。
- 四分位數(shù)和 IQR: 第一四分位數(shù)(Q1)是數(shù)據(jù)中所有數(shù)值的 25% 分位數(shù),第三四分位數(shù)(Q3)是 75% 分位數(shù)。IQR 是 Q3 和 Q1 的差。通常,超出 Q1 - 1.5 * IQR 或 Q3 + 1.5 * IQR 的值被認為是異常值。
示例代碼
# 準備數(shù)據(jù)和示例代碼的運行結(jié)果,用于案例 26# 示例數(shù)據(jù)
data_outlier_detection = {'Values': [10, 12, 12, 14, 15, 15, 100]
}
df_outlier_detection = pd.DataFrame(data_outlier_detection)# 檢測異常值
Q1 = df_outlier_detection['Values'].quantile(0.25)
Q3 = df_outlier_detection['Values'].quantile(0.75)
IQR = Q3 - Q1
outliers = df_outlier_detection[(df_outlier_detection['Values'] < (Q1 - 1.5 * IQR)) | (df_outlier_detection['Values'] > (Q3 + 1.5 * IQR))]df_outlier_detection, outliers
在這個示例中,我們使用 IQR 方法檢測了異常值。
示例代碼運行結(jié)果
原始 DataFrame (df_outlier_detection
):
Values
0 10
1 12
2 12
3 14
4 15
5 15
6 100
檢測到的異常值 (outliers
):
Values
6 100
這個結(jié)果顯示,值 100 是一個異常值。異常值檢測對于理解數(shù)據(jù)集和進行準確的統(tǒng)計分析至關重要。