北京建網(wǎng)站定制價格地推的60種方法
一、數(shù)據(jù)治理定義
數(shù)據(jù)治理是一種組織數(shù)據(jù)管理的方法,涉及數(shù)據(jù)的收集、存儲、處理、分析和共享等方面,旨在最大程度地利用數(shù)據(jù)資產(chǎn)并降低數(shù)據(jù)相關(guān)的風險。? 數(shù)據(jù)治理確保數(shù)據(jù)的質(zhì)量、安全性、合規(guī)性和可用性,以支持組織的決策和運營活動。?
二、數(shù)據(jù)清洗定義
數(shù)據(jù)清洗是數(shù)據(jù)治理工作中的一項重要任務(wù),旨在解決企業(yè)的數(shù)據(jù)質(zhì)量歷史遺留問題,如數(shù)據(jù)不一致、不完整、不合規(guī)和冗余等。? 數(shù)據(jù)清洗通過設(shè)定特定的數(shù)據(jù)規(guī)則對混亂數(shù)據(jù)進行清洗和標準化。?
三、數(shù)據(jù)治理和數(shù)據(jù)清洗的區(qū)別
數(shù)據(jù)治理主要是宏觀上對數(shù)據(jù)進行管理,由國家或行業(yè)制定制度,具有穩(wěn)定性。? 數(shù)據(jù)治理涉及頂層設(shè)定,具有權(quán)威性,確保數(shù)據(jù)的整體質(zhì)量和合規(guī)性。而?數(shù)據(jù)清洗主要是微觀上對數(shù)據(jù)進行清洗和標準化,規(guī)則由自己設(shè)定,隨意性較強。? 數(shù)據(jù)清洗更側(cè)重于解決具體的數(shù)據(jù)質(zhì)量問題。?
四、數(shù)據(jù)清洗常用方法
1.數(shù)據(jù)質(zhì)量問題一:數(shù)據(jù)中存在缺失值
下面以bbb.csv文件為例,介紹常用缺失值處理方法,該文件具體內(nèi)容如下:
2.處理方法
(1)方法一:刪除缺失值所在的行
def DelRowWithNull():data = pd.read_csv('bbb.csv')data.dropna(inplace=True)return data
(2)方法二:填補缺失值
1)使用缺失值所在列臨近值填補
# 使用缺失值上一行有效值填補
def FillingNullWithUpRow():data = pd.read_csv('bbb.csv') data.fillna(method='ffill',inplace=True)return data# 使用缺失值下一行有效值填補
def FillingNullWithDownRow():data = pd.read_csv('bbb.csv') data.fillna(method='bfill',inplace=True)return data
2)使用該列平均值對空值進行填補(缺失值所在列類型為數(shù)值型)
def FillingNullWithColMean():data = pd.read_csv('bbb.csv') data.fillna(data.mean(),inplace=True)return data
3)使用空值列中位數(shù)進行填補(缺失值所在列類型為數(shù)值型)
def FillingNullWithMedian():data = pd.read_csv('bbb.csv')data.fillna(data.median(),inplace=True)return data
填補后的結(jié)果如下圖:
4)使用空值所在列眾數(shù)進行填補
def FillingNullWithMode():data = pd.read_csv('bbb.csv')data.fillna(data.mode().iloc[0], inplace=True)return data
填補后的結(jié)果如下圖:
5) 自定義填充
def FillingNullWithCustom(data):data = pd.read_csv('bbb.csv')data.fillna('-1', inplace=True)return data
填補后的結(jié)果如下圖所示:
6) 插值填充(缺失值必須為數(shù)值類型)
def FillingNullWithInsertVal(data):data = pd.read_csv('bbb.csv') data.interpolate(method='linear', limit_direction='forward', inplace=True)return data
7)機器學習填充(缺失值必須為數(shù)值類型 或者 字符類型)
要使用該方法,必須確定缺失值所在列與其他某一列間存在某種聯(lián)系。