首頁技術(shù)文章正文

如何進行數(shù)據(jù)清洗?數(shù)據(jù)清洗的基本流程?

更新時間:2022-08-31 來源:黑馬程序員 瀏覽量:

IT培訓(xùn)班

數(shù)據(jù)清洗的基本流程一共分為5個步驟,分別是數(shù)據(jù)分析、定義數(shù)據(jù)清洗的策略和規(guī)則、搜尋并確定錯誤實例、糾正發(fā)現(xiàn)的錯誤以及干凈數(shù)據(jù)回流,很多互聯(lián)網(wǎng)大廠企業(yè)也是一直沿用這個數(shù)據(jù)清洗步驟。下面通過一張圖描述數(shù)據(jù)清洗的基本流程,具體如圖所示。

數(shù)據(jù)清洗的基本流程

接下來針對圖中數(shù)據(jù)清洗的基本流程進行詳細講解。

1.數(shù)據(jù)分析

數(shù)據(jù)分析是數(shù)據(jù)清洗的前提和基礎(chǔ),通過人工檢測或者計算機分析程序的方式對原始數(shù)據(jù)源的數(shù)據(jù)進行檢測分析,從而得出原始數(shù)據(jù)源中存在的數(shù)據(jù)質(zhì)量問題。

2.定義數(shù)據(jù)清洗的策略和規(guī)則

根據(jù)數(shù)據(jù)分析出的數(shù)據(jù)源個數(shù)和數(shù)據(jù)源中的“臟”數(shù)據(jù)程度定義數(shù)據(jù)清洗策略和規(guī)則,并選擇合適的數(shù)據(jù)清洗算法。

3.搜尋并確定錯誤實例

搜尋并確定錯誤實例步驟包括自動檢測屬性錯誤和檢測重復(fù)記錄的算法。

手工檢測數(shù)據(jù)集中的屬性錯誤需要花費大量的時間、精力以及物力,并且該過程本身很容易出錯,所以需要使用高效的方法自動檢測數(shù)據(jù)集中的屬性錯誤,主要檢測方法有基于統(tǒng)計的方法、聚類方法和關(guān)聯(lián)規(guī)則方法。

檢測重復(fù)記錄的算法可以對兩個數(shù)據(jù)集或者一個合并后的數(shù)據(jù)集進行檢測,從而確定同一個現(xiàn)實實體的重復(fù)記錄,即匹配過程。檢測重復(fù)記錄的算法有基本的字段匹配算法、遞歸字段匹配算法等。

4.糾正發(fā)現(xiàn)的錯誤

根據(jù)不同的“臟”數(shù)據(jù)存在形式的不同,執(zhí)行相應(yīng)的數(shù)據(jù)清洗和轉(zhuǎn)換步驟解決原始數(shù)據(jù)源中存在的質(zhì)量問題。需要注意的是,對原始數(shù)據(jù)源進行數(shù)據(jù)清洗時,應(yīng)該將原始數(shù)據(jù)源進行備份,以防需要撤銷清洗操作。

為了便于處理單數(shù)據(jù)源、多數(shù)據(jù)源以及單數(shù)據(jù)源與其他數(shù)據(jù)源合并的數(shù)據(jù)質(zhì)量問題,一般需要在各個數(shù)據(jù)源上進行數(shù)據(jù)轉(zhuǎn)換操作,具體如下。

(1)從原始數(shù)據(jù)源的屬性字段中抽取值(屬性分離)

原始數(shù)據(jù)源的屬性一般包含很多信息,這些信息有時需要細化成多個屬性,便于后續(xù)清洗重復(fù)記錄。

(2)確認并改正

確認并改正輸入和拼寫的錯誤,然后盡可能地使該步驟自動化。若是基于字典查詢拼寫錯誤,則更利于發(fā)現(xiàn)拼寫的錯誤。

(3)標(biāo)準化

為了便于記錄實例匹配和合并,應(yīng)該將屬性值轉(zhuǎn)換成統(tǒng)一格式。

5.干凈數(shù)據(jù)回流

當(dāng)數(shù)據(jù)被清洗后,干凈的數(shù)據(jù)替代原始數(shù)據(jù)源中的“臟”數(shù)據(jù),這樣可以提高信息系統(tǒng)的數(shù)據(jù)質(zhì)量,還可避免將來再次抽取數(shù)據(jù)后進行重復(fù)的清洗工作。

分享到:
在線咨詢 我要報名
和我們在線交談!