更新時(shí)間:2023-07-25 來源:黑馬程序員 瀏覽量:
在實(shí)際業(yè)務(wù)中,從各渠道獲取的初始數(shù)據(jù)大多是“臟”數(shù)據(jù)?!芭K”數(shù)據(jù)是指源系統(tǒng)中不屬于給定范圍、對(duì)實(shí)際業(yè)務(wù)無意義、格式非法、編碼不規(guī)范、業(yè)務(wù)邏輯模糊的數(shù)據(jù)。這種數(shù)據(jù)是低質(zhì)量的數(shù)據(jù),存在著一系列的問題。下面為大家介紹一些常見的數(shù)據(jù)問題。
1.數(shù)據(jù)缺失
數(shù)據(jù)缺失是指屬性值為空的一類問題。這類問題主要是由采集、傳輸與存儲(chǔ)設(shè)備故障,數(shù)據(jù)延遲獲取或人為因素造成的。例如,用戶在參與問卷調(diào)研時(shí),未婚用戶未填寫配偶姓名一欄的信息,學(xué)生用戶未填寫月收入一欄的信息,介意填寫個(gè)人隱私信息的用戶未上傳照片信息等。
2.數(shù)據(jù)重復(fù)
數(shù)據(jù)重復(fù)是指同一條數(shù)據(jù)多次出現(xiàn)的一類問題。這類問題主要是由人為重復(fù)錄人或傳輸設(shè)備故障造成的。例如,某平臺(tái)系統(tǒng)中錄入了兩個(gè)ID相同的用戶。
3.數(shù)據(jù)異常
數(shù)據(jù)異常是指個(gè)別數(shù)據(jù)遠(yuǎn)離數(shù)據(jù)集的一類問題。這類問題主要是由隨機(jī)因素或不同機(jī)制造成的,需要先經(jīng)過判定再進(jìn)行相應(yīng)的處理。
4.數(shù)據(jù)冗余
數(shù)據(jù)冗余是指數(shù)據(jù)中存在一些多余的、無意義的屬性。這些屬性可以根據(jù)另一組屬性推導(dǎo)出來,或者蘊(yùn)含在另一組屬性中,又或者超出業(yè)務(wù)需求。例如,一組數(shù)據(jù)中同時(shí)包含月收入和年收入,而年收入可以直接根據(jù)月收入推導(dǎo)出來。
5.數(shù)據(jù)值沖突
數(shù)據(jù)值沖突是指同一屬性存在不同值的一類問題。此類問題常見于多源數(shù)據(jù)合并的場景。例如,身高屬性在一個(gè)數(shù)據(jù)源中對(duì)應(yīng)一組以cm為單位的數(shù)值,而在另一數(shù)據(jù)源中對(duì)應(yīng)一組以m為單位的數(shù)值。
6.數(shù)據(jù)噪聲
數(shù)據(jù)噪聲是指屬性值不符合常理的一類問題。這類問題主要是由硬件故障、編程錯(cuò)誤、語音或光學(xué)字符識(shí)別程序識(shí)別錯(cuò)誤等造成的。例如,一份顧客數(shù)據(jù)中記錄的用戶年齡為負(fù)數(shù)。
上述問題是數(shù)據(jù)分析或數(shù)據(jù)挖掘時(shí)比較常見的一些數(shù)據(jù)問題,這些數(shù)據(jù)問題會(huì)對(duì)數(shù)據(jù)分析或數(shù)據(jù)挖掘結(jié)果產(chǎn)生一定的影響,這些數(shù)據(jù)只有被處理成“干凈”的數(shù)據(jù)之后,才可以應(yīng)用到數(shù)據(jù)分析或數(shù)據(jù)挖掘中。
除處理“臟”數(shù)據(jù)之外,初始數(shù)據(jù)的形式或內(nèi)容也需要做一些調(diào)整,以保證數(shù)據(jù)更加符合數(shù)據(jù)分析或數(shù)據(jù)挖掘的需求,為數(shù)據(jù)分析或數(shù)據(jù)挖掘做好準(zhǔn)備工作。