更新時間:2018-11-30 來源:黑馬程序員 瀏覽量:
把之前寫的數(shù)據(jù)倉庫系列博客,匯總和整理成了一本更系統(tǒng)的小書《Data Warehouse in Action》。
0x01 大數(shù)據(jù)和數(shù)據(jù)倉庫16 年開始接觸數(shù)據(jù)倉庫,至今有一年半的時間,中間換了次工作,也算是在兩家公司實踐了數(shù)據(jù)倉庫。在此隨便寫一點關于大數(shù)據(jù)和數(shù)據(jù)倉庫的東西。
其實,很多時候大數(shù)據(jù)和數(shù)據(jù)倉庫這些都是一些概念使然,個人不太認為某一個概念比另一個概念厲害多少,大家是你中有我我中有你的關系。
就拿大數(shù)據(jù)來講,13年的時候我們會講,大數(shù)據(jù)包括了數(shù)據(jù)清洗、數(shù)據(jù)存儲、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)可視化等一系列的概念。再看數(shù)據(jù)倉庫的概念,隨便找本十多年前的經(jīng)典書籍就會發(fā)現(xiàn),數(shù)據(jù)倉庫包含了 ETL、元數(shù)據(jù)、數(shù)據(jù)血緣管理、調(diào)度系統(tǒng)、數(shù)據(jù)可視化等概念。
那么誰更大?誰更厲害?這個其實不是我們的重點,這些東西最終還是要落在具體的工作和技術上。
比如說我是搞大數(shù)據(jù)開發(fā)中的數(shù)據(jù)收集、數(shù)據(jù)清洗工作,換一個名字我就可以說自己是搞 ETL 開發(fā)的;然后我再了解一些數(shù)據(jù)倉庫建模的內(nèi)容,將自己的數(shù)據(jù)清洗的工作套上數(shù)據(jù)倉庫中的模型設計和數(shù)據(jù)分層,我就可以說自己是搞數(shù)據(jù)倉庫的。
再比如說我之前是搞數(shù)據(jù)倉庫的元數(shù)據(jù)系統(tǒng)、血統(tǒng)分析、調(diào)度系統(tǒng)的,然后同樣的理論模型,使用場景從 Oracle、Mysql這些關系型數(shù)據(jù)庫轉移到 HDFS、Hive、Spark 中,我就變成了大數(shù)據(jù)開發(fā)中的系統(tǒng)開發(fā)了。
其實很多工作內(nèi)容和工作性質(zhì)都很相近,自己靈活一點就好。
0x02 數(shù)據(jù)倉庫數(shù)據(jù)倉庫的內(nèi)容很多,這里主要對數(shù)據(jù)倉庫的體系做一個小的說明,算是這系列博客的總覽。
我們粗略地從數(shù)據(jù)倉庫中抽取幾個主題來聊:ETL、數(shù)據(jù)模型、元數(shù)據(jù)管理。
其中 ETL 的內(nèi)容和現(xiàn)在大數(shù)據(jù)的體系綁定最深。MapReduce、Spark 這些計算引擎都可以算是 ETL 的重要組成部分。
數(shù)據(jù)模型的話,我們把維度建模、數(shù)據(jù)分層、各種表結構設計放在其中。這一塊算是數(shù)據(jù)倉庫中最重要的一塊。
元數(shù)據(jù),我們可以理解為數(shù)據(jù)的管理。
針對上面三個主題,本系列文章有下面內(nèi)容:
數(shù)據(jù)倉庫中的模型設計詳解唯獨建模拉鏈表是什么緩慢變化維度如何優(yōu)雅地設計數(shù)據(jù)分層別人家的元數(shù)據(jù)系統(tǒng)是怎么設計的數(shù)據(jù)質(zhì)量監(jiān)控聊一聊ETL的設計重要的代理鍵時間維表的實踐從工作內(nèi)容上來講,我們會把數(shù)據(jù)分為數(shù)據(jù)開發(fā)、數(shù)據(jù)分析、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘的話。 很多人覺得高大上的是數(shù)據(jù)挖掘,覺得工程最強的是數(shù)據(jù)開發(fā)。
我們可以換角度而言之,我們從數(shù)據(jù)的角度來講的,我們會把數(shù)據(jù)分為:數(shù)據(jù)計算、數(shù)據(jù)價值和數(shù)據(jù)管理。我們很多是以數(shù)據(jù)價值為導向地來做數(shù)據(jù)計算,但是常常就會忽略數(shù)據(jù)管理,而數(shù)據(jù)倉庫的理念剛好是數(shù)據(jù)管理。因此可以在適當?shù)臉I(yè)務階段來重視數(shù)據(jù)管理。
作者:黑馬程序員云計算大數(shù)據(jù)培訓學院
首發(fā):http://cloud.itheima.cn/