Sqoop工具操作簡單,它提供了一系列的工具指令,來進行數(shù)據(jù)的導(dǎo)入、導(dǎo)出操作等。使用Sqoop解壓包中bin目錄下的“sqoop help”指令可以查看Sqoop支持的所有工具指令,具體效果如圖1所示。查看全文>>
數(shù)據(jù)發(fā)布與訂閱模型,即所謂的全局配置中心,顧名思義就是發(fā)布者將需要全局統(tǒng)一管理的數(shù)據(jù)發(fā)布到Zookeeper節(jié)點上,供訂閱者動態(tài)獲取數(shù)據(jù),實現(xiàn)配置信息的集中式管理和動態(tài)更新。例如全局的配置信息,服務(wù)式服務(wù)框架的服務(wù)地址列表等就非常適合使用。接下來,我們介紹一些數(shù)據(jù)發(fā)布與訂閱的主要應(yīng)用場景。查看全文>>
掌握了Hadoop集群中的高可用架構(gòu)后,接下來,我們來手把手教大家搭建一個Hadoop高可用集群,具體步驟如下:查看全文>>
大多數(shù)情況下,我們完成的數(shù)據(jù)體系卻是依賴復(fù)雜、層級混亂的,因此,我們需要一套行之有效的數(shù)據(jù)組織和管理方法來讓我們的數(shù)據(jù)體系更有序,這就是談到的數(shù)據(jù)分層。數(shù)據(jù)分層并不能解決所有的數(shù)據(jù)問題,但是,數(shù)據(jù)分層卻可以給我們帶來如下的好處:查看全文>>
combiner其實屬于優(yōu)化方案,由于帶寬限制,應(yīng)該盡量map和reduce之間的數(shù)據(jù)傳輸數(shù)量。它在Map 端把同一個key的鍵值對合并在一起并計算,計算規(guī)則與reduce一致,所以combiner也可以看作特殊的Reducer。查看全文>>
map階段處理的數(shù)據(jù)如何傳遞給reduce階段,是MapReduce框架中關(guān)鍵的一個流程,這個流程就叫shuffle。本章節(jié)內(nèi)容來看一下shuffle的工作流程和工作機制。查看全文>>