更新時間:2021-12-06 來源:黑馬程序員 瀏覽量:
ReduceTask的工作過程主要經歷了5個階段,分別是Copy階段、Merge階段、Sort階段、Reduce階段和Write階段,如下圖所示。
下面針對ReduceTask工作過程的5個階段進行介紹:
(1) Copy階段:Reduce會從各個MapTask上遠程復制一片數據,并針對某一片數據,如果其大小超過一定閾值,則寫到磁盤上,否則直接放到內存中。
(2) Merge階段:在遠程復制數據的同時,ReduceTask會啟動兩個后臺線程,分別對內存和磁盤上的文件進行合并,以防止內存使用過多或者磁盤文件過多。
(3) Sort階段:用戶編寫reduce()方法輸人數據是按key進行聚集的一組數據。為了將key相同的數據聚在一起,Hadoop采用了基于排序的策略。由于各個MapTask已經實現對自己的處理結果進行了局部排序,因此,ReduceTask只需對所有數據進行一次歸并排序即可。
(4) Reduce階段:對排序后的鍵值對調用reduce()方法,鍵相等的鍵值對調用一次reduce()方法,每次調用會產生零個或者多個鍵值對,最后把這些輸出的鍵值對寫人到HDFS中。
(5) Write階段: reduce()函數將計算結果寫到HDFS上。
猜你喜歡: