Spark會(huì)產(chǎn)生DAG圖,DAG圖會(huì)基于分區(qū)和寬窄依賴關(guān)系劃分階段。一個(gè)階段的內(nèi)部都是窄依賴,窄依賴內(nèi),如果形成前后1:1的分區(qū)對(duì)應(yīng)關(guān)系,就可以產(chǎn)生許多內(nèi)存迭代計(jì)算的管道。這些內(nèi)存迭代計(jì)算的管道查看全文>>
NoSQL是Not OnlySQL的縮寫,它的含義為“不僅僅是SQL”。NoSQL是一種非關(guān)系型、分布式、無(wú)須遵循ACID原則、不提供SQL功能的數(shù)據(jù)庫(kù),是對(duì)關(guān)系型數(shù)據(jù)庫(kù)在靈活性和擴(kuò)展性上的補(bǔ)充。NoSQL.的出現(xiàn)主要是解決大規(guī)模數(shù)據(jù)集合下數(shù)據(jù)種類多樣性帶來(lái)的挑戰(zhàn),尤其是大數(shù)據(jù)應(yīng)用難題。查看全文>>
WordCount算是大數(shù)據(jù)計(jì)算領(lǐng)域經(jīng)典的入門案例,相當(dāng)于Hello World。雖然WordCount業(yè)務(wù)極其簡(jiǎn)單,但是希望能夠通過(guò)案例感受背后MapReduce的執(zhí)行流程和默認(rèn)的行為機(jī)制,這才是關(guān)鍵。以下是WordCount編程實(shí)現(xiàn)思路查看全文>>
工欲善其事,必先利其器。Python的學(xué)習(xí)過(guò)程少不了集成開發(fā)編輯環(huán)境(IDE)。這些Python IDE會(huì)提供插件、工具等幫助開發(fā)者加快使用Python開發(fā)的速度,提高效率。這里收集了一些對(duì)開發(fā)者非常有幫助的Python IDE這些IDE的相關(guān)介紹如下所示。查看全文>>
視圖是從數(shù)據(jù)庫(kù)的數(shù)據(jù)表中選取出來(lái)的數(shù)據(jù)組成的邏輯窗口,它是一個(gè)虛擬機(jī)表。引入視圖后,用戶可以將注意力集中在關(guān)心的數(shù)據(jù)上,如果數(shù)據(jù)來(lái)源于多個(gè)基本表結(jié)構(gòu),并且搜索條件比較復(fù)雜時(shí),需要編寫的查詢語(yǔ)句就會(huì)比較煩瑣,此時(shí)可以使用視圖將數(shù)據(jù)查詢語(yǔ)句變得簡(jiǎn)單可行。查看全文>>
Doris主要整合了Google Mesa(數(shù)據(jù)模型),Apache Impala(MPP Query Engine)和Apache ORCFile (存儲(chǔ)格式,編碼和壓縮)的技術(shù)。將這三種技術(shù)整合,Mesa可以滿足我們?cè)S多存儲(chǔ)需求的需求,但是Mesa本身不提供SQL查詢引擎查看全文>>