Spark部署模式分為Local模式(本地單機(jī)模式)和集群模式,在Local模式下,常用于本地開發(fā)程序與測試,而集群模式又分為Standalone模式(集群單機(jī)模式)、Yarn模式和Mesos模式,關(guān)于這三種集群模式的相關(guān)介紹具體如下:查看全文>>
本節(jié),我們將詳細(xì)講解使用mongo shell對集合進(jìn)行創(chuàng)建和刪除操作。創(chuàng)建集合有兩種方式,即顯式創(chuàng)建集合和隱式創(chuàng)建集合,具體語法如下:查看全文>>
爬取網(wǎng)頁,其實(shí)就是通過URL獲取網(wǎng)頁信息,這段網(wǎng)頁信息的實(shí)質(zhì)就是一段附加了JS和CSS的HTML代碼。如果把網(wǎng)頁比作是一個人,那么HTML就是它的骨架,JS是它的肌肉,CSS是它的衣服。由此看來,網(wǎng)頁最重要的數(shù)據(jù)部分是存在于HTML中的。urllib庫的使用比較簡單,接下來,我們使用urllib快速爬取一個網(wǎng)頁,具體代碼如下:查看全文>>
坐標(biāo)軸一般將軸脊作為刻度的載體,在軸脊上顯示刻度標(biāo)簽和刻度線。matplotlib中的坐標(biāo)系默認(rèn)有4個軸脊,分別是上軸脊、下軸脊、左軸脊和右軸脊,其中上軸脊和右軸脊并不經(jīng)常使用,大多數(shù)情況下可以將上軸脊和右軸脊隱藏。matplotlib中提供了隱藏全部軸脊或部分軸脊的方法。查看全文>>
大數(shù)據(jù)培訓(xùn)課程中經(jīng)常會講到HDFS,HDFS提供了多種數(shù)據(jù)訪問方式,其中,命令行的形式是最簡單的,同時也是許多開發(fā)者最容易掌握的方式,本節(jié)將針對HDFS的基本操作進(jìn)行講解。查看全文>>
現(xiàn)在的社會是一個高速發(fā)展的社會,科技發(fā)達(dá),信息流通,人們之間的交流也越來越密切,生活也越來越便捷,大數(shù)據(jù)就是這個高科技時代的產(chǎn)物。阿里巴巴馬云曾經(jīng)說過,未來的時代將不是IT的時代,而是DT的時代,DT就是Data Technology,數(shù)據(jù)科技,這顯示出大數(shù)據(jù)對于阿里巴巴集團(tuán)來說是舉足輕重的。查看全文>>