在 HBase 中,所有突變要么存儲數(shù)據(jù),要么將數(shù)據(jù)標記為刪除;沒有就地更新或刪除之類的東西。 HappyBase 提供了進行單次插入或刪除的方法,以及一次執(zhí)行多個突變的批處理 API。查看全文>>
多進程爬蟲一般也被視為分布式爬蟲的基礎(chǔ),在單機上可以使用。通常來說大型網(wǎng)站采用分布式來部署服務(wù)器,能夠采用多進程同時間在不同的服務(wù)器上進行爬取。查看全文>>
Python自帶的urllib和urllib2,也可以使用requests這種第三方庫,或者Scrapy框架。urllib和urllib2模塊都可以做與請求URL相關(guān)的操作,但它們提供了不同的功能。查看全文>>
根據(jù)以往的MySQL使用經(jīng)驗,MySQL單表在 5000 萬行以內(nèi)時,性能較好,單表超過5000萬行后,數(shù)據(jù)庫性能、可維護性都會極劇下降。當(dāng)然這時候可以做MySQL分庫分表,如使用Mycat或Sharding-jdbc,分庫分表能否能解決MySQL的問題呢?查看全文>>
循環(huán)復(fù)制是指將一個序列循環(huán)地復(fù)制多次,形成一個更長的序列。而雙M結(jié)構(gòu)是指將一個序列分為兩個子序列,然后將它們交錯組合,形成一個新的序列。查看全文>>