90%的數(shù)據(jù)分析師后續(xù)成長(zhǎng)晉升都是需要掌握大數(shù)據(jù)相關(guān)技術(shù)的,數(shù)據(jù)開發(fā)崗位(大數(shù)據(jù)工程師)將近一半的內(nèi)容是對(duì)數(shù)據(jù)進(jìn)行提取、處理、甚至分析、挖掘——這就和數(shù)據(jù)分析師的工作內(nèi)容高度重合。查看全文>>
Hive是建立在Hadoop文件系統(tǒng)上的數(shù)據(jù)倉(cāng)庫(kù),它提供了一系列工具,能夠?qū)Υ鎯?chǔ)在HDFS中的數(shù)據(jù)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的工具。查看全文>>
Tesseract是一個(gè)開源的OCR庫(kù),是目前公認(rèn)的最優(yōu)秀、最精確的開源OCR系統(tǒng),具有精準(zhǔn)度高、靈活性高等特點(diǎn)。它不僅可以通過訓(xùn)練識(shí)別出任何字體(只要字體的風(fēng)格保持不變即可),而且可以識(shí)別出任何Unicode字符。查看全文>>
Tesseraet是一個(gè)命令行工具,安裝后只能通過tsseraet命令在Python的外部運(yùn)行,而不能通過import語句引人使用。為了解決上述問題,Python 提供了支持Tssraec-OCR引擎的Python版本的庫(kù)pytesseract。查看全文>>
Hadoop有三種運(yùn)行模式:獨(dú)立(本地)運(yùn)行模式,偽分布式模式,和完全分布式模式。三種模式的yingy9ong場(chǎng)景不同,下面我們就來詳細(xì)看一下。查看全文>>
requests是基于Python開發(fā)的HTTP庫(kù),與urllib標(biāo)準(zhǔn)庫(kù)相比,它不僅使用方便,而且能節(jié)約大量的工作。實(shí)際上,requests是在urllib的基礎(chǔ)上進(jìn)行了高度的封裝查看全文>>