Hive是建立在Hadoop文件系統(tǒng)上的數(shù)據(jù)倉庫,它提供了一系列工具,能夠對存儲在HDFS中的數(shù)據(jù)進行數(shù)據(jù)提取、轉換和加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的工具。查看全文>>
Tesseract是一個開源的OCR庫,是目前公認的最優(yōu)秀、最精確的開源OCR系統(tǒng),具有精準度高、靈活性高等特點。它不僅可以通過訓練識別出任何字體(只要字體的風格保持不變即可),而且可以識別出任何Unicode字符。查看全文>>
Tesseraet是一個命令行工具,安裝后只能通過tsseraet命令在Python的外部運行,而不能通過import語句引人使用。為了解決上述問題,Python 提供了支持Tssraec-OCR引擎的Python版本的庫pytesseract。查看全文>>
Hadoop有三種運行模式:獨立(本地)運行模式,偽分布式模式,和完全分布式模式。三種模式的yingy9ong場景不同,下面我們就來詳細看一下。查看全文>>
requests是基于Python開發(fā)的HTTP庫,與urllib標準庫相比,它不僅使用方便,而且能節(jié)約大量的工作。實際上,requests是在urllib的基礎上進行了高度的封裝查看全文>>
有些時候我們需要獲取某個文件夾下的所有文件的名稱,手工操作效率低下而且容易出錯,使用Python如何實現(xiàn)這個功能呢?查看全文>>