Anaconda集成了常用的擴(kuò)展包,能夠方便地對(duì)這些擴(kuò)展包進(jìn)行管理,比如安裝和卸載包,這些操作都需要依賴conda。conda是一個(gè)在Windows、Mac OS和Linux上運(yùn)行的開源軟件包管理系統(tǒng)和環(huán)境管理系統(tǒng),可以快速地安裝、運(yùn)行和更新軟件包及其依賴項(xiàng)。查看全文>>
要想在Python項(xiàng)目中使用MongoDB數(shù)據(jù)庫(kù),需要在Python標(biāo)準(zhǔn)庫(kù)的基礎(chǔ)上添加對(duì)MongoDB的支持。截止到目前,常用的開發(fā)MongoDB的包為PyMongo。下面將針對(duì)PyMongo的相關(guān)內(nèi)容進(jìn)行詳細(xì)介紹。查看全文>>
目前比較流行的ETL工具有Pantlo Kertle、Howk、lormi PowerCene及DataStage,對(duì)這些工具的介紹如下。查看全文>>
數(shù)據(jù)的清洗轉(zhuǎn)換是指將抽取到的數(shù)據(jù)源表中的數(shù)據(jù),根據(jù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)模型的要求進(jìn)行數(shù)據(jù)的清洗、轉(zhuǎn)換等操作,保證來(lái)自不同系統(tǒng)、不同格式數(shù)據(jù)的一致性和完整性,并且要按照業(yè)務(wù)要求加載到目標(biāo)表。數(shù)據(jù)的清洗轉(zhuǎn)換是ETL中最復(fù)雜的部分,主要任務(wù)是過(guò)濾掉不符合要求的數(shù)據(jù)。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。查看全文>>
數(shù)據(jù)的加載是ETL的最后一個(gè)階段,它的主要任務(wù)是將數(shù)據(jù)從臨時(shí)數(shù)據(jù)表或文件中加載到指定的數(shù)據(jù)倉(cāng)庫(kù)中。-般來(lái)說(shuō),可以通過(guò)編寫sQL語(yǔ)句和利用加載工具將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中。查看全文>>
ETL是實(shí)現(xiàn)商務(wù)智能(Business Intelligence,BI)的核心。一般情況下,ETL會(huì)花費(fèi)整個(gè)BI項(xiàng)目三分之一的時(shí)間,因此ETL設(shè)計(jì)得好壞直接影響B(tài)I項(xiàng)目的成敗。查看全文>>