更新時(shí)間:2022-11-08 來源:黑馬程序員 瀏覽量:
當(dāng)我們?nèi)粘S?a target="_self" title="Python" _>Python做數(shù)據(jù)分析的時(shí)候,會(huì)利用Python的基礎(chǔ)語法來實(shí)現(xiàn)我們需要的功能。除此之外,技術(shù)人員也會(huì)通過第三方庫已經(jīng)封裝的功能,更快速、高效地處理和分析數(shù)據(jù)。Python常見的數(shù)據(jù)分析庫包括Pandas、NumPy、SciPy、Statsmodels、Gensim、scikit_learn。
Pandas(Python Data Analysis Library)是一個(gè)用于Python數(shù)據(jù)分析的庫,Pandas主要的作用是進(jìn)行數(shù)據(jù)分析和預(yù)處理。和R語言中的數(shù)據(jù)框類似,Pandas可以提供用于進(jìn)行結(jié)構(gòu)化數(shù)據(jù)分析的二維表格型數(shù)據(jù)結(jié)構(gòu),可以處理類似于數(shù)據(jù)庫中的切片、切塊、聚合、選擇子集等比較精細(xì)化的操作,來進(jìn)行數(shù)據(jù)分析。同時(shí),Pandas還可以提供時(shí)間序列的功能,這項(xiàng)功能在金融行業(yè)的數(shù)據(jù)分析中是比較常見的。
Python中用于進(jìn)行科學(xué)計(jì)算的基礎(chǔ)庫NumPy(Numeric Python),是Python用來進(jìn)行數(shù)據(jù)計(jì)算的關(guān)鍵庫之一,也是許多第三方庫的依賴庫。
SciPy(Scientific Computing Tools for Python),這是一組針對解決不同場景科學(xué)和工程計(jì)算的庫,該庫在數(shù)學(xué)、函數(shù)等有關(guān)方面應(yīng)用的效果更為顯著,比如我們知道的求解微分方程和積分等。
Statsmodels是以Python語言為基礎(chǔ)的統(tǒng)計(jì)建模和計(jì)量經(jīng)濟(jì)學(xué)庫,其中包含統(tǒng)計(jì)模型估計(jì)和統(tǒng)計(jì)測試、描述性統(tǒng)計(jì),集成了時(shí)間序列分析模型、非參數(shù)估計(jì)、生存分析、線性回歸模型、離散數(shù)據(jù)分布模型、主成分分析以及核密度估計(jì),兼有廣泛的統(tǒng)計(jì)測試和繪圖功能。
Gensim,業(yè)內(nèi)公認(rèn)的專業(yè)主題模型Python語言庫,用來提供可擴(kuò)展統(tǒng)計(jì)語義、分析純文本語義結(jié)構(gòu)以及檢索語義上類似的文檔。同學(xué)們可以在終端命令行中使用pip install gensim命令安裝該庫。
scikit_learn(簡稱sklearn),該庫是Python中用來進(jìn)行數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的主要庫之一。可以說它是一個(gè)以Python語言為基礎(chǔ)的機(jī)器學(xué)習(xí)工具庫,庫中內(nèi)置了監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)兩類機(jī)器學(xué)習(xí)方法,包括各種回歸、k近鄰、決策樹、葉貝斯、聚類、分類、流失學(xué)習(xí)、混合高斯模型、人工神經(jīng)網(wǎng)絡(luò)、集成方法等主流分析方法;同時(shí)支持預(yù)置數(shù)據(jù)集、數(shù)據(jù)預(yù)處理、模型選擇和評估等方法,是一個(gè)非常完整的機(jī)器學(xué)習(xí)工具庫。
以上這些庫除了Gensim外,均在Anaconda中默認(rèn)安裝了,在Python數(shù)據(jù)分析中,通常還會(huì)涉及到數(shù)據(jù)讀寫與預(yù)處理、可視化和與其他程序進(jìn)行交互的庫,后續(xù)筆者會(huì)一一介紹。