高級(jí)數(shù)據(jù)建模分析：模型擬合程度越高效果越好嗎？

更新時(shí)間:2022-11-23 來(lái)源:黑馬程序員瀏覽量:

Java培訓(xùn)班

　　一般而言，我們希望追求更好的擬合程度，因?yàn)樵胶玫臄M合意味著模型能夠越全面地學(xué)習(xí)到數(shù)據(jù)中的規(guī)律和信息。但是，在某些場(chǎng)景下，擬合程度過(guò)高意味著嚴(yán)重的“負(fù)面”問(wèn)題。

　　例如，決策樹是一類數(shù)據(jù)擬合程度非常高的算法，但可能產(chǎn)生過(guò)擬合的問(wèn)題。過(guò)擬合通俗點(diǎn)講就是在做分類訓(xùn)練時(shí)，模型過(guò)度學(xué)習(xí)了訓(xùn)練集的特征，使得訓(xùn)練集的準(zhǔn)確率非常高，但是將模型應(yīng)用到新的數(shù)據(jù)集時(shí)，準(zhǔn)確率卻很差。因此，避免過(guò)擬合是分類模型（重點(diǎn)是單一樹模型）的一個(gè)重要任務(wù)。通過(guò)以下方式可以有效避免過(guò)擬合。

　?。?）使用更多的數(shù)據(jù)。導(dǎo)致過(guò)擬合的根本原因是訓(xùn)練集和新數(shù)據(jù)集的特征存在較大的差異，導(dǎo)致原本完美擬合的模型無(wú)法對(duì)新數(shù)據(jù)集產(chǎn)生良好的效果。

　?。?）降維。通過(guò)維度選擇或轉(zhuǎn)換的方式，降低參與分類模型的特征數(shù)量，能有效防止原有數(shù)據(jù)集中的“噪聲”對(duì)模型的影響，從而達(dá)到避免過(guò)擬合的目的。

　?。?）使用正則化方法。正則化會(huì)定義不同特征的參數(shù)來(lái)保證每個(gè)特征有一定的效用，不會(huì)使某一特征特別重要。

　?。?）使用組合方法。例如，隨機(jī)森林、adaboost、xgboost等不容易產(chǎn)生過(guò)擬合的問(wèn)題。

　　相似問(wèn)題：過(guò)擬合不僅存在于決策樹中，也存在于其他監(jiān)督式學(xué)習(xí)中。例如，在做回歸時(shí)，基本上所有的模型都有各種誤差。當(dāng)你發(fā)現(xiàn)誤差非常小，甚至幾乎為0的時(shí)候，就要非常小心，因?yàn)檫@時(shí)候很可能已經(jīng)出現(xiàn)了信息泄露、具有強(qiáng)相關(guān)的特征、特征選取失誤等問(wèn)題。

上一篇：新手做數(shù)據(jù)可視化有哪些常見誤區(qū)？ 下一篇：Python培訓(xùn)：函數(shù)的返回值是什么意思？