更新時間:2019-12-11 來源:黑馬程序員 瀏覽量:
(1)C4.5:算法是機器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優(yōu)點,并在以下幾方面對ID3算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構(gòu)造過程中進行剪枝;
3) 能夠完成對連續(xù)屬性的離散化處理;
4) 能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。
C4.5算法有如下優(yōu)點:產(chǎn)生的分類規(guī)則易于理解,準確率較高。其缺點是:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導(dǎo)致算法的低效。
(2)樸素貝葉斯(naive bayes): 樸素貝葉斯是給予概率論的原理,它的思想是對于給出的未知無題要進行分類,需要求解在這個未知物體出現(xiàn)的條件下各個類別出現(xiàn)的概率,找最大概率那個分類,數(shù)據(jù)更新影響思想。
(3)SVM:中文叫支持向量機:Support Vector Machine,SVM 在訓(xùn)練中簡歷了一個超平面的分類模型。
(4)KNN: K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學(xué)習(xí)算法之一。
該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。
(5)Adaboost: 在懸鏈中簡歷一個聯(lián)合分類模型,boost 提升的意思,所以adaboost是個構(gòu)建分類模型器的提升算法,它可以讓多個弱的分類器組成一個強的分類器。
(6)CART: CART戴表分類和回歸樹,Classification and Regression Trees. 構(gòu)建了兩棵樹,一顆分類樹,一個回歸樹,是一個決策樹學(xué)習(xí)算法。
(7)Apriori是一個挖掘關(guān)聯(lián)規(guī)則(association rules)的算法,通過挖掘頻繁頂集(frequent item sets)來解釋物品之間的關(guān)聯(lián)關(guān)系,被廣泛應(yīng)用于商業(yè)挖掘和網(wǎng)絡(luò)安全領(lǐng)域中,頻繁項集是一個指經(jīng)常出現(xiàn)在一起的物品集合,關(guān)聯(lián)規(guī)則按時著兩種物品之間可能存在很強的關(guān)系。
(8)K-Means:k-means algorithm算法是一個聚類算法,把n的對象根據(jù)他們的屬性分為k個分割,k < n。它與處理混合正態(tài)分布的最大期望算法很相似,因為他們都試圖找到數(shù)據(jù)中自然聚類的中心。它假設(shè)對象屬性來自于空間向量,并且目標是使各個群組內(nèi)部的均方誤差總和最小。
(9)EM: EM算法也叫最大期望算法,是求參數(shù)的最大似然估計的一種算法,原理是這樣的:假設(shè)我們想要評估參數(shù)A和參數(shù)B,在開始狀態(tài)下二者都是未知的,并且知道了A的信息就可以得到B的信息,反過來知道了B的也就得到A的,可以考慮首先賦予A某個初值,以此得到B的估值,然后從B的估值出發(fā),重新估計A的取值,這個過程一直持續(xù)到收斂未知。推薦了解,黑馬程序員大數(shù)據(jù)培訓(xùn)課程。
(10)PageRank: 起源于論文的影響力的計算方式,如果一篇論文被引入次數(shù)越多,就代表這篇論文的影響力越強,PageRank被Google創(chuàng)造性地應(yīng)用到了網(wǎng)頁權(quán)重的計算中,當一個頁面鏈接的頁面越多,說明這個頁面的‘參考文獻’越多,當這個頁面被鏈入的頻率越高,說明這個頁面的引用次數(shù)越高,基于這個原理,我們可以得到網(wǎng)站的權(quán)重劃分。