當(dāng)前位置：首頁 > 最新資訊 > 行業(yè)資訊

機(jī)器學(xué)習(xí)中常用的幾種分類算法，如何選擇合適的算法？

沃卡惠
行業(yè)資訊
2023-11-29 09:36:20
319

今天和大家分享一下機(jī)器學(xué)習(xí)中常見的六種分類算法：K近鄰、決策樹、樸素貝葉斯、邏輯回歸、支持向量機(jī)、隨機(jī)森林、AdaBoost、GBDT、XGBoost。

下面，介紹了各個(gè)算法的概念及特點(diǎn)。

KNN

決策樹

樸素貝葉斯

邏輯回歸

支持向量機(jī)

隨機(jī)森林

AdaBoost

GBDT

XGBoost

一、K 近鄰（KNN）

k-近鄰算法（K-Nearest neighbors，KNN），它采用測量不同特征值之間的距離方法進(jìn)行分類，即是給定一個(gè)訓(xùn)練數(shù)據(jù)集，對新的輸入實(shí)例，在訓(xùn)練數(shù)據(jù)集中找到與該實(shí)例最鄰近的K個(gè)實(shí)例（也就是上面所說的K個(gè)鄰居），這K個(gè)實(shí)例的多數(shù)屬于某個(gè)類，就把該輸入實(shí)例分類到這個(gè)類中。

KNN 是一種基本分類與回歸方法，其基本做法是：給定測試實(shí)例，基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)實(shí)例點(diǎn)，然后基于這k個(gè)最近鄰的信息來進(jìn)行預(yù)測。

通常，在分類任務(wù)中可使用“投票法”，即選擇這k個(gè)實(shí)例中出現(xiàn)最多的標(biāo)記類別作為預(yù)測結(jié)果；在回歸任務(wù)中可使用“平均法”，即將這k個(gè)實(shí)例的實(shí)值輸出標(biāo)記的平均值作為預(yù)測結(jié)果；還可基于距離遠(yuǎn)近進(jìn)行加權(quán)平均或加權(quán)投票，距離越近的實(shí)例權(quán)重越大。

k近鄰法不具有顯式的學(xué)習(xí)過程，事實(shí)上，它是懶惰學(xué)習(xí)（lazy learning）的著名代表，此類學(xué)習(xí)技術(shù)在訓(xùn)練階段僅僅是把樣本保存起來，訓(xùn)練時(shí)間開銷為零，待收到測試樣本后再進(jìn)行處理。

k近鄰法的三要素：距離度量、k值的選擇及分類決策規(guī)則是k近鄰法的三個(gè)基本要素。

kNN算法特點(diǎn)：

優(yōu)點(diǎn)：精度高、對異常值不敏感、無數(shù)據(jù)輸入假定

缺點(diǎn)：計(jì)算復(fù)雜度高、空間復(fù)雜度高

適用數(shù)據(jù)范圍：數(shù)值型和標(biāo)稱型

二、決策樹

決策樹(Decision Trees)是一種非參監(jiān)督學(xué)習(xí)方法，即沒有固定的參數(shù)，對數(shù)據(jù)進(jìn)行分類或回歸學(xué)習(xí)。決策樹的目標(biāo)是從已知數(shù)據(jù)中學(xué)習(xí)得到一套規(guī)則，能夠通過簡單的規(guī)則判斷，對未知數(shù)據(jù)進(jìn)行預(yù)測。

決策樹是一種基本的分類與回歸方法。在分類問題中，表示基于特征對實(shí)例進(jìn)行分類的過程，可以認(rèn)為是 if-then 的集合，也可以認(rèn)為是定義在特征空間與類空間上的條件概率分布。

決策樹通常有三個(gè)步驟：特征選擇、決策樹的生成、決策樹的修剪。

用決策樹分類：從根節(jié)點(diǎn)開始，對實(shí)例的某一特征進(jìn)行測試，根據(jù)測試結(jié)果將實(shí)例分配到其子節(jié)點(diǎn)，此時(shí)每個(gè)子節(jié)點(diǎn)對應(yīng)著該特征的一個(gè)取值，如此遞歸的對實(shí)例進(jìn)行測試并分配，直到到達(dá)葉節(jié)點(diǎn)，最后將實(shí)例分到葉節(jié)點(diǎn)的類中。

決策樹模型

決策樹學(xué)習(xí)的目標(biāo)：根據(jù)給定的訓(xùn)練數(shù)據(jù)集構(gòu)建一個(gè)決策樹模型，使它能夠?qū)?shí)例進(jìn)行正確的分類。

決策樹學(xué)習(xí)的本質(zhì)：從訓(xùn)練集中歸納出一組分類規(guī)則，或者說是由訓(xùn)練數(shù)據(jù)集估計(jì)條件概率模型。

決策樹學(xué)習(xí)的損失函數(shù)：正則化的極大似然函數(shù)。

決策樹學(xué)習(xí)的測試：最小化損失函數(shù)。

決策樹原理和問答猜測結(jié)果游戲相似，根據(jù)一系列數(shù)據(jù)，然后給出游戲的答案。

決策樹算法特點(diǎn)：

優(yōu)點(diǎn)：計(jì)算復(fù)雜度不高，輸出結(jié)果易于理解，對中間值的缺失不敏感，可以處理不相關(guān)特征數(shù)據(jù)。

缺點(diǎn)：可能會產(chǎn)生過度匹配問題。

適用數(shù)據(jù)類型：數(shù)值型和標(biāo)稱型

三、樸素貝葉斯

樸素貝葉斯（Naive Bayesian）是基于貝葉斯定理和特征條件獨(dú)立假設(shè)的分類方法，它通過特征計(jì)算分類的概率，選取概率大的情況進(jìn)行分類。

樸素貝葉斯是經(jīng)典的機(jī)器學(xué)習(xí)算法之一，也是為數(shù)不多的基于概率論的分類算法。對于大多數(shù)的分類算法，在所有的機(jī)器學(xué)習(xí)分類算法中，樸素貝葉斯和其他絕大多數(shù)的分類算法都不同。比如決策樹，KNN，邏輯回歸，支持向量機(jī)等，他們都是判別方法，也就是直接學(xué)習(xí)出特征輸出Y和特征X之間的關(guān)系，要么是決策函數(shù)，要么是條件分布。但是樸素貝葉斯卻是生成方法，該算法原理簡單，也易于實(shí)現(xiàn)。

樸素貝葉斯

在scikit-learn中，一共有3個(gè)樸素貝葉斯的分類算法類。分別是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先驗(yàn)為高斯分布的樸素貝葉斯，MultinomialNB就是先驗(yàn)為多項(xiàng)式分布的樸素貝葉斯，而BernoulliNB就是先驗(yàn)為伯努利分布的樸素貝葉斯。

樸素貝葉斯算法特點(diǎn)：

優(yōu)點(diǎn)：在數(shù)據(jù)較少的情況下依然有效，可以處理多類別問題。

缺點(diǎn)：對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。

適用數(shù)據(jù)類型：標(biāo)稱型數(shù)據(jù)

四、邏輯回歸

邏輯（Logistic）回歸是一種統(tǒng)計(jì)方法，用于根據(jù)先前的觀察結(jié)果預(yù)測因變量的結(jié)果。它是一種回歸分析，是解決二分類問題的常用算法。

邏輯回歸算法特點(diǎn)：

優(yōu)點(diǎn)：計(jì)算代價(jià)不高，易于理解和實(shí)現(xiàn)

缺點(diǎn)：容易欠擬合，分類精度可能不高（這里是使用構(gòu)造數(shù)據(jù)，效果較佳，并且運(yùn)行多次，結(jié)果可能不一樣）

五、支持向量機(jī)（SVM）

支持向量機(jī)（簡稱SVM）英文為Support Vector Machine。它是一種監(jiān)督式學(xué)習(xí)的方法，它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。支持向量機(jī)（Support Vector Machine）是一種十分常見的分類器，核心思路是通過構(gòu)造分割面將數(shù)據(jù)進(jìn)行分離。

SVM 是一類按監(jiān)督學(xué)習(xí)方式對數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器，其決策邊界是對學(xué)習(xí)樣本求解的最大邊距超平面，可以將問題化為一個(gè)求解凸二次規(guī)劃的問題。與邏輯回歸和神經(jīng)網(wǎng)絡(luò)相比，支持向量機(jī)，在學(xué)習(xí)復(fù)雜的非線性方程時(shí)提供了一種更為清晰，更加強(qiáng)大的方式。

具體來說就是在線性可分時(shí)，在原空間尋找兩類樣本的最優(yōu)分類超平面。在線性不可分時(shí)，加入松弛變量并通過使用非線性映射將低維度輸入空間的樣本映射到高維度空間使其變?yōu)榫€性可分，這樣就可以在該特征空間中尋找最優(yōu)分類超平面。

SVM使用準(zhǔn)則：n 為特征數(shù)， m 為訓(xùn)練樣本數(shù)。

如果相較于m而言，n要大許多，即訓(xùn)練集數(shù)據(jù)量不夠支持我們訓(xùn)練一個(gè)復(fù)雜的非線性模型，我們選用邏輯回歸模型或者不帶核函數(shù)的支持向量機(jī)。

如果n較小，而且m大小中等，例如n在 1-1000 之間，而m在10-10000之間，使用高斯核函數(shù)的支持向量機(jī)。

如果n較小，而m較大，例如n在1-1000之間，而

上一篇：對話式人工智能在醫(yī)療保健領(lǐng)域的五大用途

下一篇：人工智能整合對金融領(lǐng)域的影響