邻居一晚让我高潮3次正常吗,人妻丰满熟妇AV无码区动漫,乱LUN合集1第40部分阅读,精品无码国产一区二区三区51安

當前位置:首頁 > 最新資訊 > 行業(yè)資訊

機器學習中常用的幾種回歸算法及其特點

回歸是統(tǒng)計學中最有力的工具之一,機器學習監(jiān)督學習算法分為分類算法和回歸算法兩種?;貧w算法用于連續(xù)型分布預測,可以預測連續(xù)型數(shù)據(jù)而不僅僅是離散的類別標簽。

在機器學習領域,回歸分析應用非常廣泛,例如商品的銷量預測問題,交通流量預測問題、預測房價、未來的天氣情況等等。

回歸算法是一種比較常用的機器學習算法,用來建立“解釋”變量(自變量X)和觀測值(因變量Y)之間的關系;從機器學習的角度來講,用于構(gòu)建一個算法模型(函數(shù))來做屬性(X)與標簽(Y)之間的映射關系,在算法的學習過程中,試圖尋找一個函數(shù) 使得參數(shù)之間的關系擬合性最好。

回歸算法中算法(函數(shù))的最終結(jié)果是一個連續(xù)的數(shù)據(jù)值,輸入值(屬性值)是一個d維度的屬性/數(shù)值向量

常用的回歸算法包括線性回歸、多項式回歸、決策樹回歸、Ridge 回歸、Lasso 回歸、ElasticNet 回歸等等。

在本文中,將介紹以下常見回歸算法,及其各自特點。

線性回歸

多項式回歸

支持向量機回歸

決策樹回歸

隨機森林回歸

LASSO 回歸

Ridge 回歸

ElasticNet 回歸

XGBoost 回歸

局部加權(quán)線性回歸

一、線性回歸

線性回歸通常是人們學習機器學習和數(shù)據(jù)科學的第一個算法。線性回歸是一種線性模型,它假設輸入變量 (X) 和單個輸出變量 (y) 之間存在線性關系。一般來說,有兩種情況:

單變量線性回歸:它對單個輸入變量(單個特征變量)和單個輸出變量之間的關系進行建模。

多變量線性回歸(也稱為多元線性回歸):它對多個輸入變量(多個特征變量)和單個輸出變量之間的關系進行建模。

關于線性回歸的幾個關鍵點:

快速且易于建模

當要建模的關系不是非常復雜并且您沒有大量數(shù)據(jù)時,它特別有用。

非常直觀的理解和解釋。

它對異常值非常敏感。

二、多項式回歸

當我們想要為非線性可分數(shù)據(jù)創(chuàng)建模型時,多項式回歸是最受歡迎的選擇之一。它類似于線性回歸,但使用變量 X 和 y 之間的關系來找到繪制適合數(shù)據(jù)點的曲線的最佳方法。

關于多項式回歸的幾個關鍵點:

能夠?qū)Ψ蔷€性可分數(shù)據(jù)進行建模;線性回歸不能做到這一點。一般來說,它更加靈活,可以對一些相當復雜的關系進行建模。

完全控制特征變量的建模(要設置的指數(shù))。

需要精心設計。需要一些數(shù)據(jù)知識才能選擇最佳指數(shù)。

如果指數(shù)選擇不當,則容易過度擬合。

三、支持向量機回歸

支持向量機在分類問題中是眾所周知的。SVM 在回歸中的使用稱為支持向量回歸(SVR)。Scikit-learn在 SVR()中內(nèi)置了這種方法。

關于支持向量回歸的幾個關鍵點:

它對異常值具有魯棒性,并且在高維空間中有效

它具有出色的泛化能力(能夠正確適應新的、以前看不見的數(shù)據(jù))

如果特征數(shù)量遠大于樣本數(shù)量,則容易過擬合

四、決策樹回歸

決策樹是一種用于分類和回歸的非參數(shù)監(jiān)督學習方法。目標是創(chuàng)建一個模型,通過學習從數(shù)據(jù)特征推斷出的簡單決策規(guī)則來預測目標變量的值。一棵樹可以看作是一個分段常數(shù)近似。

機器學習中常用的幾種回歸算法及其特點

關于決策樹的幾個關鍵點:

易于理解和解釋。樹可以可視化。

適用于分類值和連續(xù)值

使用 DT(即預測數(shù)據(jù))的成本與用于訓練樹的數(shù)據(jù)點數(shù)量成對數(shù)

決策樹的預測既不平滑也不連續(xù)(如上圖所示為分段常數(shù)近似)

五、隨機森林回歸

隨機森林回歸基本上與決策樹回歸非常相似。它是一個元估計器,可以在數(shù)據(jù)集的各種子樣本上擬合多個決策樹,并使用平均來提高預測準確性和控制過擬合。

隨機森林回歸器在回歸中可能會或可能不會比決策樹表現(xiàn)更好(雖然它通常在分類中表現(xiàn)更好),因為樹構(gòu)造算法本質(zhì)上存在微妙的過擬合 - 欠擬合權(quán)衡。

關于隨機森林回歸的幾點:

減少決策樹中的過度擬合并提高準確性。

它也適用于分類值和連續(xù)值。

需要大量計算能力和資源,因為它適合許多決策樹來組合它們的輸出。

六、LASSO 回歸

LASSO 回歸是使用收縮的線性回歸的變體。收縮是將數(shù)據(jù)值收縮到中心點作為平均值的過程。這種類型的回歸非常適合顯示重度多重共線性(特征相互之間高度相關)的模型。

機器學習中常用的幾種回歸算法及其特點

關于 Lasso 回歸的幾點:

它最常用于消除自動變量和選擇特征。

它非常適合顯示重度多重共線性(特征相互之間高度相關)的模型。

LASSO 回歸利用 L1 正則化

LASSO 回歸被認為比 Ridge 更好,因為它只選擇了一些特征并將其他特征的系數(shù)降低到零。

七、嶺回歸

嶺回歸(Ridge regression)與 LASSO 回歸非常相似,因為這兩種技術都使用了收縮。Ridge 和 LASSO 回歸都非常適合顯示重度多重共線性(特征相互之間高度相關)的模型。它們之間的主要區(qū)別在于 Ridge 使用 L2 正則化,這意味著沒有一個系數(shù)會像 LASSO 回歸中那樣變?yōu)榱悖ǘ墙咏悖?/p>

機器學習中常用的幾種回歸算法及其特點

關于嶺回歸的幾點:

它非常適合顯示重度多重共線性(特征相互之間高度相關)的模型。

嶺回歸使用 L2 正則化。貢獻較小的特征將具有接近于零的系數(shù)。

由于 L2 正則化的性質(zhì),嶺回歸被認為比 LASSO 更差。

八、ElasticNet 回歸

ElasticNet 是另一個使用 L1 和 L2 正則化訓練的線性回歸模型。它是 Lasso 和 Ridge 回歸技術的混合體,因此它也非常適合顯示重度多重共線性(特征相互之間高度相關)的模型。

在 Lasso 和 Ridge 之間進行權(quán)衡的一個實際優(yōu)勢是它允許 Elastic-Net 在旋轉(zhuǎn)下繼承 Ridge 的一些穩(wěn)定性。

九、XGBoost 回歸

XGBoost 是梯度提升算法的一種高效且有效的實現(xiàn)。梯度提升是指一類可用于分類或回歸問題的集成機器學習算法。

XGBoost 是一個開源庫,最初由 Chen Tianqi Chen 在其 2016 年題為“XGBoost: A Scalable Tree Boosting System”的論文中開發(fā)。該算法被設計為在計算上既高效又高效。

關于 XGBoost 的幾點:

XGBoost 在稀疏和非結(jié)構(gòu)化數(shù)據(jù)上表現(xiàn)不佳。

該算法被設計為計算效率和高效,但是對于大型數(shù)據(jù)集的訓練時間仍然相當長。

它對異常值很敏感。

十、局部加權(quán)線性回歸

局部加權(quán)線性回歸(Local Weights Linear Regression)也是一種線性回歸。不同的是,普通線性回歸是全局線性回歸,使用全部的樣本計算回歸系數(shù)。而局部加權(quán)線性回歸,通過引入權(quán)值(核函數(shù)),在預測的時候,只使用與測試點相近的部分樣本來計算回歸系數(shù)。

優(yōu)缺點 & 適用場景

優(yōu)點就是通過核函數(shù)加權(quán)來預防欠擬合,缺點也很明顯K需要調(diào)試。當多元線性回歸過擬合的時候,可以嘗試高斯核局部加權(quán)來預防過擬合。

十一、貝葉斯嶺回歸

貝葉斯線性回歸(Bayesian linear regression)是使用統(tǒng)計學中貝葉斯推斷(Bayesian inference)方法求解的線性回歸(linear regression)模型。

貝葉斯線性回歸將線性模型的參數(shù)視為隨機變量(random variable),并通過模型參數(shù)(權(quán)重系數(shù))的先驗(prior)計算其后驗(posterior)。貝葉斯線性回歸可以使用數(shù)值方法求解,在一定條件下,也可得到解析型式的后驗或其有關統(tǒng)計量。

貝葉斯線性回歸具有貝葉斯統(tǒng)計模型的基本性質(zhì),可以求解權(quán)重系數(shù)的概率密度函數(shù),進行在線學習以及基于貝葉斯因子(Bayes factor)的模型假設檢驗。

優(yōu)缺點 & 適用場景

貝葉斯回歸的優(yōu)點就是對數(shù)據(jù)有自適應能力,可以重復利用數(shù)據(jù)并防止過擬合,因為我們在估計的過程中可以引入正則項,比如在貝葉斯線性回歸的基礎上引入L2正則就是貝葉斯嶺回歸。

缺點就是學習過程開銷太大。當特征數(shù)在10個以為,可以嘗試貝葉斯回歸。

猜你喜歡