1.引言
在機(jī)器學(xué)習(xí)領(lǐng)域中,相關(guān)模型可能會在訓(xùn)練過程中變得過擬合和欠擬合。為了防止這種情況的發(fā)生,我們在機(jī)器學(xué)習(xí)中使用正則化操作來適當(dāng)?shù)刈屇P蛿M合在我們的測試集上。一般來說,正則化操作通過降低過擬合和欠擬合的可能性來幫助大家獲得最佳模型。
在本文中,我們將了解什么是正則化,正則化的類型。此外,我們將討論偏差、方差、欠擬合和過擬合等相關(guān)概念。
閑話少說,我們直接開始吧!
2.偏差和方差
Bias和Variance分別從兩個方面來描述我們學(xué)習(xí)到的模型與真實(shí)模型之間的差距。
二者的定義如下:
Bias是用所有可能的訓(xùn)練數(shù)據(jù)集訓(xùn)練出的所有模型的輸出的平均值與真實(shí)模型的輸出值之間的差異。
Variance是不同的訓(xùn)練數(shù)據(jù)集訓(xùn)練出的模型輸出值之間的差異。
Bias(偏差)降低了模型對單個數(shù)據(jù)點(diǎn)的敏感性,并增加了數(shù)據(jù)的泛化性,模型對孤立數(shù)據(jù)點(diǎn)的敏感度降低;由于所需的功能不那么復(fù)雜,因此還可以減少訓(xùn)練時間。高偏差表示假定目標(biāo)函數(shù)更可靠。有時,這會導(dǎo)致模型擬合不足。
Variance(方差)是機(jī)器學(xué)習(xí)中由于模型對數(shù)據(jù)集中微小變化的敏感性而發(fā)生的一種錯誤。由于存在顯著變化,算法將對訓(xùn)練集中的噪聲和異常值進(jìn)行建模。過擬合是最常用于描述這一點(diǎn)的術(shù)語。在新數(shù)據(jù)集上進(jìn)行評估時,在這種情況下,模型無法提供準(zhǔn)確的預(yù)測,因?yàn)樗举|(zhì)上學(xué)習(xí)了每個數(shù)據(jù)點(diǎn)。
一個相對平衡的模型將具有低偏差和低方差,而高偏差和高方差將導(dǎo)致欠擬合和過擬合。
3.欠擬合
當(dāng)模型由于沒有正確學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的模式而無法正確地泛化到新數(shù)據(jù)時,就會發(fā)生欠擬合。在訓(xùn)練數(shù)據(jù)上,欠擬合模型表現(xiàn)不佳,并做出錯誤的預(yù)測。當(dāng)存在高偏差和低方差時,就會發(fā)生欠擬合。
4.過擬合
當(dāng)一個模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)得非常好,但在測試數(shù)據(jù)上表現(xiàn)不佳時,它被稱為過擬合(新數(shù)據(jù))。在這種情況下,機(jī)器學(xué)習(xí)模型因?yàn)閿M合到訓(xùn)練數(shù)據(jù)中的噪聲,這會對模型在測試數(shù)據(jù)上的表現(xiàn)產(chǎn)生負(fù)面影響。低偏差和高方差可能導(dǎo)致過擬合。
5.正則化概念
術(shù)語“正則化”描述了校準(zhǔn)機(jī)器學(xué)習(xí)模型的方法,以減少調(diào)整后的損失函數(shù)并避免過擬合或欠擬合。
我們可以使用正則化將機(jī)器學(xué)習(xí)模型正確地?cái)M合到特定的測試集上,從而降低測試集中的錯誤。
6.L1正則化
相比于嶺回歸,L1正則化主要通過在損失函數(shù)中增加一項(xiàng)懲罰項(xiàng)來實(shí)現(xiàn),懲罰項(xiàng)等于所有系數(shù)的絕對值之和。如下所示:
在Lasso回歸模型中,以類似于嶺回歸的方式通過增加回歸系數(shù)的絕對值這一懲罰項(xiàng)來實(shí)現(xiàn)。此外,L1正則化在提高線性回歸模型的精度方面有著良好的表現(xiàn)。同時,由于L1正則化對所有參數(shù)的懲罰力度都一樣,可以讓一部分權(quán)重變?yōu)榱?,因此產(chǎn)生稀疏模型,能夠去除某些特征(權(quán)重為0則等效于去除)。
7.L2正則化
L2正則化也是通過在損失函數(shù)中增加一項(xiàng)懲罰項(xiàng)來實(shí)現(xiàn),懲罰項(xiàng)等于所有系數(shù)的平方和。如下所示:
一般而言,當(dāng)數(shù)據(jù)表現(xiàn)出多重共線性(自變量高度相關(guān))時,它被認(rèn)為是一種采用的方法。盡管多重共線性中的最小二乘估計(jì)值 (OLS) 是無偏的,但它們的巨大方差會導(dǎo)致觀測值與實(shí)際值相差很大。L2通過在一定程度上降低了回歸估計(jì)值的誤差。它通常使用收縮參數(shù)來解決多重共線性問題。L2正則化減少了權(quán)重的固定比例,使權(quán)重平滑。
8.總結(jié)
經(jīng)過上述分析,對本文中相關(guān)正則化的知識進(jìn)行總結(jié)如下:
L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個稀疏模型,可以用于特征選擇;
L2正則化可以防止模型過擬合,在一定程度上,L1也可以防止過擬合,提升模型的泛化能力;
L1(拉格朗日)正則假設(shè)參數(shù)的先驗(yàn)分布是Laplace分布,可以保證模型的稀疏性,也就是某些參數(shù)等于0;
L2(嶺回歸)正則假設(shè)參數(shù)的先驗(yàn)分布是Gaussian分布,可以保證模型的穩(wěn)定性,也就是參數(shù)的值不會太大或太小。
在實(shí)際使用中,如果特征是高維稀疏的,則使用L1正則;如果特征是低維稠密的,則使用L2正則。