淺析半監(jiān)督學(xué)習(xí)及其應(yīng)用場景

沃卡惠
行業(yè)資訊
2023-11-16 09:16:24
173

Labs 導(dǎo)讀

隨著互聯(lián)網(wǎng)的發(fā)展，企業(yè)可以獲得越來越多的數(shù)據(jù)，這些數(shù)據(jù)可以用于幫助企業(yè)更好的了解用戶，即客戶畫像，也可以用來改善用戶的體驗(yàn)。但這些數(shù)據(jù)中可能存在大量沒有標(biāo)記的數(shù)據(jù)。如果所有數(shù)據(jù)均采用人工標(biāo)記的方式則存在兩方面的缺點(diǎn)，一是花費(fèi)的時(shí)間成本較高，人工標(biāo)記效率低，數(shù)據(jù)量越大需要雇傭的人越多，時(shí)間也會(huì)越長，成本越高，二是隨著用戶規(guī)模的增大，人工標(biāo)記的速度很難趕上數(shù)據(jù)的增長。

Part 01、什么是半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)是指使用既有有標(biāo)簽的數(shù)據(jù)又有無標(biāo)簽的數(shù)據(jù)訓(xùn)練模型。半監(jiān)督學(xué)習(xí)通常會(huì)基于有標(biāo)簽的數(shù)據(jù)構(gòu)建屬性空間，再從無標(biāo)簽的數(shù)據(jù)中提取有效信息填充（或重構(gòu)）屬性空間。因此，通常半監(jiān)督學(xué)習(xí)的初始訓(xùn)練集會(huì)劃分為有標(biāo)簽的數(shù)據(jù)集D1和無標(biāo)簽數(shù)據(jù)集D2，然后通過預(yù)處理、特征提取等基本步驟后訓(xùn)練半監(jiān)督學(xué)習(xí)模型，然后將訓(xùn)練好的模型用于生產(chǎn)環(huán)境，為用戶提供服務(wù)。

圖1 半監(jiān)督學(xué)習(xí)訓(xùn)練過程

Part 02、半監(jiān)督學(xué)習(xí)的假設(shè)

為了實(shí)現(xiàn)標(biāo)簽數(shù)據(jù)有效補(bǔ)充有標(biāo)簽數(shù)據(jù)中的“有用”信息，對(duì)數(shù)據(jù)分部等方面做出一些假設(shè)。半監(jiān)督學(xué)習(xí)的基礎(chǔ)假設(shè)是p(x)中包含p(y|x)的信息，即無標(biāo)簽的數(shù)據(jù)應(yīng)該包含對(duì)于標(biāo)簽預(yù)測有用的且與有標(biāo)簽的數(shù)據(jù)不相同的或者很難從有標(biāo)簽的數(shù)據(jù)中提取出來的信息。此外，還存在一些服務(wù)于算法的假設(shè)。例如，相似性假設(shè)（平滑假設(shè)）是指在數(shù)據(jù)樣本構(gòu)建的屬性空間中，相近或相似的樣本具有相同的標(biāo)簽；低密度分離假設(shè)是指在數(shù)據(jù)樣本少的地方存在一個(gè)決策邊界能區(qū)分不同標(biāo)簽的數(shù)據(jù)。

以上假設(shè)主要目的是為了表明有標(biāo)簽的數(shù)據(jù)與無標(biāo)簽的數(shù)據(jù)來源于相同的數(shù)據(jù)分布。

Part 03、半監(jiān)督學(xué)習(xí)算法分類

半監(jiān)督學(xué)習(xí)算法眾多，可大致分為直推式學(xué)習(xí)（transductive learning）和 歸納式學(xué)習(xí)（Inductive model），二者區(qū)別在于用于模型評(píng)估的測試數(shù)據(jù)集的選擇。直推式的半監(jiān)督學(xué)習(xí)是指需要預(yù)測標(biāo)簽的數(shù)據(jù)集就是用于訓(xùn)練的無標(biāo)簽數(shù)據(jù)集，學(xué)習(xí)的目的是為了進(jìn)一步提高預(yù)測結(jié)果的準(zhǔn)確性。歸納式學(xué)習(xí)則是為完全未知的數(shù)據(jù)集預(yù)測標(biāo)簽。

圖2 半監(jiān)督學(xué)習(xí)算法分類

此外，常見的半監(jiān)督學(xué)習(xí)算法的步驟為：第一步會(huì)在有標(biāo)簽的數(shù)據(jù)上訓(xùn)練模型，然后用這個(gè)模型給無標(biāo)簽的數(shù)據(jù)打上偽標(biāo)簽，然后將偽標(biāo)簽和有標(biāo)簽的數(shù)據(jù)組合成新的訓(xùn)練集，在這個(gè)訓(xùn)練集上訓(xùn)練一個(gè)新的模型，最后用這個(gè)模型給預(yù)測數(shù)據(jù)集打上標(biāo)簽。

Part 04、總結(jié)

半監(jiān)督學(xué)習(xí)的最大的問題是在很多情況下，模型的性能依賴于有標(biāo)簽的數(shù)據(jù)集，并且對(duì)于有標(biāo)簽數(shù)據(jù)集的質(zhì)量要求較高，甚至半監(jiān)督學(xué)習(xí)模型預(yù)測準(zhǔn)確度與基于有標(biāo)簽數(shù)據(jù)集的有監(jiān)督模型的結(jié)果相差不大，反而半監(jiān)督模型為了有效提取無標(biāo)簽數(shù)據(jù)中的有效信息，會(huì)消耗更多的資源。因此，半監(jiān)督學(xué)習(xí)的發(fā)展方向是提高算法的魯棒性以及數(shù)據(jù)提取的有效性。

目前半監(jiān)督學(xué)習(xí)領(lǐng)域中比較熱門的是PU-Learning（positive-unlabeled learning），這類算法的主要應(yīng)用場景是只有正和無標(biāo)簽數(shù)據(jù)的數(shù)據(jù)集。其優(yōu)點(diǎn)是在一些場景下，我們?nèi)菀撰@得比較可靠的正標(biāo)簽數(shù)據(jù)集，并且數(shù)據(jù)量相對(duì)較大。例如，垃圾郵件檢測中很容易獲得正常郵件。

上一篇：新技術(shù)有效加速大規(guī)模人工智能模型的處理性能

下一篇：如何利用人工智能釋放非結(jié)構(gòu)化數(shù)據(jù)的力量