監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)：專家定義差距

沃卡惠
行業(yè)資訊
2023-11-24 09:37:31
407

了解監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的特征，以及它們?cè)跈C(jī)器學(xué)習(xí)項(xiàng)目中的應(yīng)用方式。

在人工智能技術(shù)的討論中，監(jiān)督學(xué)習(xí)往往會(huì)得到最多的宣傳，因?yàn)樗ǔＪ怯糜趧?chuàng)建人工智能模型的最后一步，用于圖像識(shí)別、更好的預(yù)測(cè)、產(chǎn)品推薦和潛在客戶評(píng)分等。

相比之下，無(wú)監(jiān)督學(xué)習(xí)往往在人工智能開(kāi)發(fā)生命周期的早期在幕后工作：它通常被用來(lái)為監(jiān)督學(xué)習(xí)的魔力展開(kāi)奠定基礎(chǔ)，就像讓經(jīng)理大放異彩的繁重工作一樣。正如后面所解釋的，這兩種機(jī)器學(xué)習(xí)模式都可以有效地應(yīng)用于業(yè)務(wù)問(wèn)題。

在技術(shù)層面上，監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之間的區(qū)別在于用于創(chuàng)建算法的原始數(shù)據(jù)是預(yù)先標(biāo)記（監(jiān)督學(xué)習(xí)）還是未預(yù)先標(biāo)記（無(wú)監(jiān)督學(xué)習(xí)）。

讓我們開(kāi)始吧。

什么是監(jiān)督學(xué)習(xí)？

在監(jiān)督學(xué)習(xí)中，數(shù)據(jù)科學(xué)家為算法提供標(biāo)記的訓(xùn)練數(shù)據(jù)，并定義他們希望算法評(píng)估相關(guān)性的變量。

算法的輸入數(shù)據(jù)和輸出變量都在訓(xùn)練數(shù)據(jù)中指定。例如，如果您嘗試使用監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練算法以了解圖片中是否有貓，則可以為訓(xùn)練數(shù)據(jù)中使用的每張圖片創(chuàng)建一個(gè)標(biāo)簽，指示圖像是否包含貓。

正如我們?cè)诒O(jiān)督學(xué)習(xí)的定義中所解釋的那樣：“[A]計(jì)算機(jī)算法是在為特定輸出標(biāo)記的輸入數(shù)據(jù)上訓(xùn)練的。該模型經(jīng)過(guò)訓(xùn)練，直到它能夠檢測(cè)到輸入數(shù)據(jù)和輸出標(biāo)簽之間的基本模式和關(guān)系，使其能夠在呈現(xiàn)前所未見(jiàn)的數(shù)據(jù)時(shí)產(chǎn)生準(zhǔn)確的標(biāo)記結(jié)果。監(jiān)督算法的常見(jiàn)類型包括分類、決策樹(shù)、回歸和預(yù)測(cè)建模，您可以在Arcitura Education的機(jī)器學(xué)習(xí)教程中了解這些內(nèi)容。

監(jiān)督式機(jī)器學(xué)習(xí)技術(shù)用于各種業(yè)務(wù)應(yīng)用程序，包括以下內(nèi)容：

個(gè)性化營(yíng)銷。

保險(xiǎn)/信貸承銷決策。

欺詐檢測(cè)。

垃圾郵件過(guò)濾。

什么是無(wú)監(jiān)督學(xué)習(xí)？

在無(wú)監(jiān)督學(xué)習(xí)中，一種適合這種方法的算法（K-means聚類就是一個(gè)例子）是在未標(biāo)記的數(shù)據(jù)上訓(xùn)練的。它掃描數(shù)據(jù)集，尋找任何有意義的聯(lián)系。換句話說(shuō)，無(wú)監(jiān)督學(xué)習(xí)決定了數(shù)據(jù)中的模式和相似性，而不是將其與某些外部測(cè)量相關(guān)聯(lián)。

當(dāng)您不知道自己在尋找什么時(shí)，這種方法很有用，而當(dāng)您知道時(shí)，這種方法就不那么有用了。如果你向無(wú)監(jiān)督算法展示了數(shù)千或數(shù)百萬(wàn)張圖片，它可能會(huì)將圖片的子集歸類為人類識(shí)別為貓科動(dòng)物的圖像。相比之下，在貓與犬科動(dòng)物的標(biāo)記數(shù)據(jù)上訓(xùn)練的監(jiān)督算法能夠高度自信地識(shí)別貓的圖像。但這種方法有一個(gè)權(quán)衡：如果監(jiān)督學(xué)習(xí)項(xiàng)目需要數(shù)百萬(wàn)張標(biāo)記圖像來(lái)開(kāi)發(fā)模型，那么機(jī)器生成的預(yù)測(cè)需要大量的人力。

有一個(gè)中間地帶：半監(jiān)督學(xué)習(xí)。

什么是半監(jiān)督學(xué)習(xí)？

半監(jiān)督學(xué)習(xí)是一種結(jié)合了這兩種方法的捷徑。半監(jiān)督學(xué)習(xí)描述了一種特定的工作流程，其中使用無(wú)監(jiān)督學(xué)習(xí)算法自動(dòng)生成標(biāo)簽，這些標(biāo)簽可以輸入到監(jiān)督學(xué)習(xí)算法中。在這種方法中，人類手動(dòng)標(biāo)記一些圖像，無(wú)監(jiān)督學(xué)習(xí)猜測(cè)其他圖像的標(biāo)簽，然后將所有這些標(biāo)簽和圖像輸入到監(jiān)督學(xué)習(xí)算法以創(chuàng)建AI模型。

半監(jiān)督學(xué)習(xí)可以降低標(biāo)記機(jī)器學(xué)習(xí)中使用的大型數(shù)據(jù)集的成本。“如果你能讓人類標(biāo)記數(shù)百萬(wàn)個(gè)樣本中的0.01%，那么計(jì)算機(jī)就可以利用這些標(biāo)簽來(lái)顯著提高其預(yù)測(cè)準(zhǔn)確性，”企業(yè)數(shù)據(jù)目錄平臺(tái)Alation的聯(lián)合創(chuàng)始人兼首席創(chuàng)新官Aaron Kalb說(shuō)。

什么是強(qiáng)化學(xué)習(xí)？

另一種機(jī)器學(xué)習(xí)方法是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)通常用于教機(jī)器完成一系列步驟，不同于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。數(shù)據(jù)科學(xué)家對(duì)算法進(jìn)行編程來(lái)執(zhí)行任務(wù)，在確定如何完成任務(wù)時(shí)給予積極或消極的線索或強(qiáng)化。程序員為獎(jiǎng)勵(lì)設(shè)定規(guī)則，但讓算法自己決定需要采取哪些步驟來(lái)最大化獎(jiǎng)勵(lì)，從而完成任務(wù)。

什么時(shí)候應(yīng)該使用監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)？

LinkedIn機(jī)器學(xué)習(xí)經(jīng)理Shivani Rao表示，采用監(jiān)督或無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法的最佳實(shí)踐通常取決于環(huán)境，你可以對(duì)數(shù)據(jù)和應(yīng)用程序做出的假設(shè)。

Rao說(shuō)，使用監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法的選擇也會(huì)隨著時(shí)間的推移而改變。在模型構(gòu)建過(guò)程的早期階段，數(shù)據(jù)通常是未標(biāo)記的，而標(biāo)記的數(shù)據(jù)可以在建模的后期階段出現(xiàn)。

例如，對(duì)于預(yù)測(cè)LinkedIn成員是否會(huì)觀看課程視頻的問(wèn)題，第一個(gè)模型基于無(wú)監(jiān)督技術(shù)。提供這些建議后，記錄某人是否單擊建議的指標(biāo)將提供新數(shù)據(jù)以生成標(biāo)簽。

LinkedIn還使用這種技術(shù)來(lái)標(biāo)記學(xué)生可能想要獲得的技能的在線課程。人工標(biāo)記者，例如作者、出版商或?qū)W生，可以提供課程教授的精確和準(zhǔn)確的技能列表，但他們不可能提供此類技能的詳盡列表。因此，可以認(rèn)為這些數(shù)據(jù)標(biāo)記不完整。這些類型的問(wèn)題可以使用半監(jiān)督技術(shù)來(lái)幫助構(gòu)建一組更詳盡的標(biāo)記。

數(shù)據(jù)科學(xué)和高級(jí)分析專家、咨詢公司科爾尼（Kearney）的合伙人巴拉特·托塔（Bharath Thota）表示，他的團(tuán)隊(duì)選擇使用監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí)時(shí)，也往往會(huì)考慮實(shí)際因素。

“當(dāng)標(biāo)記數(shù)據(jù)可用時(shí)，我們選擇監(jiān)督學(xué)習(xí)作為應(yīng)用程序，目標(biāo)是預(yù)測(cè)或分類未來(lái)的觀察結(jié)果，”Thota說(shuō)。“當(dāng)標(biāo)記數(shù)據(jù)不可用時(shí)，我們使用無(wú)監(jiān)督學(xué)習(xí)，目標(biāo)是通過(guò)從數(shù)據(jù)中識(shí)別模式或片段來(lái)制定策略。”

Kalb說(shuō)，Alation數(shù)據(jù)科學(xué)家在內(nèi)部將無(wú)監(jiān)督學(xué)習(xí)用于各種應(yīng)用程序。例如，他們開(kāi)發(fā)了一種人機(jī)協(xié)作流程，用于將晦澀難懂的數(shù)據(jù)對(duì)象名稱翻譯成人類語(yǔ)言，例如，將“na_gr_rvnu_ps”翻譯成“北美專業(yè)服務(wù)總收入”。在這種情況下，機(jī)器猜測(cè)，人類確認(rèn)，機(jī)器學(xué)習(xí)。

“你可以把它想象成一個(gè)迭代循環(huán)中的半監(jiān)督學(xué)習(xí)，創(chuàng)造一個(gè)提高準(zhǔn)確性的良性循環(huán)，”Kalb說(shuō)。

5種無(wú)監(jiān)督學(xué)習(xí)技巧

在高層次上，監(jiān)督學(xué)習(xí)技術(shù)傾向于關(guān)注線性回歸（將模型擬合到一組數(shù)據(jù)點(diǎn)以進(jìn)行預(yù)測(cè)）或分類問(wèn)題（圖像是否有貓？

無(wú)監(jiān)督學(xué)習(xí)技術(shù)通常使用各種方式對(duì)原始數(shù)據(jù)集進(jìn)行切片和切塊，以補(bǔ)充監(jiān)督學(xué)習(xí)的工作，包括：

數(shù)據(jù)聚類。具有相似特征的數(shù)據(jù)點(diǎn)組合在一起，以幫助更有效地理解和探索數(shù)據(jù)。例如，公司可能會(huì)使用數(shù)據(jù)聚類方法根據(jù)客戶的人口統(tǒng)計(jì)、興趣、購(gòu)買(mǎi)行為和其他因素將客戶細(xì)分為幾組。

降維。數(shù)據(jù)集中的每個(gè)變量都被視為一個(gè)單獨(dú)的維度。但是，許多模型通過(guò)分析變量之間的特定關(guān)系來(lái)更好地工作。降維的一個(gè)簡(jiǎn)單例子是將利潤(rùn)用作單一維度，它表示收入減去支出——兩個(gè)獨(dú)立的維度。但是，可以使用主成分分析、自動(dòng)編碼器、將文本轉(zhuǎn)換為向量的算法或 T 分布隨機(jī)鄰域嵌入等算法生成更復(fù)雜的新變量類型。

降維可以幫助減少過(guò)度擬合的問(wèn)題，在這種問(wèn)題中，模型適用于小數(shù)據(jù)集，但不能很好地泛化到新數(shù)據(jù)。該技術(shù)還使公司能夠以 2D 或 3D 形式可視化人類可以輕松理解的高維數(shù)據(jù)。

異常或異常值檢測(cè)。無(wú)監(jiān)督學(xué)習(xí)可以幫助識(shí)別常規(guī)數(shù)據(jù)分布之外的數(shù)據(jù)點(diǎn)。識(shí)別和刪除異常作為數(shù)據(jù)準(zhǔn)備步驟可能會(huì)提高機(jī)器學(xué)習(xí)模型的性能。

遷移學(xué)習(xí)。這些算法利用在相關(guān)但不同的任務(wù)上訓(xùn)練的模型。例如，遷移學(xué)習(xí)技術(shù)可以很容易地微調(diào)在維基百科文章上訓(xùn)練的分類器，以使用正確的主題標(biāo)記任意類型的新文本。LinkedIn的Rao表示，這是解決沒(méi)有標(biāo)簽的數(shù)據(jù)問(wèn)題的最有效，最快捷的方法之一。

基于圖形的算法。Rao說(shuō)，這些技術(shù)試圖構(gòu)建一個(gè)圖表來(lái)捕捉數(shù)據(jù)點(diǎn)之間的關(guān)系。例如，如果每個(gè)數(shù)據(jù)點(diǎn)表示具有技能的 LinkedIn 成員，則可以使用圖形來(lái)表示成員，其中邊緣表示成員之間的技能重疊。圖形算法還可以幫助將標(biāo)簽從已知數(shù)據(jù)點(diǎn)轉(zhuǎn)移到未知但密切相關(guān)的數(shù)據(jù)點(diǎn)。無(wú)監(jiān)督學(xué)習(xí)還可用于在不同類型的實(shí)體（源和目標(biāo)）之間構(gòu)建圖形。邊緣越強(qiáng)，源節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)的親和力就越高。例如，LinkedIn 使用它們將成員與基于技能的課程相匹配。

上一篇：企業(yè)如何克服將AI融入業(yè)務(wù)的過(guò)程中面臨的挑戰(zhàn)

下一篇：eSIM的變革性如何？