了解監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的特征,以及它們?cè)跈C(jī)器學(xué)習(xí)項(xiàng)目中的應(yīng)用方式。
在人工智能技術(shù)的討論中,監(jiān)督學(xué)習(xí)往往會(huì)得到最多的宣傳,因?yàn)樗ǔJ怯糜趧?chuàng)建人工智能模型的最后一步,用于圖像識(shí)別、更好的預(yù)測(cè)、產(chǎn)品推薦和潛在客戶評(píng)分等。
相比之下,無(wú)監(jiān)督學(xué)習(xí)往往在人工智能開(kāi)發(fā)生命周期的早期在幕后工作:它通常被用來(lái)為監(jiān)督學(xué)習(xí)的魔力展開(kāi)奠定基礎(chǔ),就像讓經(jīng)理大放異彩的繁重工作一樣。正如后面所解釋的,這兩種機(jī)器學(xué)習(xí)模式都可以有效地應(yīng)用于業(yè)務(wù)問(wèn)題。
在技術(shù)層面上,監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之間的區(qū)別在于用于創(chuàng)建算法的原始數(shù)據(jù)是預(yù)先標(biāo)記(監(jiān)督學(xué)習(xí))還是未預(yù)先標(biāo)記(無(wú)監(jiān)督學(xué)習(xí))。
讓我們開(kāi)始吧。
什么是監(jiān)督學(xué)習(xí)?
在監(jiān)督學(xué)習(xí)中,數(shù)據(jù)科學(xué)家為算法提供標(biāo)記的訓(xùn)練數(shù)據(jù),并定義他們希望算法評(píng)估相關(guān)性的變量。
算法的輸入數(shù)據(jù)和輸出變量都在訓(xùn)練數(shù)據(jù)中指定。例如,如果您嘗試使用監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練算法以了解圖片中是否有貓,則可以為訓(xùn)練數(shù)據(jù)中使用的每張圖片創(chuàng)建一個(gè)標(biāo)簽,指示圖像是否包含貓。
正如我們?cè)诒O(jiān)督學(xué)習(xí)的定義中所解釋的那樣:“[A]計(jì)算機(jī)算法是在為特定輸出標(biāo)記的輸入數(shù)據(jù)上訓(xùn)練的。該模型經(jīng)過(guò)訓(xùn)練,直到它能夠檢測(cè)到輸入數(shù)據(jù)和輸出標(biāo)簽之間的基本模式和關(guān)系,使其能夠在呈現(xiàn)前所未見(jiàn)的數(shù)據(jù)時(shí)產(chǎn)生準(zhǔn)確的標(biāo)記結(jié)果。監(jiān)督算法的常見(jiàn)類型包括分類、決策樹(shù)、回歸和預(yù)測(cè)建模,您可以在Arcitura Education的機(jī)器學(xué)習(xí)教程中了解這些內(nèi)容。
監(jiān)督式機(jī)器學(xué)習(xí)技術(shù)用于各種業(yè)務(wù)應(yīng)用程序,包括以下內(nèi)容:
個(gè)性化營(yíng)銷。
保險(xiǎn)/信貸承銷決策。
欺詐檢測(cè)。
垃圾郵件過(guò)濾。
什么是無(wú)監(jiān)督學(xué)習(xí)?
在無(wú)監(jiān)督學(xué)習(xí)中,一種適合這種方法的算法(K-means聚類就是一個(gè)例子)是在未標(biāo)記的數(shù)據(jù)上訓(xùn)練的。它掃描數(shù)據(jù)集,尋找任何有意義的聯(lián)系。換句話說(shuō),無(wú)監(jiān)督學(xué)習(xí)決定了數(shù)據(jù)中的模式和相似性,而不是將其與某些外部測(cè)量相關(guān)聯(lián)。
當(dāng)您不知道自己在尋找什么時(shí),這種方法很有用,而當(dāng)您知道時(shí),這種方法就不那么有用了。如果你向無(wú)監(jiān)督算法展示了數(shù)千或數(shù)百萬(wàn)張圖片,它可能會(huì)將圖片的子集歸類為人類識(shí)別為貓科動(dòng)物的圖像。相比之下,在貓與犬科動(dòng)物的標(biāo)記數(shù)據(jù)上訓(xùn)練的監(jiān)督算法能夠高度自信地識(shí)別貓的圖像。但這種方法有一個(gè)權(quán)衡:如果監(jiān)督學(xué)習(xí)項(xiàng)目需要數(shù)百萬(wàn)張標(biāo)記圖像來(lái)開(kāi)發(fā)模型,那么機(jī)器生成的預(yù)測(cè)需要大量的人力。
有一個(gè)中間地帶:半監(jiān)督學(xué)習(xí)。
什么是半監(jiān)督學(xué)習(xí)?
半監(jiān)督學(xué)習(xí)是一種結(jié)合了這兩種方法的捷徑。半監(jiān)督學(xué)習(xí)描述了一種特定的工作流程,其中使用無(wú)監(jiān)督學(xué)習(xí)算法自動(dòng)生成標(biāo)簽,這些標(biāo)簽可以輸入到監(jiān)督學(xué)習(xí)算法中。在這種方法中,人類手動(dòng)標(biāo)記一些圖像,無(wú)監(jiān)督學(xué)習(xí)猜測(cè)其他圖像的標(biāo)簽,然后將所有這些標(biāo)簽和圖像輸入到監(jiān)督學(xué)習(xí)算法以創(chuàng)建AI模型。
半監(jiān)督學(xué)習(xí)可以降低標(biāo)記機(jī)器學(xué)習(xí)中使用的大型數(shù)據(jù)集的成本。“如果你能讓人類標(biāo)記數(shù)百萬(wàn)個(gè)樣本中的0.01%,那么計(jì)算機(jī)就可以利用這些標(biāo)簽來(lái)顯著提高其預(yù)測(cè)準(zhǔn)確性,”企業(yè)數(shù)據(jù)目錄平臺(tái)Alation的聯(lián)合創(chuàng)始人兼首席創(chuàng)新官Aaron Kalb說(shuō)。
什么是強(qiáng)化學(xué)習(xí)?
另一種機(jī)器學(xué)習(xí)方法是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)通常用于教機(jī)器完成一系列步驟,不同于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。數(shù)據(jù)科學(xué)家對(duì)算法進(jìn)行編程來(lái)執(zhí)行任務(wù),在確定如何完成任務(wù)時(shí)給予積極或消極的線索或強(qiáng)化。程序員為獎(jiǎng)勵(lì)設(shè)定規(guī)則,但讓算法自己決定需要采取哪些步驟來(lái)最大化獎(jiǎng)勵(lì),從而完成任務(wù)。
什么時(shí)候應(yīng)該使用監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)?
LinkedIn機(jī)器學(xué)習(xí)經(jīng)理Shivani Rao表示,采用監(jiān)督或無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法的最佳實(shí)踐通常取決于環(huán)境,你可以對(duì)數(shù)據(jù)和應(yīng)用程序做出的假設(shè)。
Rao說(shuō),使用監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法的選擇也會(huì)隨著時(shí)間的推移而改變。在模型構(gòu)建過(guò)程的早期階段,數(shù)據(jù)通常是未標(biāo)記的,而標(biāo)記的數(shù)據(jù)可以在建模的后期階段出現(xiàn)。
例如,對(duì)于預(yù)測(cè)LinkedIn成員是否會(huì)觀看課程視頻的問(wèn)題,第一個(gè)模型基于無(wú)監(jiān)督技術(shù)。提供這些建議后,記錄某人是否單擊建議的指標(biāo)將提供新數(shù)據(jù)以生成標(biāo)簽。
LinkedIn還使用這種技術(shù)來(lái)標(biāo)記學(xué)生可能想要獲得的技能的在線課程。人工標(biāo)記者,例如作者、出版商或?qū)W生,可以提供課程教授的精確和準(zhǔn)確的技能列表,但他們不可能提供此類技能的詳盡列表。因此,可以認(rèn)為這些數(shù)據(jù)標(biāo)記不完整。這些類型的問(wèn)題可以使用半監(jiān)督技術(shù)來(lái)幫助構(gòu)建一組更詳盡的標(biāo)記。
數(shù)據(jù)科學(xué)和高級(jí)分析專家、咨詢公司科爾尼(Kearney)的合伙人巴拉特·托塔(Bharath Thota)表示,他的團(tuán)隊(duì)選擇使用監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí)時(shí),也往往會(huì)考慮實(shí)際因素。
“當(dāng)標(biāo)記數(shù)據(jù)可用時(shí),我們選擇監(jiān)督學(xué)習(xí)作為應(yīng)用程序,目標(biāo)是預(yù)測(cè)或分類未來(lái)的觀察結(jié)果,”Thota說(shuō)。“當(dāng)標(biāo)記數(shù)據(jù)不可用時(shí),我們使用無(wú)監(jiān)督學(xué)習(xí),目標(biāo)是通過(guò)從數(shù)據(jù)中識(shí)別模式或片段來(lái)制定策略。”
Kalb說(shuō),Alation數(shù)據(jù)科學(xué)家在內(nèi)部將無(wú)監(jiān)督學(xué)習(xí)用于各種應(yīng)用程序。例如,他們開(kāi)發(fā)了一種人機(jī)協(xié)作流程,用于將晦澀難懂的數(shù)據(jù)對(duì)象名稱翻譯成人類語(yǔ)言,例如,將“na_gr_rvnu_ps”翻譯成“北美專業(yè)服務(wù)總收入”。在這種情況下,機(jī)器猜測(cè),人類確認(rèn),機(jī)器學(xué)習(xí)。
“你可以把它想象成一個(gè)迭代循環(huán)中的半監(jiān)督學(xué)習(xí),創(chuàng)造一個(gè)提高準(zhǔn)確性的良性循環(huán),”Kalb說(shuō)。
5種無(wú)監(jiān)督學(xué)習(xí)技巧
在高層次上,監(jiān)督學(xué)習(xí)技術(shù)傾向于關(guān)注線性回歸(將模型擬合到一組數(shù)據(jù)點(diǎn)以進(jìn)行預(yù)測(cè))或分類問(wèn)題(圖像是否有貓?
無(wú)監(jiān)督學(xué)習(xí)技術(shù)通常使用各種方式對(duì)原始數(shù)據(jù)集進(jìn)行切片和切塊,以補(bǔ)充監(jiān)督學(xué)習(xí)的工作,包括:
數(shù)據(jù)聚類。具有相似特征的數(shù)據(jù)點(diǎn)組合在一起,以幫助更有效地理解和探索數(shù)據(jù)。例如,公司可能會(huì)使用數(shù)據(jù)聚類方法根據(jù)客戶的人口統(tǒng)計(jì)、興趣、購(gòu)買(mǎi)行為和其他因素將客戶細(xì)分為幾組。
降維。數(shù)據(jù)集中的每個(gè)變量都被視為一個(gè)單獨(dú)的維度。但是,許多模型通過(guò)分析變量之間的特定關(guān)系來(lái)更好地工作。降維的一個(gè)簡(jiǎn)單例子是將利潤(rùn)用作單一維度,它表示收入減去支出——兩個(gè)獨(dú)立的維度。但是,可以使用主成分分析、自動(dòng)編碼器、將文本轉(zhuǎn)換為向量的算法或 T 分布隨機(jī)鄰域嵌入等算法生成更復(fù)雜的新變量類型。
降維可以幫助減少過(guò)度擬合的問(wèn)題,在這種問(wèn)題中,模型適用于小數(shù)據(jù)集,但不能很好地泛化到新數(shù)據(jù)。該技術(shù)還使公司能夠以 2D 或 3D 形式可視化人類可以輕松理解的高維數(shù)據(jù)。
異常或異常值檢測(cè)。無(wú)監(jiān)督學(xué)習(xí)可以幫助識(shí)別常規(guī)數(shù)據(jù)分布之外的數(shù)據(jù)點(diǎn)。識(shí)別和刪除異常作為數(shù)據(jù)準(zhǔn)備步驟可能會(huì)提高機(jī)器學(xué)習(xí)模型的性能。
遷移學(xué)習(xí)。這些算法利用在相關(guān)但不同的任務(wù)上訓(xùn)練的模型。例如,遷移學(xué)習(xí)技術(shù)可以很容易地微調(diào)在維基百科文章上訓(xùn)練的分類器,以使用正確的主題標(biāo)記任意類型的新文本。LinkedIn的Rao表示,這是解決沒(méi)有標(biāo)簽的數(shù)據(jù)問(wèn)題的最有效,最快捷的方法之一。
基于圖形的算法。Rao說(shuō),這些技術(shù)試圖構(gòu)建一個(gè)圖表來(lái)捕捉數(shù)據(jù)點(diǎn)之間的關(guān)系。例如,如果每個(gè)數(shù)據(jù)點(diǎn)表示具有技能的 LinkedIn 成員,則可以使用圖形來(lái)表示成員,其中邊緣表示成員之間的技能重疊。圖形算法還可以幫助將標(biāo)簽從已知數(shù)據(jù)點(diǎn)轉(zhuǎn)移到未知但密切相關(guān)的數(shù)據(jù)點(diǎn)。無(wú)監(jiān)督學(xué)習(xí)還可用于在不同類型的實(shí)體(源和目標(biāo))之間構(gòu)建圖形。邊緣越強(qiáng),源節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)的親和力就越高。例如,LinkedIn 使用它們將成員與基于技能的課程相匹配。