合成數(shù)據(jù)：機(jī)器學(xué)習(xí)的未來

沃卡惠
行業(yè)資訊
2022-08-13 08:59:16
215

數(shù)據(jù)可謂是機(jī)器學(xué)習(xí)模型的命脈。不過當(dāng)這種寶貴資源的訪問受到限制時(shí)會(huì)發(fā)生什么？正如很多項(xiàng)目和企業(yè)開始展現(xiàn)的那樣，這時(shí)候合成數(shù)據(jù)就算不是一種出色的選擇，也是一種可行的選擇。

什么是合成數(shù)據(jù)？

合成數(shù)據(jù)是人工生成的信息，不是通過直接測量獲得。“假”數(shù)據(jù)本質(zhì)上不是新的概念或革命性的概念。它實(shí)際上是為缺少正常運(yùn)行所需的可用或必要信息的模型生成測試或訓(xùn)練數(shù)據(jù)的一種方法。

過去，缺少數(shù)據(jù)招致了使用隨機(jī)生成的一組數(shù)據(jù)點(diǎn)的便捷方法。盡管這對(duì)于教學(xué)和測試用途可能已經(jīng)足夠了，但隨機(jī)數(shù)據(jù)不是您想要拿來訓(xùn)練任何類型的預(yù)測模型的數(shù)據(jù)。這就是合成數(shù)據(jù)概念的不同之處，它很可靠。

合成數(shù)據(jù)本質(zhì)上是一種獨(dú)特的概念，即我們可以巧妙地生成隨機(jī)化數(shù)據(jù)。故此，這種方法可以應(yīng)用于更復(fù)雜的用例，而不單單是測試。

怎樣生成合成數(shù)據(jù)？

雖說生成合成數(shù)據(jù)的方式與隨機(jī)數(shù)據(jù)沒什么不同——只是通過更復(fù)雜的輸入集，但合成數(shù)據(jù)確實(shí)有不同的目的，故此有獨(dú)特的要求。

合成方法基于并僅限于預(yù)先作為輸入而饋入的某些標(biāo)準(zhǔn)。實(shí)際上，它不是隨機(jī)的。它基于一組具有特定分布和標(biāo)準(zhǔn)的樣本數(shù)據(jù)，這些標(biāo)準(zhǔn)決定了數(shù)據(jù)點(diǎn)的可能范圍、分布和頻次。大致說來，目的是復(fù)制真實(shí)數(shù)據(jù)以填充更大的數(shù)據(jù)集，然后該數(shù)據(jù)集將足夠龐大，便于訓(xùn)練機(jī)器學(xué)習(xí)模型。

在探索用于提煉合成數(shù)據(jù)的深度學(xué)習(xí)方法時(shí)，這種方法變得特別令人關(guān)注。算法可以相互競爭，目的是在生成和識(shí)別合成數(shù)據(jù)的能力方面相互超越。實(shí)際上，這里的目的是搞一場人工軍備競賽，以生成超現(xiàn)實(shí)的數(shù)據(jù)。

為什么需要合成數(shù)據(jù)？

假如我們不能收集推進(jìn)文明所需的寶貴資源，就會(huì)找到一種創(chuàng)造寶貴資源的方法。這個(gè)原則現(xiàn)在同樣適用于機(jī)器學(xué)習(xí)和AI的數(shù)據(jù)領(lǐng)域。

在訓(xùn)練算法時(shí)，擁有非常大的數(shù)據(jù)樣本量至關(guān)重要，否則算法識(shí)別的模式有可能對(duì)于實(shí)際應(yīng)用而言太過簡單。這實(shí)際上非常合乎邏輯。正如人類智能往往采取最容易的途徑來解決問題，訓(xùn)練機(jī)器學(xué)習(xí)和AI時(shí)也經(jīng)常發(fā)生同樣的情況。

比如說，不妨將這運(yùn)用于對(duì)象識(shí)別算法，該算法可以從一組貓圖像中準(zhǔn)確識(shí)別狗。假如數(shù)據(jù)量太少，AI就有可能依賴不是它試圖識(shí)別的對(duì)象的基本特征的模式。在這種情況下，AI可能仍然有效，不過遇到不遵循最初識(shí)別的模式的數(shù)據(jù)時(shí)，就會(huì)失效。

合成數(shù)據(jù)怎樣用于訓(xùn)練AI？

那么，解決辦法是什么？我們畫了許多略有不同的動(dòng)物，迫使網(wǎng)絡(luò)找到圖像的底層結(jié)構(gòu)，而不單單是某些像素的位置。但不是手工繪制一百萬條狗，最好構(gòu)建一個(gè)系統(tǒng)，專門用于繪制狗，可用于訓(xùn)練分類算法——這實(shí)際上是我們在提供合成數(shù)據(jù)便于訓(xùn)練機(jī)器學(xué)習(xí)時(shí)所做的事情。

然則，這種方法存在明顯的缺陷。單單憑空生成數(shù)據(jù)代表不了真實(shí)世界，故此會(huì)招致算法在遇到真實(shí)數(shù)據(jù)時(shí)很可能無法運(yùn)行。解決方案是收集數(shù)據(jù)子集，分析和識(shí)別其中的趨勢和范圍，然后使用這些數(shù)據(jù)生成大量隨機(jī)數(shù)據(jù)，這些數(shù)據(jù)很可能代表我們自行收集所有數(shù)據(jù)后數(shù)據(jù)的樣子。

這也是合成數(shù)據(jù)的價(jià)值所在。我們再也不必?zé)o休止地收集數(shù)據(jù)，然后在使用之前需要清理和處理這些數(shù)據(jù)。

合成數(shù)據(jù)為何能解決日益受到關(guān)注的數(shù)據(jù)隱私問題？

全球眼下正在經(jīng)歷一場非常劇烈的轉(zhuǎn)變，特別是在歐盟：隱私和所生成的數(shù)據(jù)愈來愈受到保護(hù)。在機(jī)器學(xué)習(xí)和AI領(lǐng)域，加強(qiáng)數(shù)據(jù)保護(hù)是老大難問題。受限制的數(shù)據(jù)經(jīng)常正是訓(xùn)練算法為最終用戶執(zhí)行和提供價(jià)值所需要的數(shù)據(jù)，特別是對(duì)于B2C解決方案而言。

個(gè)人決定使用解決方案并故此批準(zhǔn)使用他們的數(shù)據(jù)時(shí)，隱私問題通常會(huì)得到解決。這里的問題是，在您擁有提供足夠價(jià)值的解決方案、因而愿意交出個(gè)人數(shù)據(jù)之前，很難讓用戶向您提供其個(gè)人數(shù)據(jù)。故此，供應(yīng)商經(jīng)常會(huì)陷入先有雞還是先有蛋的困境。

合成數(shù)據(jù)就是解決方案，企業(yè)可以通過早期采用者獲得數(shù)據(jù)子集。之后，它們可以使用這些信息作為基礎(chǔ)，便于生成足夠的數(shù)據(jù)用于訓(xùn)練機(jī)器學(xué)習(xí)和AI。這種方法可以大大減少對(duì)私有數(shù)據(jù)的費(fèi)時(shí)又費(fèi)錢的需求，仍可以為實(shí)際用戶開發(fā)算法。

對(duì)于醫(yī)療保健、銀行和法律等某些行業(yè)而言，合成數(shù)據(jù)提供了一種更容易訪問以前無法獲得的大量數(shù)據(jù)的方法，消除了新的和更先進(jìn)的算法通常面臨的制約因素。

合成數(shù)據(jù)能否取代真實(shí)數(shù)據(jù)？

真實(shí)數(shù)據(jù)的問題在于它不是為了訓(xùn)練機(jī)器學(xué)習(xí)和AI算法而生成的，它只是我們周圍發(fā)生的事件的副產(chǎn)品。如前所述，這顯然限制了收集數(shù)據(jù)的可用性和易用性，還限制了數(shù)據(jù)的參數(shù)和可能破壞結(jié)果的缺陷（異常值）的可能性。這就是為什么可以定制和控制的合成數(shù)據(jù)在訓(xùn)練模型時(shí)更高效。

然則，盡管非常適用于訓(xùn)練場景，但合成數(shù)據(jù)將不可避免地始終依賴至少一小部分真實(shí)數(shù)據(jù)用于自身的創(chuàng)建。所以合成數(shù)據(jù)永遠(yuǎn)不會(huì)取代它所依賴的初始數(shù)據(jù)。更現(xiàn)實(shí)地說，它將大幅減少算法訓(xùn)練所需的真實(shí)數(shù)據(jù)量，這個(gè)過程需要比測試多出一大截的數(shù)據(jù)——通常80%的數(shù)據(jù)用于訓(xùn)練，另外20%的數(shù)據(jù)用于測試。

最后，假如處理得當(dāng)，合成數(shù)據(jù)提供了一種更快捷、更有效的方式來獲取我們需要的數(shù)據(jù)，成本比從現(xiàn)實(shí)世界獲取數(shù)據(jù)的成本更低，同時(shí)減少了煩人的數(shù)據(jù)隱私問題。

上一篇：機(jī)器學(xué)習(xí)必備：怎樣防止過擬合？

下一篇：2022年十大AI軟件解決方案