數(shù)據(jù)可謂是機器學習模型的命脈。不過當這種寶貴資源的訪問受到限制時會發(fā)生什么?正如很多項目和企業(yè)開始展現(xiàn)的那樣,這時候合成數(shù)據(jù)就算不是一種出色的選擇,也是一種可行的選擇。
什么是合成數(shù)據(jù)?
合成數(shù)據(jù)是人工生成的信息,不是通過直接測量獲得。“假”數(shù)據(jù)本質上不是新的概念或革命性的概念。它實際上是為缺少正常運行所需的可用或必要信息的模型生成測試或訓練數(shù)據(jù)的一種方法。
過去,缺少數(shù)據(jù)招致了使用隨機生成的一組數(shù)據(jù)點的便捷方法。盡管這對于教學和測試用途可能已經足夠了,但隨機數(shù)據(jù)不是您想要拿來訓練任何類型的預測模型的數(shù)據(jù)。這就是合成數(shù)據(jù)概念的不同之處,它很可靠。
合成數(shù)據(jù)本質上是一種獨特的概念,即我們可以巧妙地生成隨機化數(shù)據(jù)。故此,這種方法可以應用于更復雜的用例,而不單單是測試。
怎樣生成合成數(shù)據(jù)?
雖說生成合成數(shù)據(jù)的方式與隨機數(shù)據(jù)沒什么不同——只是通過更復雜的輸入集,但合成數(shù)據(jù)確實有不同的目的,故此有獨特的要求。
合成方法基于并僅限于預先作為輸入而饋入的某些標準。實際上,它不是隨機的。它基于一組具有特定分布和標準的樣本數(shù)據(jù),這些標準決定了數(shù)據(jù)點的可能范圍、分布和頻次。大致說來,目的是復制真實數(shù)據(jù)以填充更大的數(shù)據(jù)集,然后該數(shù)據(jù)集將足夠龐大,便于訓練機器學習模型。
在探索用于提煉合成數(shù)據(jù)的深度學習方法時,這種方法變得特別令人關注。算法可以相互競爭,目的是在生成和識別合成數(shù)據(jù)的能力方面相互超越。實際上,這里的目的是搞一場人工軍備競賽,以生成超現(xiàn)實的數(shù)據(jù)。
為什么需要合成數(shù)據(jù)?
假如我們不能收集推進文明所需的寶貴資源,就會找到一種創(chuàng)造寶貴資源的方法。這個原則現(xiàn)在同樣適用于機器學習和AI的數(shù)據(jù)領域。
在訓練算法時,擁有非常大的數(shù)據(jù)樣本量至關重要,否則算法識別的模式有可能對于實際應用而言太過簡單。這實際上非常合乎邏輯。正如人類智能往往采取最容易的途徑來解決問題,訓練機器學習和AI時也經常發(fā)生同樣的情況。
比如說,不妨將這運用于對象識別算法,該算法可以從一組貓圖像中準確識別狗。假如數(shù)據(jù)量太少,AI就有可能依賴不是它試圖識別的對象的基本特征的模式。在這種情況下,AI可能仍然有效,不過遇到不遵循最初識別的模式的數(shù)據(jù)時,就會失效。
合成數(shù)據(jù)怎樣用于訓練AI?
那么,解決辦法是什么?我們畫了許多略有不同的動物,迫使網(wǎng)絡找到圖像的底層結構,而不單單是某些像素的位置。但不是手工繪制一百萬條狗,最好構建一個系統(tǒng),專門用于繪制狗,可用于訓練分類算法——這實際上是我們在提供合成數(shù)據(jù)便于訓練機器學習時所做的事情。
然則,這種方法存在明顯的缺陷。單單憑空生成數(shù)據(jù)代表不了真實世界,故此會招致算法在遇到真實數(shù)據(jù)時很可能無法運行。解決方案是收集數(shù)據(jù)子集,分析和識別其中的趨勢和范圍,然后使用這些數(shù)據(jù)生成大量隨機數(shù)據(jù),這些數(shù)據(jù)很可能代表我們自行收集所有數(shù)據(jù)后數(shù)據(jù)的樣子。
這也是合成數(shù)據(jù)的價值所在。我們再也不必無休止地收集數(shù)據(jù),然后在使用之前需要清理和處理這些數(shù)據(jù)。
合成數(shù)據(jù)為何能解決日益受到關注的數(shù)據(jù)隱私問題?
全球眼下正在經歷一場非常劇烈的轉變,特別是在歐盟:隱私和所生成的數(shù)據(jù)愈來愈受到保護。在機器學習和AI領域,加強數(shù)據(jù)保護是老大難問題。受限制的數(shù)據(jù)經常正是訓練算法為最終用戶執(zhí)行和提供價值所需要的數(shù)據(jù),特別是對于B2C解決方案而言。
個人決定使用解決方案并故此批準使用他們的數(shù)據(jù)時,隱私問題通常會得到解決。這里的問題是,在您擁有提供足夠價值的解決方案、因而愿意交出個人數(shù)據(jù)之前,很難讓用戶向您提供其個人數(shù)據(jù)。故此,供應商經常會陷入先有雞還是先有蛋的困境。
合成數(shù)據(jù)就是解決方案,企業(yè)可以通過早期采用者獲得數(shù)據(jù)子集。之后,它們可以使用這些信息作為基礎,便于生成足夠的數(shù)據(jù)用于訓練機器學習和AI。這種方法可以大大減少對私有數(shù)據(jù)的費時又費錢的需求,仍可以為實際用戶開發(fā)算法。
對于醫(yī)療保健、銀行和法律等某些行業(yè)而言,合成數(shù)據(jù)提供了一種更容易訪問以前無法獲得的大量數(shù)據(jù)的方法,消除了新的和更先進的算法通常面臨的制約因素。
合成數(shù)據(jù)能否取代真實數(shù)據(jù)?
真實數(shù)據(jù)的問題在于它不是為了訓練機器學習和AI算法而生成的,它只是我們周圍發(fā)生的事件的副產品。如前所述,這顯然限制了收集數(shù)據(jù)的可用性和易用性,還限制了數(shù)據(jù)的參數(shù)和可能破壞結果的缺陷(異常值)的可能性。這就是為什么可以定制和控制的合成數(shù)據(jù)在訓練模型時更高效。
然則,盡管非常適用于訓練場景,但合成數(shù)據(jù)將不可避免地始終依賴至少一小部分真實數(shù)據(jù)用于自身的創(chuàng)建。所以合成數(shù)據(jù)永遠不會取代它所依賴的初始數(shù)據(jù)。更現(xiàn)實地說,它將大幅減少算法訓練所需的真實數(shù)據(jù)量,這個過程需要比測試多出一大截的數(shù)據(jù)——通常80%的數(shù)據(jù)用于訓練,另外20%的數(shù)據(jù)用于測試。
最后,假如處理得當,合成數(shù)據(jù)提供了一種更快捷、更有效的方式來獲取我們需要的數(shù)據(jù),成本比從現(xiàn)實世界獲取數(shù)據(jù)的成本更低,同時減少了煩人的數(shù)據(jù)隱私問題。