大數(shù)據(jù)時(shí)代的數(shù)據(jù)集蒸餾，大型數(shù)據(jù)集上的首次成功

沃卡惠
行業(yè)資訊
2023-12-02 09:30:08
56

11月30日，全球第一所人工智能大學(xué)——穆罕默德·本·扎耶德人工智能大學(xué)（MBZUAI），在 arXiv 預(yù)印平臺(tái)發(fā)布了題為《大數(shù)據(jù)時(shí)代的數(shù)據(jù)集蒸餾》（Dataset Distillation in Large Data Era）的文章。

數(shù)據(jù)蒸餾應(yīng)用及當(dāng)前挑戰(zhàn)

數(shù)據(jù)集蒸餾（Dataset distillation）引起了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理各個(gè)領(lǐng)域的廣泛關(guān)注。

數(shù)據(jù)集蒸餾的目的是從大型數(shù)據(jù)集中生成較小但具有代表性的子集，從而可以有效地訓(xùn)練模型，同時(shí)評(píng)估原始測(cè)試數(shù)據(jù)分布以實(shí)現(xiàn)良好的性能。

隨著數(shù)據(jù)和模型規(guī)模的不斷增長(zhǎng)，這種數(shù)據(jù)集蒸餾概念在大數(shù)據(jù)時(shí)代變得更加重要，因?yàn)閿?shù)據(jù)集通常非常龐大，帶來(lái)存儲(chǔ)、計(jì)算和處理方面的挑戰(zhàn)。

一般來(lái)說(shuō)，數(shù)據(jù)集蒸餾可以提供公平的競(jìng)爭(zhēng)環(huán)境，使計(jì)算和存儲(chǔ)資源有限的研究人員能夠參與最先進(jìn)的基礎(chǔ)模型訓(xùn)練和應(yīng)用程序開(kāi)發(fā)，例如在當(dāng)前的大數(shù)據(jù)和大模型政權(quán)中負(fù)擔(dān)得起的 ChatGPT 和 Stable Diffusion。此外，通過(guò)使用蒸餾數(shù)據(jù)集，有可能減輕一些數(shù)據(jù)隱私問(wèn)題，因?yàn)樵嫉?、個(gè)人可識(shí)別的數(shù)據(jù)點(diǎn)可能會(huì)被排除在蒸餾版本之外。

最近，在各個(gè)研究和應(yīng)用領(lǐng)域采用大型模型和大數(shù)據(jù)已成為顯著趨勢(shì)。然而，許多先前的數(shù)據(jù)集蒸餾方法主要針對(duì) CIFAR、Tiny-ImageNet 和下采樣 ImageNet-1K 等數(shù)據(jù)集，發(fā)現(xiàn)將其框架擴(kuò)展到更大的數(shù)據(jù)集（例如完整的 ImageNet-1K）具有挑戰(zhàn)性。這表明這些方法尚未完全按照當(dāng)代的進(jìn)步和主流方法論發(fā)展。

提取各種大規(guī)模數(shù)據(jù)集，優(yōu)于所有先前方法

許多先前的工作旨在與原始數(shù)據(jù)集的各個(gè)方面保持一致，例如匹配訓(xùn)練權(quán)重軌跡、梯度、特征/BatchNorm 分布等。

在該研究中，研究人員展示了如何提取各種大規(guī)模數(shù)據(jù)集，以實(shí)現(xiàn)優(yōu)于所有先前方法的最佳精度。

在此，MBZUAI 研究人員將注意力擴(kuò)展到 ImageNet-1K 數(shù)據(jù)集之外，以 224×224 的傳統(tǒng)分辨率進(jìn)入完整 ImageNet-21K 的未知領(lǐng)域。這標(biāo)志著在處理如此龐大的數(shù)據(jù)集以進(jìn)行數(shù)據(jù)集蒸餾任務(wù)方面的開(kāi)創(chuàng)性努力。其方法利用簡(jiǎn)單而有效的課程學(xué)習(xí)框架。精心解決每個(gè)方面，并制定強(qiáng)大的策略來(lái)有效地訓(xùn)練完整的 ImageNet-21K，確保捕獲全面的知識(shí)。

具體來(lái)說(shuō)，根據(jù)先前的研究，該方法最初訓(xùn)練一個(gè)模型，將原始數(shù)據(jù)集中的知識(shí)封裝在其密集參數(shù)中。然而，研究人員引入了一個(gè)精煉的訓(xùn)練方案，超越了 Ridnik 等人在 ImageNet-21K 上的結(jié)果。

在數(shù)據(jù)恢復(fù)/合成階段，研究人員采用一種策略學(xué)習(xí)方案，根據(jù)區(qū)域的難度順序更新部分圖像裁剪：從簡(jiǎn)單過(guò)渡到困難，反之亦然。通過(guò)在不同的訓(xùn)練迭代中調(diào)整 RandomReiszedCrop 數(shù)據(jù)增強(qiáng)的下限和上限來(lái)調(diào)節(jié)這一進(jìn)程。

在數(shù)據(jù)合成過(guò)程中引入了一種簡(jiǎn)單而有效的課程數(shù)據(jù)增強(qiáng)（Curriculum Data Augmentation，CDA），它在大規(guī)模 ImageNet-1K 和 21K 上獲得了在 IPC（每類(lèi)圖像）50 下的準(zhǔn)確率 63.2% 和在 IPC 20 下的 36.1% 的準(zhǔn)確率。

值得注意的是，研究人員觀察到這種簡(jiǎn)單的學(xué)習(xí)方法極大地提高了合成數(shù)據(jù)的質(zhì)量。在論文中，研究人員深入研究了與課程學(xué)習(xí)框架相關(guān)的數(shù)據(jù)合成的三種學(xué)習(xí)范式。首先是標(biāo)準(zhǔn)課程學(xué)習(xí)，其次是其替代方法，逆向課程學(xué)習(xí)。最后，還考慮了基本的和以前使用的不斷學(xué)習(xí)的方法。

最后，研究表明，通過(guò)將所有增強(qiáng)功能集成在一起，所提出的模型在 ImageNet-1K/21K 上的 Top-1 準(zhǔn)確率比當(dāng)前最先進(jìn)的模型高出 4% 以上，并且首次縮小了差距與其全數(shù)據(jù)訓(xùn)練對(duì)應(yīng)物相比，絕對(duì)值不到 15%。

此外，該研究代表了標(biāo)準(zhǔn) 224×224 分辨率下大規(guī)模 ImageNet-21K 數(shù)據(jù)集蒸餾的首次成功。

其代碼和 20 個(gè) IPC、2K 恢復(fù)預(yù)算的精煉 ImageNet-21K 數(shù)據(jù)集可在 GitHub中找到。

上一篇：機(jī)器學(xué)習(xí)之無(wú)監(jiān)督學(xué)習(xí)：九大聚類(lèi)算法

下一篇：企業(yè)權(quán)衡開(kāi)源生成式AI的風(fēng)險(xiǎn)和收益