谷歌：大模型不僅有涌現(xiàn)能力，訓(xùn)練時間長了還有「領(lǐng)悟」能力

沃卡惠
行業(yè)資訊
2023-08-15 09:12:27
282

2021年，研究人員在訓(xùn)練一系列微型模型時取得了一個驚人的發(fā)現(xiàn)，即模型經(jīng)過長時間的訓(xùn)練后，會有一個變化，從開始只會「記憶訓(xùn)練數(shù)據(jù)」，轉(zhuǎn)變?yōu)閷]見過的數(shù)據(jù)也表現(xiàn)出很強(qiáng)的泛化能力。

這種現(xiàn)象被稱為「領(lǐng)悟（grokking）」，如下圖所示，模型在長時間擬合訓(xùn)練數(shù)據(jù)后，「領(lǐng)悟」現(xiàn)象會突然出現(xiàn)。

既然微型模型有這種特性，那么更復(fù)雜一點的模型在經(jīng)過更長時間的訓(xùn)練后，是否也會突然出現(xiàn)「領(lǐng)悟」現(xiàn)象？最近大型語言模型（LLM）發(fā)展迅猛，它們看起來對世界有著豐富的理解力，很多人認(rèn)為LLM只是在重復(fù)所記憶的訓(xùn)練內(nèi)容，這一說法正確性如何，我們該如何判斷LLM是輸出記憶內(nèi)容，還是對輸入數(shù)據(jù)進(jìn)行了很好的泛化？

為了更好的了解這一問題，本文來自谷歌的研究者撰寫了一篇博客，試圖弄清楚大模型突然出現(xiàn)「領(lǐng)悟」現(xiàn)象的真正原因。

本文先從微型模型的訓(xùn)練動態(tài)開始，他們設(shè)計了一個具有24個神經(jīng)元的單層MLP，訓(xùn)練它們學(xué)會做模加法（modular addition）任務(wù)，我們只需知道這個任務(wù)的輸出是周期性的，其形式為(a+b)mod n。

MLP模型權(quán)重如下圖所示，研究發(fā)現(xiàn)模型的權(quán)重最初非常嘈雜，但隨著時間的增加，開始表現(xiàn)出周期性。

如果將單個神經(jīng)元的權(quán)重可視化，這種周期性變化更加明顯：

別小看周期性，權(quán)重的周期性表明該模型正在學(xué)習(xí)某種數(shù)學(xué)結(jié)構(gòu)，這也是模型從記憶數(shù)據(jù)轉(zhuǎn)變?yōu)榫哂蟹夯芰Φ年P(guān)鍵。很多人對這一轉(zhuǎn)變感到迷惑，為什么模型會從記憶數(shù)據(jù)模式轉(zhuǎn)變?yōu)榉夯瘮?shù)據(jù)模式。

用01序列進(jìn)行實驗

為了判斷模型是在泛化還是記憶，該研究訓(xùn)練模型預(yù)測30個1和0隨機(jī)序列的前三位數(shù)字中是否有奇數(shù)個1。例如000110010110001010111001001011為0，而010110010110001010111001001011為1。這基本就是一個稍微棘手的XOR運算問題，帶有一些干擾噪聲。如果模型在泛化，那么應(yīng)該只使用序列的前三位數(shù)字；而如果模型正在記憶訓(xùn)練數(shù)據(jù)，那么它還會使用后續(xù)數(shù)字。

該研究使用的模型是一個單層MLP，在1200個序列的固定批上進(jìn)行訓(xùn)練。起初，只有訓(xùn)練準(zhǔn)確率有所提高，即模型會記住訓(xùn)練數(shù)據(jù)。與模運算一樣，測試準(zhǔn)確率本質(zhì)上是隨機(jī)的，隨著模型學(xué)會通用解決方案而急劇上升。

通過01序列問題這個簡單的示例，我們可以更容易地理解為什么會發(fā)生這種情況。原因就是模型在訓(xùn)練期間會做兩件事：最小化損失和權(quán)重衰減。在模型泛化之前，訓(xùn)練損失實際上會略有增加，因為它交換了與輸出正確標(biāo)簽相關(guān)的損失，以獲得較低的權(quán)重。

測試損失的急劇下降使得模型看起來像是突然泛化，但如果查看模型在訓(xùn)練過程中的權(quán)重，大多數(shù)模型都會在兩個解之間平滑地插值。當(dāng)與后續(xù)分散注意力的數(shù)字相連的最后一個權(quán)重通過權(quán)重衰減被修剪時，快速泛化就會發(fā)生。

「領(lǐng)悟」現(xiàn)象是什么時候發(fā)生的？

值得注意的是，「領(lǐng)悟（grokking）」是一種偶然現(xiàn)象——如果模型大小、權(quán)重衰減、數(shù)據(jù)大小和其他超參數(shù)不合適，「領(lǐng)悟」現(xiàn)象就會消失。如果權(quán)重衰減太少，模型就會對訓(xùn)練數(shù)據(jù)過渡擬合。如果權(quán)重衰減過多，模型將無法學(xué)到任何東西。

下面，該研究使用不同的超參數(shù)針對1和0任務(wù)訓(xùn)練了1000多個模型。訓(xùn)練過程充滿噪音，因此針對每組超參數(shù)訓(xùn)練了九個模型。表明只有兩類模型出現(xiàn)「領(lǐng)悟」現(xiàn)象，藍(lán)色和黃色。

具有五個神經(jīng)元的模塊化加法

模加法a+b mod 67是周期性的，如果總和超過67，則答案會產(chǎn)生環(huán)繞現(xiàn)象，可以用一個圓來表示。為了簡化問題，該研究構(gòu)建了一個嵌入矩陣，使用cos?和sin?將a和b放置在圓上，表示為如下形式。

結(jié)果表明，模型僅用5個神經(jīng)元就可以完美準(zhǔn)確地找到解決方案：

觀察經(jīng)過訓(xùn)練的參數(shù)，研究團(tuán)隊發(fā)現(xiàn)所有神經(jīng)元都收斂到大致相等的范數(shù)。如果直接繪制它們的cos?和sin?分量，它們基本上均勻分布在一個圓上。

接下來是，它是從頭開始訓(xùn)練的，沒有內(nèi)置周期性，這個模型有很多不同的頻率。

該研究使用離散傅立葉變換(DFT)分離出頻率。就像在1和0任務(wù)中一樣，只有幾個權(quán)重起到關(guān)鍵作用：

下圖表明，在不同的頻率，模型也能實現(xiàn)「領(lǐng)悟」：

開放問題

現(xiàn)在，雖然我們對單層MLP解決模加法的機(jī)制及其在訓(xùn)練過程中出現(xiàn)的原因有了扎實的了解，但在記憶和泛化方面仍有許多有趣的開放性問題。

哪種模型的約束效果更好呢？

從廣義上講，權(quán)重衰減的確可以引導(dǎo)各種模型避免記憶訓(xùn)練數(shù)據(jù)。其他有助于避免過擬合的技術(shù)包括dropout、縮小模型，甚至數(shù)值不穩(wěn)定的優(yōu)化算法。這些方法以復(fù)雜的非線性方式相互作用，因此很難先驗地預(yù)測哪種方法最終會誘導(dǎo)泛化。

此外，不同的超參數(shù)也會使改進(jìn)不那么突然。

為什么記憶比泛化更容易？

有一種理論認(rèn)為：記憶訓(xùn)練集的方法可能比泛化解法多得多。因此，從統(tǒng)計學(xué)上講，記憶應(yīng)該更有可能首先發(fā)生，尤其是在沒有正則化或正則化很少的情況中。正則化技術(shù)（如權(quán)重衰減）會優(yōu)先考慮某些解決方案，例如，優(yōu)先考慮「稀疏」解決方案，而不是「密集」解決方案。

研究表明，泛化與結(jié)構(gòu)良好的表征有關(guān)。然而，這不是必要條件；在求解模加法時，一些沒有對稱輸入的MLP變體學(xué)習(xí)到的「循環(huán)」表征較少。研究團(tuán)隊還發(fā)現(xiàn)，結(jié)構(gòu)良好的表征并不是泛化的充分條件。這個小模型（訓(xùn)練時沒有權(quán)重衰減）開始泛化，然后轉(zhuǎn)為使用周期性嵌入的記憶。

在下圖中可以看到，如果沒有權(quán)重衰減，記憶模型可以學(xué)習(xí)更大的權(quán)重來減少損失。

甚至可以找到模型開始泛化的超參數(shù)，然后切換到記憶，然后切換回泛化。

較大的模型呢？

理解模加法的解決方案并非易事。我們有希望理解更大的模型嗎？在這條路上可能需要：

訓(xùn)練更簡單的模型，具有更多的歸納偏差和更少的運動部件。

使用它們來解釋更大模型如何工作的費解部分。

按需重復(fù)。

研究團(tuán)隊相信，這可能是一種更好地有效理解大型模型的的方法，此外，隨著時間的推移，這種機(jī)制化的可解釋性方法可能有助于識別模式，從而使神經(jīng)網(wǎng)絡(luò)所學(xué)算法的揭示變得容易甚至自動化。

上一篇：人工智能犯過哪些搞笑的錯誤？

下一篇：10種生成式人工智能顛覆傳統(tǒng)數(shù)據(jù)庫的方式