在過(guò)去的幾年里,人工智能和機(jī)器學(xué)習(xí)行業(yè)見(jiàn)證了自然語(yǔ)言處理系統(tǒng)的開(kāi)發(fā)和應(yīng)用的迅速崛起,因?yàn)檠芯咳藛T已經(jīng)能夠以高度靈活和任務(wù)無(wú)關(guān)的方式實(shí)施自然語(yǔ)言處理實(shí)踐,以用于下游轉(zhuǎn)移任務(wù)。
最初,它是使用詞向量的單層表示,然后被饋送到特定于任務(wù)的架構(gòu)。接下來(lái),RNN架構(gòu)使用多層表示和上下文狀態(tài)來(lái)形成更好的表示。最近,我們有了轉(zhuǎn)移語(yǔ)言模型或預(yù)訓(xùn)練的循環(huán)模型,通過(guò)微調(diào)這些網(wǎng)絡(luò),完全消除了對(duì)特定于任務(wù)的架構(gòu)的需求。
事實(shí)證明,遷移語(yǔ)言模型是NLP行業(yè)的一個(gè)重大轉(zhuǎn)折點(diǎn),因?yàn)樗鼈冊(cè)诨卮饐?wèn)題、閱讀理解或文本塊、文本蘊(yùn)涵等具有挑戰(zhàn)性的任務(wù)上取得了巨大進(jìn)步。
然而,盡管有其優(yōu)點(diǎn),遷移語(yǔ)言模型也有一個(gè)主要限制,因?yàn)樗鼈冃枰囟ㄓ谌蝿?wù)的微調(diào)或特定于任務(wù)的數(shù)據(jù)集才能實(shí)現(xiàn)任務(wù)所需的性能。此外,遷移語(yǔ)言模型還要求開(kāi)發(fā)人員將數(shù)據(jù)集微調(diào)到針對(duì)特定任務(wù)的數(shù)十萬(wàn)個(gè)示例。
不言而喻,消除對(duì)特定于任務(wù)的數(shù)據(jù)集和特定于任務(wù)的微調(diào)的要求將是非常可取的,并且出于多種原因?qū)LP行業(yè)有利。
現(xiàn)有預(yù)訓(xùn)練遷移語(yǔ)言模型或循環(huán)模型的問(wèn)題
限制實(shí)用性和適用性
首先也是最重要的,每個(gè)任務(wù)對(duì)帶有標(biāo)記數(shù)據(jù)的大型數(shù)據(jù)集的要求限制了語(yǔ)言模型的適用性和實(shí)用性。語(yǔ)言模型可應(yīng)用于各種任務(wù),從生成短篇故事到糾正語(yǔ)法錯(cuò)誤,再到生成概念示例。有時(shí),收集帶有標(biāo)記數(shù)據(jù)的大型監(jiān)督數(shù)據(jù)集是一項(xiàng)具有挑戰(zhàn)性的任務(wù),特別是當(dāng)需要對(duì)每個(gè)單獨(dú)的任務(wù)重復(fù)該過(guò)程時(shí)。
利用訓(xùn)練數(shù)據(jù)中的虛假相關(guān)性
訓(xùn)練分布的局限性和狹窄性加上模型的表達(dá)能力可以導(dǎo)致利用訓(xùn)練數(shù)據(jù)中的虛假相關(guān)性的潛力發(fā)生根本性增長(zhǎng)。利用訓(xùn)練數(shù)據(jù)的潛力可能會(huì)在微調(diào)和預(yù)訓(xùn)練范式期間導(dǎo)致問(wèn)題,因?yàn)檫w移語(yǔ)言模型的設(shè)計(jì)方式是在預(yù)訓(xùn)練期間吸收大量信息。
此外,對(duì)先前模型的研究表明,大型模型不會(huì)每次都產(chǎn)生更好的分布外結(jié)果。此外,還表明,在這種范式下實(shí)現(xiàn)的泛化可能會(huì)導(dǎo)致性能不佳,這主要是因?yàn)樵撃P蛯?duì)于訓(xùn)練數(shù)據(jù)高度特定,并且在超出訓(xùn)練數(shù)據(jù)范圍的情況下無(wú)法表現(xiàn)良好。
與人類學(xué)習(xí)的比較
最后,與遷移語(yǔ)言模型相比,人類在學(xué)習(xí)大多數(shù)語(yǔ)言任務(wù)時(shí)不需要大型訓(xùn)練數(shù)據(jù)集。大多數(shù)情況下,一個(gè)人的自然語(yǔ)言的簡(jiǎn)短指令或一個(gè)語(yǔ)言任務(wù)的小演示就足以讓人們理解并執(zhí)行具有一定競(jìng)爭(zhēng)力的語(yǔ)言任務(wù)。
人類的適應(yīng)能力具有許多實(shí)際優(yōu)勢(shì),因?yàn)樗试S他們?cè)诓煌募寄芙M合之間切換或?qū)⑺鼈兓旌显谝黄?,以便在方言中更好地?zhí)行,這超出了當(dāng)前NLP系統(tǒng)的能力。
使用元學(xué)習(xí)和GPT-3解決問(wèn)題
解決上述挑戰(zhàn)的一個(gè)可能的解決方案是使用元學(xué)習(xí),這是現(xiàn)代機(jī)器學(xué)習(xí)中的一個(gè)概念,它允許模型在訓(xùn)練時(shí)開(kāi)發(fā)更廣泛的技能和識(shí)別模式的能力,然后在干擾期間使用這些學(xué)到的能力來(lái)適應(yīng)快速,或識(shí)別所需的任務(wù)。
元學(xué)習(xí)正在通過(guò)一種稱為“上下文學(xué)習(xí)”的技術(shù)在語(yǔ)言模型架構(gòu)中實(shí)現(xiàn),該技術(shù)使用預(yù)訓(xùn)練語(yǔ)言模型的文本輸入作為任務(wù)規(guī)范。在此過(guò)程中,模型以自然語(yǔ)言指令為條件,甚至可能使用一些演示,然后期望模型通過(guò)預(yù)測(cè)后續(xù)步驟來(lái)完成其余任務(wù)。
元學(xué)習(xí)唯一的主要問(wèn)題是,盡管它顯示出了積極的潛力,但它仍然不如自然語(yǔ)言架構(gòu)中的微調(diào)方法,并且需要進(jìn)一步改進(jìn)才能成為克服語(yǔ)言任務(wù)的實(shí)用方法。
除了元學(xué)習(xí)之外,另一種越來(lái)越流行的方法是增加Transformer語(yǔ)言模型的容量。過(guò)去幾年,遷移模型容量大幅提升,出現(xiàn)了1億參數(shù)的RNSS18模型、3億參數(shù)的DCLT18模型、15億參數(shù)的RWC19模型、80億參數(shù)的SSP19模型、RSR19模型有110億個(gè)參數(shù),TUR20模型有170億個(gè)參數(shù)。
從歷史上看,增加模型的容量或增加參數(shù)會(huì)導(dǎo)致文本合成的改進(jìn),并且有跡象表明與下游任務(wù)相關(guān)的對(duì)數(shù)損失也遵循隨規(guī)模改進(jìn)的平滑趨勢(shì)。
這就引出了GPT-3模型,它擁有超過(guò)1750億個(gè)參數(shù),在它推出時(shí),它是容量最高的傳輸語(yǔ)言模型。現(xiàn)在我們來(lái)談?wù)凣PT-3模型。
GPT-3模型簡(jiǎn)介
GPT-3是OpenAI于2020年發(fā)布的具有超過(guò)1750億個(gè)參數(shù)的自動(dòng)攻擊語(yǔ)言模型。GPT-3也被歸類為大型語(yǔ)言模型,就像其前身GPT-2模型一樣,是僅解碼器的深度學(xué)習(xí)模型Transformer模型使用基于卷積的架構(gòu)來(lái)生成文本數(shù)據(jù)。
GPT-3模型衡量其自身的上下文學(xué)習(xí)能力,并且GPT-3模型在二十多個(gè)NLP數(shù)據(jù)集和多個(gè)新任務(wù)上進(jìn)行評(píng)估。對(duì)于每個(gè)單獨(dú)的任務(wù),GPT-3模型在三種條件下進(jìn)行評(píng)估:
少樣本學(xué)習(xí)或上下文學(xué)習(xí):在少樣本學(xué)習(xí)中,GPT-3模型允許盡可能多的分布能夠很好地適應(yīng)模型的上下文窗口。
一次性學(xué)習(xí):在一次性學(xué)習(xí)中,模型只允許進(jìn)行一次演示。
零樣本學(xué)習(xí):在零樣本學(xué)習(xí)中,沒(méi)有演示,只有自然語(yǔ)言的指令輸入模型。
從廣義上講,GPT-3模型在零樣本和單樣本設(shè)置中實(shí)現(xiàn)了所需的性能,并且在少樣本設(shè)置中,它在大多數(shù)情況下優(yōu)于最先進(jìn)的傳輸模型。此外,GPT-3模型在旨在測(cè)試即時(shí)推理的自然語(yǔ)言任務(wù)中的單次和零次設(shè)置中表現(xiàn)良好,或者需要快速注意,例如在句子后使用新詞、解讀單詞或執(zhí)行算術(shù)操作。另一方面,當(dāng)在幾次鏡頭設(shè)置中運(yùn)行時(shí),GPT-3模型在通過(guò)人類評(píng)估者時(shí)會(huì)生成類似于人類寫作的合成新聞文章。
GPT-3模型:方法
GPT-3模型采用傳統(tǒng)的預(yù)訓(xùn)練方法,包括模型、數(shù)據(jù)和訓(xùn)練,它類似于RWC-19傳輸語(yǔ)言模型的預(yù)訓(xùn)練過(guò)程。GPT-3模型擴(kuò)大了模型規(guī)模、數(shù)據(jù)集規(guī)模、數(shù)據(jù)集的多樣性,并增加了訓(xùn)練周期的長(zhǎng)度。
該模型還使用了上下文學(xué)習(xí)方法,該方法再次類似于RWC-19模型的方法,但通過(guò)系統(tǒng)地探索數(shù)據(jù)集上下文中學(xué)習(xí)模式的不同設(shè)置來(lái)進(jìn)行一些調(diào)整。
因此,讓我們首先探索這些設(shè)置,并評(píng)估GTP-3模型在不同設(shè)置上的表現(xiàn)。
微調(diào)
微調(diào)模型一直是遷移語(yǔ)言模型中的傳統(tǒng)方法,這種方法涉及通過(guò)在特定于所需任務(wù)的監(jiān)督數(shù)據(jù)集和數(shù)十萬(wàn)個(gè)標(biāo)記示例上訓(xùn)練模型來(lái)更新預(yù)訓(xùn)練模型的權(quán)重過(guò)程中會(huì)用到。
微調(diào)方法是有益的,因?yàn)樗梢栽诒姸嗷鶞?zhǔn)測(cè)試中返回強(qiáng)勁的性能。另一方面,使用微調(diào)方法的主要限制是,它需要為每個(gè)單獨(dú)的任務(wù)提供一個(gè)新的大型數(shù)據(jù)集,有可能利用訓(xùn)練數(shù)據(jù)集的虛假特征,可能會(huì)導(dǎo)致與人類表現(xiàn)的不公平比較,并且對(duì)于分布外的泛化能力較差。
盡管未來(lái)可以將微調(diào)應(yīng)用于GPT-3模型,但由于其與任務(wù)無(wú)關(guān)的性能,GPT-3模型的當(dāng)前范圍并未實(shí)現(xiàn)微調(diào)方法。
幾槍
Few Shot是一個(gè)術(shù)語(yǔ),指的是GPT-3模型在干擾期間作為調(diào)節(jié)進(jìn)行幾次任務(wù)演示,但模型的權(quán)重不更新的設(shè)置。在少數(shù)鏡頭設(shè)置中,數(shù)據(jù)集通常包含一個(gè)帶有上下文的示例和所需的完成(例如,法語(yǔ)句子及其英語(yǔ)翻譯)。少數(shù)鏡頭設(shè)置為模型提供了K個(gè)上下文和補(bǔ)全示例,然后為模型提供了一個(gè)最終上下文,并期望模型提供補(bǔ)全。
使用少量鏡頭設(shè)置的主要優(yōu)點(diǎn)是,它顯著減少了對(duì)特定于任務(wù)的數(shù)據(jù)的需求,并且還降低了從經(jīng)過(guò)微調(diào)的大型數(shù)據(jù)集學(xué)習(xí)窄分布的可能性。另一方面,使用少樣本學(xué)習(xí)的主要缺點(diǎn)是,在少樣本設(shè)置中提供的結(jié)果不符合標(biāo)準(zhǔn),并且與其他經(jīng)過(guò)微調(diào)的最先進(jìn)模型相比,結(jié)果明顯較差。
一槍
在單鏡頭設(shè)置中,僅為模型提供單次演示,其余與少鏡頭設(shè)置類似。單一鏡頭設(shè)置與遷移語(yǔ)言模型相關(guān)的原因是,在所有三種設(shè)置中,單一鏡頭是最接近人類向人類傳達(dá)任務(wù)的方式的一種。這是因?yàn)樵诖蠖鄶?shù)任務(wù)中,通常都會(huì)對(duì)任務(wù)進(jìn)行一次演示,否則可能很難理解任務(wù)的上下文。
零射擊
在零樣本設(shè)置中,沒(méi)有演示,并且向模型提供描述任務(wù)的自然語(yǔ)言指令。零樣本方法是一種提供最大便利性、穩(wěn)健性并且還可以避免虛假相關(guān)性的方法,但它也是所有三種設(shè)置中最具挑戰(zhàn)性的。這是因?yàn)樵谀承┣闆r下,即使我們?nèi)祟愒诓幌瓤吹窖菔镜那闆r下也很難弄清楚任務(wù)的背景。
無(wú)論如何,對(duì)于某些任務(wù),零樣本設(shè)置是最接近人類執(zhí)行自然語(yǔ)言任務(wù)的方式。
上圖比較了在執(zhí)行獲取英語(yǔ)句子并將其翻譯成法語(yǔ)的自然語(yǔ)言任務(wù)時(shí)的少數(shù)鏡頭、一次鏡頭和零鏡頭設(shè)置。
GPT-3:模型架構(gòu)
GPT-3模型使用與GPT-2模型中使用的架構(gòu)相同的架構(gòu),它包括預(yù)歸一化、修改初始化和可逆標(biāo)記化技術(shù),與GPT模型上使用的技術(shù)相同,但使用替代方法局部帶狀稀疏注意力模式的策略,以及變壓器層中交替密集層的策略,類似于稀疏變壓器。
為了研究模型性能對(duì)模型大小的依賴性,開(kāi)發(fā)人員訓(xùn)練了8種不同的模型大小,范圍涵蓋從1.25億到超過(guò)1750億個(gè)參數(shù)的三個(gè)不同數(shù)量級(jí),其中最后一個(gè)被稱為GPT-3模型。與LLM模型相關(guān)的先前工作表明,使用足夠量的訓(xùn)練數(shù)據(jù)來(lái)縮放驗(yàn)證損失應(yīng)該是作為大小的函數(shù)的近似平滑冪律。不同大小的訓(xùn)練模型允許開(kāi)發(fā)人員測(cè)試下游語(yǔ)言任務(wù)以及驗(yàn)證損失的假設(shè)。
上圖比較了用于開(kāi)發(fā)GPT-3的8種不同模型的大小和架構(gòu)。這里,n(params)定義了可訓(xùn)練模式的總數(shù),n(layers)定義了模型中的總層數(shù),d(model)定義了瓶頸每層的單元數(shù),d(head)定義了每個(gè)注意力頭的尺寸。每個(gè)模型的上下文窗口都是相同的,有2048個(gè)標(biāo)記。
此外,為了最大限度地減少節(jié)點(diǎn)之間的數(shù)據(jù)傳輸,模型沿著維度的深度和寬度在GPU上進(jìn)行分區(qū)。每個(gè)模型的架構(gòu)參數(shù)都是根據(jù)計(jì)算效率和負(fù)載平衡來(lái)選擇的,以最大限度地提高跨GPU模型布局的精度。
訓(xùn)練數(shù)據(jù)集
通常,大型語(yǔ)言模型使用的數(shù)據(jù)集隨著最近的發(fā)展而顯著擴(kuò)展,并且最終形成包含超過(guò)一萬(wàn)億個(gè)不同單詞的Common Crawl數(shù)據(jù)集。數(shù)據(jù)集的大小足以訓(xùn)練GPT-3模型,而無(wú)需多次更新同一序列。然而,研究和性能分析表明,與經(jīng)過(guò)精心策劃的數(shù)據(jù)集相比,Common Crawl數(shù)據(jù)集的輕度過(guò)濾版本或未過(guò)濾版本的質(zhì)量較低。
為了解決數(shù)據(jù)集平均質(zhì)量的問(wèn)題,開(kāi)發(fā)人員采取了3個(gè)步驟來(lái)提高數(shù)據(jù)集的質(zhì)量。
開(kāi)發(fā)人員根據(jù)類似于高質(zhì)量參考語(yǔ)料庫(kù)的范圍下載并過(guò)濾了Common Crawl數(shù)據(jù)集的版本。
開(kāi)發(fā)人員在整個(gè)數(shù)據(jù)集的文檔級(jí)別執(zhí)行模糊復(fù)制,試圖保持其保留驗(yàn)證集的完整性,作為過(guò)度擬合的有效度量,并防止冗余。
開(kāi)發(fā)人員還在訓(xùn)練數(shù)據(jù)中添加了高質(zhì)量的參考語(yǔ)料庫(kù),以擴(kuò)充Common Crawl數(shù)據(jù)集,并進(jìn)一步增加數(shù)據(jù)集的多樣性。
下圖顯示了用于訓(xùn)練GPT-3模型的數(shù)據(jù)集的最終比例或混合。Common Crawl數(shù)據(jù)在過(guò)濾前包含超過(guò)45TB的明文,過(guò)濾后減少到570GB的數(shù)據(jù),大致相當(dāng)于超過(guò)4000億字節(jié)對(duì)編碼的令牌。值得注意的是,訓(xùn)練中被視為較高質(zhì)量的數(shù)據(jù)集會(huì)以更高的頻率進(jìn)行采樣,而不是按照數(shù)據(jù)集大小的比例進(jìn)行采樣。因此,像Books2和CommonCrawl這樣的數(shù)據(jù)集在訓(xùn)練期間采樣次數(shù)少于一次,而其他數(shù)據(jù)集則采樣多次。它允許模型接受少量的過(guò)擬合,以換取更高質(zhì)量的訓(xùn)練數(shù)據(jù)的訓(xùn)練。
對(duì)于在大量互聯(lián)網(wǎng)數(shù)據(jù)上預(yù)先訓(xùn)練并具有記憶和學(xué)習(xí)大量?jī)?nèi)容的能力的大型語(yǔ)言模型,一個(gè)重要的擔(dān)憂是,在預(yù)訓(xùn)練過(guò)程中看到其開(kāi)發(fā)或測(cè)試集,可能會(huì)污染下游任務(wù)。培訓(xùn)過(guò)程。為了減少這種潛在的污染,開(kāi)發(fā)人員搜索了與GPT-3研究的基準(zhǔn)測(cè)試和開(kāi)發(fā)集的任何重疊部分,并嘗試消除這些重疊部分。
上圖顯示了GPT-3模型訓(xùn)練期間使用的總計(jì)算量。該模型使用神經(jīng)語(yǔ)言模型的縮放定律在比典型模型更少的標(biāo)記上訓(xùn)練更大的模型。因此,GPT-3和RoBERTa-Large模型(比GPT-3模型小10倍)在預(yù)訓(xùn)練過(guò)程中每天需要進(jìn)行近50 petaflops的計(jì)算。
評(píng)估
對(duì)于少數(shù)鏡頭學(xué)習(xí),模型通過(guò)從該任務(wù)的訓(xùn)練數(shù)據(jù)集中隨機(jī)抽取K個(gè)示例作為條件來(lái)評(píng)估評(píng)估數(shù)據(jù)集中存在的每個(gè)示例,并根據(jù)任務(wù)用1或2個(gè)換行符對(duì)其進(jìn)行分隔。對(duì)于Storycloze和LAMBADA,由于缺乏監(jiān)督訓(xùn)練集,該模型從開(kāi)發(fā)集中提取條件示例并在測(cè)試集上對(duì)其進(jìn)行評(píng)估。對(duì)于Winograd,僅存在一個(gè)數(shù)據(jù)集,因此直接從其中提取調(diào)節(jié)樣本。
K可以是從0到模型上下文窗口允許的最大量的任何值,對(duì)于所有模型來(lái)說(shuō),next=2048,通常適合大約10到100個(gè)示例。較大的K值通常會(huì)產(chǎn)生更好的結(jié)果,但并不總是如此,這就是為什么當(dāng)模型有測(cè)試集和單獨(dú)的開(kāi)發(fā)集可用時(shí),模型會(huì)在開(kāi)發(fā)集上對(duì)幾個(gè)K值進(jìn)行實(shí)驗(yàn),并基于結(jié)果,它在測(cè)試集上運(yùn)行最佳值。
此外,對(duì)于需要從多個(gè)選項(xiàng)中選擇正確完成的任務(wù),開(kāi)發(fā)人員提供了K個(gè)校正示例加上上下文完成,然后僅提供一個(gè)上下文示例,然后根據(jù)LM似然對(duì)任務(wù)進(jìn)行比較每次完成。對(duì)于需要二元分類的任務(wù),模型通常會(huì)給出更語(yǔ)義化的選項(xiàng),并使用更有意義的名稱,然后將任務(wù)視為多項(xiàng)選擇,有時(shí)還會(huì)構(gòu)建類似于RSR模型和架構(gòu)所做的任務(wù)。
對(duì)于需要自由形式完成的任務(wù),該模型使用波束搜索,其參數(shù)與RSR框架中使用的參數(shù)相同,波束長(zhǎng)度為4,懲罰為0.6。然后根據(jù)數(shù)據(jù)集的標(biāo)準(zhǔn),使用F1相似度得分、精確匹配或BLEU對(duì)模型進(jìn)行評(píng)分。
結(jié)果
上圖顯示了GPT-3模型架構(gòu)中使用的8個(gè)模型的訓(xùn)練曲線,如前幾節(jié)所述。與KMH語(yǔ)言模型的結(jié)果類似,GPT-3模型在有效使用訓(xùn)練計(jì)算時(shí)的性能遵循適當(dāng)?shù)囊?guī)律。只有當(dāng)趨勢(shì)再延長(zhǎng)兩個(gè)數(shù)量級(jí)時(shí),與定律才會(huì)有細(xì)微的差別。人們可能會(huì)想到,交叉熵?fù)p失的改進(jìn)可能是對(duì)訓(xùn)練語(yǔ)料庫(kù)的虛假細(xì)節(jié)進(jìn)行建模的結(jié)果。然而,交叉熵?fù)p失的改進(jìn)導(dǎo)致各種NLP任務(wù)的整體性能持續(xù)提高。
在對(duì)廣泛的訓(xùn)練數(shù)據(jù)評(píng)估8個(gè)不同的模型之前,數(shù)據(jù)集被分為代表相似任務(wù)的8個(gè)不同類別。這些類別是
對(duì)傳統(tǒng)語(yǔ)言建模任務(wù)以及類似于語(yǔ)言建模的任務(wù)(如完形填空任務(wù)或句子/段落完成任務(wù))的評(píng)估。
“閉卷”問(wèn)答任務(wù)評(píng)價(jià)。
評(píng)估模型在語(yǔ)言之間翻譯的能力(尤其是一次性和幾次)
評(píng)估模型在類似Winograd Schema的任務(wù)上的性能。
評(píng)估涉及常識(shí)推理或問(wèn)題回答的數(shù)據(jù)集。
評(píng)估閱讀理解任務(wù)。
在SuperGLUE基準(zhǔn)套件上進(jìn)行評(píng)估。
探索NLI。
語(yǔ)言建模、完成和完形填空任務(wù)
在本節(jié)中,GPT-3模型的性能在傳統(tǒng)語(yǔ)言建模任務(wù)以及需要預(yù)測(cè)感興趣的單個(gè)單詞、或完成一個(gè)段落或一個(gè)句子、或完成一段文本的任務(wù)上進(jìn)行評(píng)估。讓我們簡(jiǎn)單詳細(xì)地討論一下它們。
語(yǔ)言建模
GPT-3模型計(jì)算PTB或Penn Tree Bank數(shù)據(jù)集上的零樣本困惑度。該模型省略了與維基百科相關(guān)的任務(wù),因?yàn)樗呀?jīng)包含在模型的訓(xùn)練數(shù)據(jù)中,并且還省略了10億字基準(zhǔn),因?yàn)樗鼤?huì)導(dǎo)致訓(xùn)練數(shù)據(jù)中的數(shù)據(jù)集產(chǎn)生大量摩擦。然而,PTB數(shù)據(jù)集解決了這些問(wèn)題,因?yàn)樗梢栽缬诂F(xiàn)代互聯(lián)網(wǎng)。GPT-3模型架構(gòu)中最大的模型在PTB數(shù)據(jù)集上取得了新的SOTA,顯著提升了15個(gè)百分點(diǎn),并實(shí)現(xiàn)了20.50的困惑度。
蘭巴達(dá)
LAMBADA數(shù)據(jù)集用于測(cè)試模型對(duì)段落或文本中的遠(yuǎn)程依賴關(guān)系的建模。這意味著模型被要求在閱讀上下文的段落后預(yù)測(cè)句子的最后一個(gè)單詞。此外,語(yǔ)言模型的不斷擴(kuò)展會(huì)導(dǎo)致基準(zhǔn)測(cè)試的回報(bào)遞減。
GPT-3模型在LAMBADA上實(shí)現(xiàn)了76%的準(zhǔn)確率,比之前最好的模型有8%以上的增益。此外,LAMBADA模型展示了小樣本學(xué)習(xí)的靈活性,因?yàn)樗詳?shù)據(jù)集的經(jīng)典方式解決了問(wèn)題。LAMBADA中句子的完成通常是句子的最后一個(gè)單詞,但由于語(yǔ)言模型無(wú)法知道這一點(diǎn),因此它不僅為正確的結(jié)尾分配概率,還為段落中的其他延續(xù)分配概率。
此外,當(dāng)以某種方式修改輸入到GPT-3模型的示例時(shí),該模型返回的準(zhǔn)確率超過(guò)86%,比之前的模型提高了18%以上。此外,結(jié)果還表明,模型在幾次拍攝設(shè)置中的性能隨著模型尺寸的增加而成比例增加。盡管該策略將GPT-3架構(gòu)中的最小模型縮小了20%,但它卻將具有1750億個(gè)參數(shù)的主GPT-3模型的精度提高了10%。
閉卷問(wèn)答
閉卷問(wèn)答是衡量GPT-3模型基于廣泛事實(shí)知識(shí)回答問(wèn)題的能力的一種嘗試。由于此類問(wèn)題通常有大量可能的查詢,因此該任務(wù)通常是使用信息檢索系統(tǒng)來(lái)實(shí)現(xiàn)的,該系統(tǒng)允許模型結(jié)合模型查找相關(guān)文本,該模型學(xué)習(xí)根據(jù)檢索到的文本生成對(duì)答案的響應(yīng),并且的問(wèn)題。
上圖比較了GPT-3模型與不同模型以及在不同數(shù)據(jù)集上運(yùn)行的結(jié)果。在TriviaQA數(shù)據(jù)集上,該模型在零樣本設(shè)置中達(dá)到了64.3%的準(zhǔn)確率,而在單樣本和少樣本設(shè)置中分別達(dá)到了68%和71.2%的準(zhǔn)確率。
可以明顯看出,零樣本設(shè)置下的GPT-3模型比微調(diào)后的T5-11B模型優(yōu)于14%以上。
上圖顯示,GPT-3模型的性能隨著模型尺寸的增加而平穩(wěn)增長(zhǎng)。性能表明,隨著語(yǔ)言模型容量的增加,它們會(huì)繼續(xù)從數(shù)據(jù)集中學(xué)習(xí)。
最后的想法
可以肯定地說(shuō),GPT-3是LLM行業(yè)的一個(gè)革命性階段,因?yàn)镚PT-3幫助突破了語(yǔ)言模型的極限。正是GPT-3取得的進(jìn)展和克服的障礙為迄今為止最先進(jìn)、最準(zhǔn)確的大型語(yǔ)言模型GPT-4鋪平了道路。