邻居一晚让我高潮3次正常吗,人妻丰满熟妇AV无码区动漫,乱LUN合集1第40部分阅读,精品无码国产一区二区三区51安

當(dāng)前位置:首頁(yè) > 最新資訊 > 行業(yè)資訊

僅需格式轉(zhuǎn)換提升9%數(shù)學(xué)推理能力,上交開(kāi)源新對(duì)齊方法ReAlign

大模型對(duì)齊新方法,讓數(shù)學(xué)推理能力直接提升9%。

上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室(GAIR Lab)新成果ReAlign,現(xiàn)已開(kāi)源。

圖片

隨著以ChatGPT為代表的語(yǔ)言大模型的快速發(fā)展,研究人員意識(shí)到訓(xùn)練數(shù)據(jù)的質(zhì)量才是大模型對(duì)齊的關(guān)鍵。

然而,目前主流的提示數(shù)據(jù)質(zhì)量的方法不是需要大量人工成本(人工構(gòu)造高質(zhì)量數(shù)據(jù))就是容易遭受大模型幻覺(jué)的影響(從蒸餾數(shù)據(jù)中選擇高質(zhì)量樣本)。

ReAlign能以較小的人工成本提升現(xiàn)有數(shù)據(jù)集的質(zhì)量,進(jìn)而提升模型整體對(duì)齊能力,包含數(shù)學(xué)推理能力、回答問(wèn)題的事實(shí)性、回答的可讀性。

目前,該項(xiàng)目開(kāi)源了大量資源:

ReAlign代碼(使用方法和步驟均在Github中給出)

ReAlign后的數(shù)據(jù)集,Github倉(cāng)庫(kù)中給出,同時(shí)包含huggingface版本。

46個(gè)不同任務(wù)場(chǎng)景對(duì)應(yīng)的任務(wù)描述以及人工構(gòu)造的回答格式。

用于對(duì)指令數(shù)據(jù)任務(wù)分類(lèi)的分類(lèi)器以及該分類(lèi)器的訓(xùn)練數(shù)據(jù)。

用于事實(shí)性(Factuality)評(píng)估的NQ數(shù)據(jù)集及其ground truth。

用于可讀性(Readability)和事實(shí)性(Factuality)評(píng)估的prompt。

該方法有如下優(yōu)勢(shì):

可以顯著提升數(shù)學(xué)推理能力:LLaMA-2-13B在GSM8K上的數(shù)學(xué)推理能力從46.77%提升到了56.63%。

同時(shí)具備顯著的OOD泛化能力:在MATH上訓(xùn)練,LLaMA-2-13B在GSM8K上從14.48%提升到了25.17%。

圖片

該方法與其他對(duì)齊技術(shù)(如SFT、DPO、指令數(shù)據(jù)構(gòu)造方法等)垂直,即可以在現(xiàn)有技術(shù)的基礎(chǔ)上去進(jìn)一步提升大模型性能。

該方法所得到的模型在回答問(wèn)題時(shí)具備更易讀、組織格式更優(yōu)良、原因解釋更細(xì)致等優(yōu)點(diǎn),可以顯著提升可讀性與數(shù)學(xué)推理能力。

該方法在針對(duì)知識(shí)密集型任務(wù)時(shí)采用了檢索增強(qiáng)技術(shù),可以有效提升模型的事實(shí)性,減少了幻覺(jué)帶來(lái)的影響。

該文章也指出ReAlign的底層邏輯是重新協(xié)調(diào)人類(lèi)與大模型在對(duì)齊過(guò)程中的角色,利用他們之間互補(bǔ)的優(yōu)勢(shì),讓人類(lèi)去明確指定自己的偏好,而大模型采用自己強(qiáng)大的生成能力去按照人類(lèi)指定偏好重構(gòu)回答,并不會(huì)蒸餾大模型本身的知識(shí)(避免幻覺(jué)問(wèn)題)。

示例

下圖示例1展示了ReAlign用于一個(gè)數(shù)學(xué)任務(wù)訓(xùn)練數(shù)據(jù)后的效果,可以看出ReAlign后的回答格式更加清晰易讀。

圖片

下圖示例2展示了采用原始數(shù)據(jù)集訓(xùn)練后的模型與采用ReAlign的數(shù)據(jù)集訓(xùn)練后的模型在回答問(wèn)題上的差異,紅色字體高亮了原始回答較弱的部分,綠色字體高亮了ReAlign后的模型回答較強(qiáng)的部分。

圖片

方法

該方法流程示意圖如下:

圖片
該方法分為3個(gè)模塊:準(zhǔn)則定義、檢索增強(qiáng)、和格式重構(gòu)。

1、準(zhǔn)則定義

該預(yù)定義準(zhǔn)則包含任務(wù)和相應(yīng)的格式。

任務(wù)

該文章作者人工定義了46個(gè)任務(wù),可以歸為10個(gè)大類(lèi),具體分類(lèi)情況如下表所示:

圖片

同時(shí),作者針對(duì)這46個(gè)任務(wù)訓(xùn)練了一個(gè)任務(wù)分類(lèi)器。

格式

由于不同任務(wù)對(duì)于格式的需求是不一樣的,因此作者針對(duì)這46種任務(wù)精心設(shè)計(jì)了46個(gè)回答格式,包含組織結(jié)構(gòu)、章節(jié)內(nèi)容要求和輸出形態(tài)。這樣特定的格式相比通用格式更清晰易讀,下表示例為郵件生成任務(wù)的格式:

圖片

2、檢索增強(qiáng)

知識(shí)密集型任務(wù)如開(kāi)放域問(wèn)答和事實(shí)驗(yàn)證任務(wù),需要大量外部知識(shí)作為證據(jù)來(lái)確?;卮鸬氖聦?shí)性。

因此作者選擇了5個(gè)知識(shí)密集型任務(wù),針對(duì)這些任務(wù)的問(wèn)題,先去調(diào)用谷歌搜索的API得到對(duì)應(yīng)證據(jù),用于后續(xù)改寫(xiě)。以下是一個(gè)檢索增強(qiáng)的示例,可以看出有了檢索增強(qiáng)后的ReAlign可以給出具備事實(shí)性的詳細(xì)解釋?zhuān)?/p>

圖片

3、格式重構(gòu)

重寫(xiě)

作者利用大模型(比如ChatGPT)基于之前定義的準(zhǔn)則和檢索到的證據(jù)(對(duì)于知識(shí)密集型任務(wù))來(lái)重新改寫(xiě)原數(shù)據(jù)集中的回答。具體來(lái)說(shuō),是通過(guò)提示將問(wèn)題、原始回答、格式要求和證據(jù)(對(duì)于知識(shí)密集型任務(wù))進(jìn)行組織,然后詢(xún)問(wèn)大模型得到重寫(xiě)后的回答。此外,由于一些問(wèn)題有特定的格式要求,因此作者采用了自適應(yīng)改寫(xiě),即先讓大模型判斷該問(wèn)題與給定的格式是否匹配,若匹配則改寫(xiě),否則保留原始回答。

此外,作者認(rèn)為一些特定任務(wù)不應(yīng)有特定格式要求,例如故事生成、詩(shī)歌生成等,因此作者對(duì)這類(lèi)任務(wù)并沒(méi)有采用格式重構(gòu)(具體可看論文)。

后處理

長(zhǎng)度過(guò)濾:作者發(fā)現(xiàn)大模型在改寫(xiě)回答的時(shí)候偶爾會(huì)只輸出做了改變的句子,這種情況下長(zhǎng)度會(huì)銳減。因此,作者將改寫(xiě)后長(zhǎng)度小于原始回答一半的數(shù)據(jù)保留其原始回答不改變。

基于任務(wù)的過(guò)濾:作者發(fā)現(xiàn)任務(wù)分類(lèi)器有時(shí)候會(huì)導(dǎo)致錯(cuò)誤傳播,因此針對(duì)以下3個(gè)任務(wù)設(shè)計(jì)了特定過(guò)濾規(guī)則:

代碼相關(guān)任務(wù):通過(guò)關(guān)鍵詞匹配確定改寫(xiě)前后的回答是否均包含代碼,如果其中一方不包含代碼則認(rèn)為改寫(xiě)失敗,進(jìn)而保留原始回答。

考題任務(wù):匹配改寫(xiě)前后的答案是否一致,若不一致則認(rèn)為改寫(xiě)失敗,保留原始回答。

計(jì)劃任務(wù):如果問(wèn)題中不包含計(jì)劃相關(guān)的關(guān)鍵詞,則不采納改寫(xiě)的回答,保留原始回答。

實(shí)驗(yàn)與結(jié)果

作者在5個(gè)數(shù)據(jù)集(Open-Platypus、No Robots、Alpaca、GSM8K、MATH)和2個(gè)模型(LLaMA-2-13B和Mistral-7B)上做了實(shí)驗(yàn)。

作者首先在AlpacaEval、MT-Bench、Vicuna-Bench上測(cè)試了通用對(duì)齊能力,結(jié)果如下表所示,發(fā)現(xiàn)除了部分MT-Bench的第二輪對(duì)話(huà)性能下降,其他均有提升,證明了對(duì)回答格式重構(gòu)可以有效提升對(duì)齊能力。

圖片

隨后,作者測(cè)試該方法對(duì)數(shù)學(xué)推理能力的影響,其在GSM8K和MATH兩個(gè)常用數(shù)學(xué)數(shù)據(jù)集上進(jìn)行測(cè)試。結(jié)果如下表所示,可以看到該方法可以顯著提升數(shù)學(xué)推理能力,甚至可以得到9-10個(gè)點(diǎn)的提升。

此外,還具有顯著的OOD泛化能力,例如LLaMA-2-13B在MATH上訓(xùn)練,在GSM8K上測(cè)試可以提升10個(gè)點(diǎn)以上。作者認(rèn)為這樣的提升可能是因?yàn)楦袷街貥?gòu)后帶來(lái)了更多以及更清晰的中間步驟和解釋?zhuān)M(jìn)而提升了模型的數(shù)學(xué)推理能力。

圖片

接下來(lái),作者構(gòu)造了一個(gè)評(píng)測(cè)標(biāo)準(zhǔn)去測(cè)試模型的事實(shí)性(Factuality),他們從帶有正確答案的NQ數(shù)據(jù)集中隨機(jī)篩選了100條數(shù)據(jù)。

隨后用訓(xùn)練好的模型去回答這100個(gè)問(wèn)題,得到模型的回答,接下來(lái)采用一個(gè)提示模版將問(wèn)題、答案和模型的回答組織起來(lái),讓GPT-4為該回答與正確答案的符合程度進(jìn)行打分作為事實(shí)性分?jǐn)?shù)。

測(cè)評(píng)結(jié)果如下圖所示,可以看到在這三個(gè)數(shù)據(jù)集上事實(shí)性均有提升,作者認(rèn)為是檢索增強(qiáng)帶來(lái)的效果。

圖片

此外,作者還測(cè)試了模型的可讀性(Readability),他們針對(duì)Vicuna-Bench的回答,采用GPT-4和人工評(píng)估對(duì)用ReAlign前后的回答進(jìn)行一對(duì)一可讀性比較。

結(jié)果如下圖所示,可以看到無(wú)論是GPT-4還是人工,ReAlign后的數(shù)據(jù)集相比原始數(shù)據(jù)集均有顯著提升。

圖片

作者還進(jìn)行了對(duì)齊稅(Alignment Tax)分析,在知識(shí)型評(píng)測(cè)基準(zhǔn)BBH和AGIEval上進(jìn)行測(cè)試,發(fā)現(xiàn)采用ReAlign后的模型并不會(huì)損失其原有的知識(shí),并且在個(gè)別情況還會(huì)有提升。

圖片

最后,作者分析了ReAlign的擴(kuò)展定律(Scaling Law),即只ReAlign一部分?jǐn)?shù)據(jù),對(duì)訓(xùn)練后的模型的影響情況。

結(jié)果如下圖所示,可以看出只ReAlign 5%的數(shù)據(jù)即可為通用對(duì)齊能力帶來(lái)全部ReAlign的67%提升,并且隨著ReAlign的比例提升性能也呈上升趨勢(shì)。

圖片

總結(jié)

總的來(lái)說(shuō),GAIR研究組提出了一個(gè)新的對(duì)齊方法ReAlign,其可以自動(dòng)化提升現(xiàn)有指令數(shù)據(jù)集的回答質(zhì)量,并且最小化了人工成本和幻覺(jué)影響。

他們ReAlign得到了了5個(gè)新的高質(zhì)量數(shù)據(jù)集Open-Platypus、No Robots、Alpaca、GSM8K和MATH。實(shí)驗(yàn)證明,ReAlign可以顯著提升通用對(duì)齊能力、數(shù)學(xué)推理能力、事實(shí)性和可讀性,并且不會(huì)損害知識(shí)能力。

此外,也公開(kāi)了數(shù)據(jù)集、人工精心撰寫(xiě)的46種任務(wù)描述及格式、任務(wù)分類(lèi)器及其訓(xùn)練數(shù)據(jù)、事實(shí)性評(píng)估數(shù)據(jù)集。

猜你喜歡