一、可解釋性
在金融、醫(yī)療和司法等領(lǐng)域,可解釋性變得越來越重要,因此我們特別關(guān)注模型的可解釋性。例如,歐盟對AI系統(tǒng)的安全性提出了較高的要求,最近甚至出臺立法,要求所有關(guān)鍵領(lǐng)域的AI系統(tǒng)必須具備可解釋性。
然而,在大語言模型時代,可解釋性是一個具有挑戰(zhàn)性的問題。盡管像GPT3.5或GPT4這樣的大模型在回答問題和提供解釋方面表現(xiàn)出色,但它們本質(zhì)上仍然是一個黑盒。在對模型的機(jī)制和透明性要求較高的場合,大語言模型的可信度仍然存在問題。目前的研究正專注于探索大語言模型的可解釋性,例如OpenAI使用GPT4來研究GPT2模型的透明度,但這些研究仍處于早期階段。
在我們的日常工作中,為大型金融機(jī)構(gòu)提供盡調(diào)服務(wù)是很常見的情景。這涉及大量的數(shù)據(jù),包括歷史存量數(shù)據(jù)和每日更新的海量數(shù)據(jù)。我們需要對這些數(shù)據(jù)進(jìn)行文本分析,并提供對重要情況的分析解釋。使用像GPT4這樣的模型可能成本過高,而GPT3.5也相對昂貴。因此,我們需要一種可靠的分析解釋方法,同時要考慮成本和性能的問題。為了解決這個挑戰(zhàn),我們最近進(jìn)行了一些探討和研究工作。
在可解釋性方面,有一些基本原則需要遵循。首先,我們希望提供的解釋能夠真實(shí)反映模型的行為,即"Faithful"(忠實(shí)性)。其次,解釋應(yīng)該符合人們的理解,并讓人們覺得合理可信,即"plausible"(可信性)。這些原則適用于處理各種不同數(shù)據(jù)類型的模型的解釋,不僅限于處理文本的模型。
解釋方法可以分為后處理(Post-hoc)和先處理(Ante-hoc)兩類。后處理方法是對模型進(jìn)行解釋的后續(xù)處理,它的好處是可以對任意模型進(jìn)行解釋。然而,它也存在一個問題,就是需要在被解釋的模型之外開發(fā)一個替代模型,用于模擬和解釋當(dāng)前模型。在許多真實(shí)場景下,讓替代模型準(zhǔn)確捕捉被解釋模型的特性是困難的,尤其是當(dāng)被解釋模型是一個黑盒模型時更加困難。另一種方法是"ante-hoc"模型,其思路完全不同,在開始進(jìn)行設(shè)計模型時就考慮了內(nèi)置可解釋性功能。這樣的模型自帶了對預(yù)測結(jié)果進(jìn)行解釋的能力,也被稱為自解釋模型。這里例子中的的情感分析模型不僅可以給出評價分?jǐn)?shù),還能在模型內(nèi)部自身提供對應(yīng)預(yù)測進(jìn)行解釋。
二、協(xié)作博弈自解釋框架和虛假關(guān)聯(lián)介紹
RNP(Recursive Neural Predictors)是由MIT于2016年提出的一個基于協(xié)作博弈的自解釋框架。它由解釋器(explainer)或生成器(generator)和預(yù)測器(predictor)兩個組件相互協(xié)作工作。在RNP模型中,解釋器和預(yù)測器具有相同的架構(gòu)。這里啤酒評價的例子中,給出對啤酒兩個不同方面的評價,一個負(fù)責(zé)處理外觀評價,另一個負(fù)責(zé)處理氣味評價。解釋器從整個評論輸入X中選擇是出一個子集Z作為解釋(通常被稱為Rationale),然后將這個解釋傳遞給預(yù)測器,得到最終的預(yù)測結(jié)果。
RNP模型具有"Certification of Exclusion"(排除認(rèn)證)的特點(diǎn),也就是模型預(yù)測結(jié)果完全依賴于模型自身給出的解釋,與其他因素?zé)o關(guān),因此可以完全保證Faithfulness,因為其所提供的解釋與模型進(jìn)行預(yù)測的行為是完全一致。
該模型的訓(xùn)練目標(biāo)有兩個方面。首先是確保良好的預(yù)測能力。對于分類問題,目標(biāo)是使預(yù)測結(jié)果盡可能接近真實(shí)標(biāo)簽(ground-truth)的cross-entropy。在回歸問題中,可能使用平方差(MSE)作為優(yōu)化目標(biāo)。
其次,除了預(yù)測能力外,解釋的質(zhì)量也需要考慮。解釋的目的是為了方便人類理解,降低認(rèn)知負(fù)擔(dān)。因此,我們希望提供一個簡短但盡可能包含所有需要的完整解釋信息的解釋,避免過于冗長的內(nèi)容,即"Sparsity"(稀疏性)。同時,我們也要確保解釋是連續(xù)的文本片段,而不是零散的描述。在早期的基于每個詞的權(quán)重的解釋方法中,生成的解釋通常是斷斷續(xù)續(xù)的,包含許多不連貫的文本,不適合人類閱讀。因此,我們需要保證解釋的連貫性,即在語言和語義上具有連續(xù)性。
RNP模型中的Rationale 選擇是一個無監(jiān)督序列標(biāo)注問題,對于每個token有選中和不選中兩個標(biāo)簽。這個問題通常可以使用強(qiáng)化學(xué)習(xí)方法來求解,或者使用Gumbel-Softmax采樣進(jìn)行處理。
除了文本數(shù)據(jù),基于協(xié)作博弈的自解釋框架,包括RNP,還可以應(yīng)用于基于圖數(shù)據(jù)的圖神經(jīng)網(wǎng)絡(luò)(GNN)解釋以及對處理圖像數(shù)據(jù)的計算機(jī)視覺模型進(jìn)行解釋等。這種框架具有廣泛的應(yīng)用范圍,不依賴于特定領(lǐng)域。
然而,RNP作為一個框架,在實(shí)際應(yīng)用中也存在一些問題,其中之一是虛假的關(guān)聯(lián)(spurious correlation)。虛假的關(guān)聯(lián)問題可以分為兩類。
虛假的關(guān)聯(lián)問題可以分為兩類。第一類是特征相關(guān)性(Feature correlation),主要源于數(shù)據(jù)分布的問題。例如,好味道的啤酒通常也具有好的氣味,在上面這個啤酒評價的例子中,我們想要的是對啤酒氣味評價預(yù)測結(jié)果給出的解釋(下劃線部分),但是RNP給出解釋卻是關(guān)于味道的相關(guān)的內(nèi)容(紅色部分)。類似的問題其實(shí)是普遍存在的存在,之前經(jīng)典的post-hoc方法的論文LIME中給出的一個著名的例子,因為數(shù)據(jù)集里狼的圖片總是有雪的背景,導(dǎo)致一些模型往往是用雪的背景作為分類狼的特征。這個狼的數(shù)據(jù)集的數(shù)據(jù)的選擇上不太合理或者存在偏差。這里啤酒數(shù)據(jù)集倒不是因為數(shù)據(jù)選擇偏差,而是不同特征之間確實(shí)天然就具有很強(qiáng)的關(guān)聯(lián)。
另一類問題是"Degeneration"(退化),這是協(xié)作博弈框架固有的問題。在Rationale選擇的過程中,解釋器可能會選擇一些無意義或缺乏信息的文本作為解釋,但它們卻可能是容易被預(yù)測器所區(qū)分并完成正確的分類的。例如,在選擇解釋時,解釋生成器可能會采樣到一個缺乏實(shí)際意義的“-”,但預(yù)測器可能會過擬合,把是否包含“-”可作為區(qū)分正類和負(fù)類的分類特征。這主要是因為預(yù)測器在還沒有見過具有足夠多樣性的rationale候選之前就過早的過擬合到某些沒有意義但具有一定辨識度的錯誤解釋中,導(dǎo)致了degeneration的問題。
為了解決這些問題,一些方法在RNP框架上添加了額外的組件。這些組件使預(yù)測器能夠看到除選擇的解釋之外的其他輸入文本部分的信息。然而,這樣做會增加復(fù)雜性、改變原始結(jié)構(gòu)并引入新的問題。
三、對合作博弈機(jī)制的洞察和解決虛假相關(guān)性的方案
1、Solution 1: Folded Rationalization (FR) for Degeneration
我們這一系列研究中的第一項工作發(fā)表在NeuIPS-2022上,主要是對RNP在協(xié)作博弈過程中發(fā)生degeneration內(nèi)部機(jī)制進(jìn)行了分析并給出了解決方案。
通過深入分析博弈協(xié)作框架中的問題,我們提出了名為"Folded Rationalization"(FR)的解決方案,用于解決協(xié)作博弈過程中的退化問題。我們發(fā)現(xiàn),問題的根源在于Generator和Predictor之間的協(xié)作步調(diào)不一致。Generator面臨的任務(wù)較為復(fù)雜,需要在高維空間中進(jìn)行采樣以找到優(yōu)質(zhì)解釋。相比之下,Predictor的任務(wù)相對簡單,只需將解釋文本進(jìn)行分類。這導(dǎo)致了兩個任務(wù)之間的學(xué)習(xí)進(jìn)程不協(xié)調(diào)。
根據(jù)前面的觀察,我們提出了一個非常簡單有效的方法,就是將RNP的2階段方法,進(jìn)行折疊,使得Generator和Predictor共享參數(shù),不需要像之前的方法那樣增加額外的模塊和參數(shù)。
FR讓Generator和Predictor共享參數(shù)的做法,可以迫使兩者在學(xué)習(xí)的步調(diào)一致。同時共享參數(shù),也讓Predictor有機(jī)會獲取更完整的輸入信息。這樣可以讓防止Predictor對于沒有信息量的rationale候選產(chǎn)生overfit,反過來,更好的Predictor也能對Generator提供更好的指導(dǎo)和反饋。
我們在經(jīng)過過濾的啤酒評論數(shù)據(jù)集上進(jìn)行了實(shí)驗,該數(shù)據(jù)集剔除了存在強(qiáng)特征相關(guān)性的評論,以專門研究我們的FR模型對退化問題的解決能力。實(shí)驗結(jié)果顯示,F(xiàn)R與之前的方法相比取得了顯著的改進(jìn),在F1分?jǐn)?shù)上最多能提高10.3%。
2、Solution 2: Decoupled Rationalization (DR) for Degeneration
我們系列工作中的第二項,是對degeneration問題進(jìn)行了更進(jìn)一步的深入分析,提出了更好的解決方案,并且完全不需要修改RNP的架構(gòu),這項工作發(fā)表在KDD-2023上。
在FR的基礎(chǔ)上,我們對Generator和Predictor的兩者學(xué)習(xí)率之間的比例進(jìn)行進(jìn)一步更細(xì)致的分析。用λ來表示預(yù)測器和生成器的學(xué)習(xí)率比例。我們發(fā)現(xiàn),當(dāng)λ小于1時,即降低預(yù)測器的學(xué)習(xí)率使其小于生成器的學(xué)習(xí)率時,解釋質(zhì)量顯著提高。這是一個普遍的規(guī)律,預(yù)測器的學(xué)習(xí)率較低時總能得到更好的解釋結(jié)果。
前面的觀察給了我們啟示,讓我們找到一種比我們之前提出的FR更簡單和直接的方法,就是保持和RNP完全相同的架構(gòu),只需要讓Predictor的學(xué)習(xí)率相對于Generator更低就可以了。
需要注意的是,其實(shí)對博弈中兩個agent的學(xué)習(xí)率進(jìn)行不同的調(diào)節(jié),在之前對抗博弈方法中也有被研究過,但是他們結(jié)論是正好反過來的,他們的對抗博弈方法需要加速critic(GAN中的discriminator),我們的協(xié)作博弈則需要slow down predictor.
關(guān)于如何選擇λ的值,目前我們還沒有找到科學(xué)嚴(yán)格的論證,但我們發(fā)現(xiàn)了一種在實(shí)踐中非常有效的啟發(fā)式規(guī)則。該規(guī)則是通過對一些樣例求解釋長度和輸入全文本長度之比的平均值來確定λ的值。例如,在之前提到的啤酒數(shù)據(jù)集中,這個比例可能在0.1左右,大約是總長度的10%左右。
我們還希望對“為何我們提出的方法有效”更深層次的原因進(jìn)行分析。之前一些工作,尤其是對抗博弈的方法GAN,也給了我們啟發(fā),他們發(fā)現(xiàn)Lipschitz Continuity是分析系統(tǒng)穩(wěn)定性和健壯性一個很好的指標(biāo)。所以我們也開始考慮是否可以將Lipschitz Continuity用于協(xié)作博弈系統(tǒng)的分析。
Lipschitz Continuity其實(shí)概念上是很簡單的,就是反映了預(yù)測函數(shù)的平滑程度。其實(shí)這也容易理解,一個對應(yīng)系統(tǒng)輸入輸出的函數(shù)比較平滑,就不會發(fā)生輸入的細(xì)微變化,導(dǎo)致輸出劇烈變動的情況,系統(tǒng)也就自然更穩(wěn)定。相反,如果模型函數(shù)存在尖銳或階梯狀的變化,系統(tǒng)就不穩(wěn)定,微小的輸入變化可能導(dǎo)致劇烈的輸出變化。
Lipschitz Continuity是通過計算Lipschitz Constant來測量的,更小的Lipschitz constant 代表更好的Lipschitz continuity。
這里是Lipschitz Constant的定義,數(shù)學(xué)上的細(xì)節(jié)這里可以暫時略過,并不會影響對后續(xù)基本方法的理解,感興趣的聽眾稍后可以閱讀論文中的細(xì)節(jié)。
直觀上很容易理解,如果Zi和Zj分別是從兩條情感取向完全相反的評論中抽取的rationale候選,如果兩者都是沒有什么信息含量的噪聲的話,兩者之間的語義距離會比較小。而如果Zi和Zj都是比較意義的rationale候選的話,兩者之間的語義距離會比較大。事實(shí)上我們的實(shí)驗也證明了這一點(diǎn)。
根據(jù)前面的觀察結(jié)果和Lipschitz Constant定義我們可以很容易推導(dǎo)出一個結(jié)論:Predictor的Lipschitz Constant的值越小,則Generator選擇有意義的rationale候選來作為解釋的概率就越高。我們從而可以建立起predictor的Lipschitz Continuity和degeneration之間的關(guān)聯(lián)了,稍后這可以用來幫助解釋為何我們提出的DR方法是有效的。這里具體的推導(dǎo)過程這里就不詳細(xì)解釋,可以閱讀論文了解更多細(xì)節(jié)。
之前的研究中已經(jīng)有一些限制模型Lipschitz constant的方法,例如Spectral normalization 就是僵硬的通過手工設(shè)定一個cutoff來限制Lipschitz constant的方法,我們實(shí)驗結(jié)果顯示雖然Spectral normalization能一定程度提高Generator產(chǎn)生rationale的質(zhì)量,但是卻會損傷Predictor的性能。
我們的理論分析和實(shí)驗都顯示:我們提出的方法DR (也就是相對調(diào)低predictor的學(xué)習(xí)率) 提供了一種更靈活更好的方法來限制Lipschitz Constant的值,在保證rationale的質(zhì)量的同時還能保證predictor有好的性能。
當(dāng)λ<1時,Lipschitz常數(shù)顯著降低,表明我們的方法能夠提高系統(tǒng)的可靠性。與標(biāo)準(zhǔn)的RNP方法進(jìn)行比較,可以看到我們提出的DR方法的Lipschitz Constant遠(yuǎn)遠(yuǎn)小于RNP對應(yīng)的值,這表明我們的系統(tǒng)更加穩(wěn)定。
在啤酒數(shù)據(jù)集上,我們的DR方法展現(xiàn)出了非常好的效果,比之前的FR方法也要更好一些。綜合來看,DR排名第一,F(xiàn)R排名第二,兩種方法相較于之前的方法都有顯著提升。
實(shí)驗結(jié)果還顯示(1)降低Predictor的學(xué)習(xí)率并沒有減緩DR的收斂速度。(2)RNP在訓(xùn)練的時候Predictor的正確率上升很快,并一直比DR好,但在驗證數(shù)據(jù)集中,RNP則沒有顯示出優(yōu)勢,顯示了RNP過擬合的問題。
3、Solution 3: Multi-Generator Rationalization (MGR) for Spurious Correlations
最后討論我們系列工作中的第三項,這部分工作發(fā)表在ACL-2023上。
之前的研究工作基本都是單獨(dú)處理degeneration(例如,剛介紹的我們前兩項工作FR和DR)或者單獨(dú)處理feature correlation問題,但是很少有考慮同時處理好這兩個問題的。
在這里我們希望能夠同時能夠可以同時處理好degeneration和feature correlation這兩類虛假關(guān)聯(lián)問題。
我們這項工作MGR是第一個來同時處理degeneration和feature correlation的問題的方法。
MGR的基本思路也很簡單直接,就是希望通過使用多個generator能獲得對候選rationale更廣泛和更多樣性的觀察。在訓(xùn)練好模型之后,進(jìn)行推理的時候,多個生成器會達(dá)到收斂狀態(tài),所以我們只需要任選一個generator就可以了,例如就選第一個,這樣可以大大減少部署和使用的成本,并且提高效率。因此,最終的應(yīng)用部署和推理過程的性能復(fù)雜度與標(biāo)準(zhǔn)的RNP相當(dāng)。
采用多個Generator,每個Generator采用不同倍率的學(xué)習(xí)率,降低Predictor的學(xué)習(xí)率,可以讓這些Generator產(chǎn)生出更具多樣性的rationale candidates,并且可以使得所有的Generator都最終收斂到非常類似的結(jié)果。實(shí)驗結(jié)果顯示,每個Generator采用不同的學(xué)習(xí)率可以獲得更好的rationale質(zhì)量。因為最后Generator都會收斂到很類似的結(jié)果,所以推理的時候只選擇一個Generator幾乎不會影響性能。
通過學(xué)習(xí)率的收斂過程可以觀察到,訓(xùn)練過程中所有生成器逐漸趨于一致,這解釋了為什么最后只需要一個生成器即可。
MGR在沒有被過濾的原始啤酒數(shù)據(jù)集上和之前的處理feature correlation的方法相比取得顯著的改進(jìn)。在處理degeneration,也比之前的其他方法有所顯著改進(jìn),性能和FR和DR相當(dāng)。
四、未來工作的展望
總結(jié)來說,未來工作的展望主要包括以下幾個方面:
1、因果推理
在大模型時代,因果推理仍然是解決可解釋性問題的關(guān)鍵。雖然現(xiàn)有的部分因果推理方法存在一些問題,但在因果推理的大方向上仍有潛力。未來的研究可以致力于建立一個統(tǒng)一的框架,解決不同類型的可解釋性問題。
2. 應(yīng)用領(lǐng)域的遷移:我們在協(xié)作博弈的研究中發(fā)現(xiàn)了一些通用的原理和洞見。這些分析可能適用于其他領(lǐng)域,例如金融知識圖譜和推薦系統(tǒng)等涉及圖數(shù)據(jù)和GNN的模型。未來的工作可以將這些原理應(yīng)用于其他領(lǐng)域,進(jìn)一步拓展協(xié)作博弈的理論應(yīng)用范圍。