來自華為諾亞方舟實(shí)驗(yàn)室的王奕超老師今天給我們帶來了關(guān)于大語言模型在推薦系統(tǒng)中的探索與應(yīng)用的分享,將從數(shù)據(jù)、模型和流程三個層面展開,介紹華為在推薦系統(tǒng)領(lǐng)域的兩個重要項目,并回答關(guān)于用戶推理知識構(gòu)造、特征交叉和在線服務(wù)流程的具體問題。通過這些前瞻性的探索和應(yīng)用,推薦系統(tǒng)的性能和用戶體驗(yàn)有望得到顯著提升。
一、背景和問題
1.推薦系統(tǒng)
讓我們從一個具體例子——電影推薦系統(tǒng)開始。推薦系統(tǒng)的輸入主要是用戶的交互行為,如點(diǎn)擊或觀看過的電影。這些行為反映了用戶的偏好。除此之外,還有物品的特征信息,比如電影的年代、類別和演員等屬性信息,以及用戶的一些特征,比如年齡和性別等。推薦系統(tǒng)會根據(jù)這些輸入信息,結(jié)合當(dāng)前用戶請求的一些上下文信息(如電影榜單、時間和地點(diǎn)等),為用戶提供評分推薦。
2.大語言模型
根據(jù)前面的介紹,我們可以了解到當(dāng)前的推薦系統(tǒng),特別是在電影或電商等領(lǐng)域,往往是一個相對封閉的系統(tǒng)。這類系統(tǒng)通常基于特定應(yīng)用場景的日志數(shù)據(jù)進(jìn)行模型訓(xùn)練,并部署于該場景提供服務(wù),與外界系統(tǒng)交互有限。然而,理想的推薦系統(tǒng)應(yīng)是一個開放系統(tǒng),能夠與外界進(jìn)行交互,利用實(shí)時、事實(shí)的知識信息來提升推薦效果。大語言模型,特別是那些在互聯(lián)網(wǎng)量級語料中訓(xùn)練出的模型,具備豐富的世界知識和邏輯推理能力,這些能力恰好可以彌補(bǔ)傳統(tǒng)推薦系統(tǒng)的不足。它們不僅可以用于補(bǔ)充推薦系統(tǒng)的測試編碼、模型打分等功能,還在流程控制等方面展現(xiàn)出巨大的潛力。在運(yùn)用大語言模型時,我們可以考慮在訓(xùn)練階段進(jìn)行微調(diào)或固定參數(shù),而在推理階段,則可以選擇僅使用推薦系統(tǒng)或直接將大語言模型作為推薦系統(tǒng)的推理器。這些策略的具體實(shí)施將在后續(xù)分析中詳細(xì)展開。
總之,大語言模型為推薦系統(tǒng)的優(yōu)化提供了新的思路和方法,我們期待在未來的研究和實(shí)踐中,能夠進(jìn)一步挖掘其潛力,提升推薦系統(tǒng)的性能和用戶體驗(yàn)。歡迎大家就相關(guān)話題進(jìn)行閱讀、了解和討論。
隨著大語言模型的引入,推薦系統(tǒng)將逐漸從封閉走向開放,引入豐富的世界知識。當(dāng)前,推薦系統(tǒng)主要基于物品間的關(guān)聯(lián)、用戶與物品的交互信號等統(tǒng)計信息進(jìn)行推薦。然而,在代模型時代,推薦形態(tài)將發(fā)生變化,已初現(xiàn)端倪。利用大模型的廣泛知識和強(qiáng)大邏輯推理能力,推薦系統(tǒng)將向生成式方向發(fā)展,不僅生成推薦結(jié)果,還涉及中間態(tài)的行為,如特征生成、推理過程及新流程的拆解,為用戶提供更加個性化和全面的推薦體驗(yàn)。
大語言模型具備推薦系統(tǒng)所缺乏的兩大關(guān)鍵能力。首先,它擁有豐富的事實(shí)性和常識性知識,能提供電影深入細(xì)節(jié)、故事情節(jié)、觀影感受及導(dǎo)演信息等,這些信息在推薦系統(tǒng)語料之外。其次,大語言模型能基于現(xiàn)有知識,對物品、用戶行為及偏好進(jìn)行常識性推理,包括物品關(guān)聯(lián)、用戶行為分析等,尤其擅長處理復(fù)雜場景下的用戶行為,這些都是當(dāng)前推薦系統(tǒng)所不具備的能力。
二、LLM4Rec探索及應(yīng)用
1.KAR:利用大語言模型開放知識輔助推薦系統(tǒng)
接下來,將介紹近期探索的大語言模型在推薦系統(tǒng)中的應(yīng)用與分析。首先,傳統(tǒng)推薦系統(tǒng)較為封閉,僅依賴推薦域內(nèi)知識和協(xié)同信號進(jìn)行推薦,對用戶偏好的學(xué)習(xí)存在局限。同時,推薦上下文信息通過離散編碼建模,難以直觀理解,尤其在處理冷門物品或數(shù)據(jù)稀疏問題上表現(xiàn)不佳。
大語言模型則擁有通用外部知識,能了解用戶與物品背景,具備邏輯推理能力,深入理解用戶行為動機(jī)及社會因素。然而,它也面臨三大局限性:一是缺乏推薦領(lǐng)域知識,特別是協(xié)同信號;二是處理復(fù)雜推理問題性能不佳,如預(yù)測用戶偏好需多步推理;三是實(shí)時性能難以滿足工業(yè)推薦系統(tǒng)需求。這些問題是大語言模型在推薦系統(tǒng)應(yīng)用中需要解決的關(guān)鍵點(diǎn)。
當(dāng)前,利用大語言模型進(jìn)行推薦的工作主要分為兩類。一類是將大語言模型作為推薦系統(tǒng)的編碼器,對物品描述、用戶評論等文本信息進(jìn)行編碼,增強(qiáng)用戶和物品的表征,但并未生成新信息,僅是對推薦域內(nèi)知識的編碼。另一類則是直接將語言模型作為推薦主體,利用其在互聯(lián)網(wǎng)語料庫上訓(xùn)練得到的通用能力進(jìn)行推薦,然而效果通常不及傳統(tǒng)算法模型,尤其在特征交叉和協(xié)同信號方面的重要性已被廣泛驗(yàn)證。
此外,大語言模型在推薦系統(tǒng)中的推理速度較慢,計算成本高,難以滿足工業(yè)推薦系統(tǒng)的實(shí)時性要求。同時,由于模型參數(shù)量大、所需數(shù)據(jù)多,模型更新也難以實(shí)現(xiàn)實(shí)時或近實(shí)時,這對推薦效果產(chǎn)生了顯著影響。因此,在大模型時代,如何平衡推薦效果與實(shí)時性仍是重要課題。
針對大語言模型在推薦系統(tǒng)中的應(yīng)用,我們面臨的主要挑戰(zhàn)是如何有效提取并預(yù)存其知識,以便被傳統(tǒng)模型更好地利用。這涉及到大語言模型在復(fù)合推理問題上的局限性,即雖能準(zhǔn)確回答子問題,但難以直接解決復(fù)雜問題。為解決此問題,我們借鑒了因式分解的思路,將知識生成分解為多個子任務(wù),由大語言模型逐一推理。
以電影推薦為例,我們首先識別影響用戶興趣的關(guān)鍵因素,如電影類別、導(dǎo)演、演員及獲獎情況等,并將這些信息融入提示詞模板中。模板分為用戶偏好推理和物品事實(shí)性推理兩部分,前者包含用戶描述、觀影歷史等,后者則結(jié)合場景感知因素。通過填充模板并向大語言模型提問,我們可獲得用戶行為偏好的深入理解,并同樣應(yīng)用于物品事實(shí)性分析,最終融合開放與結(jié)構(gòu)化信息,提升推薦系統(tǒng)的準(zhǔn)確性和個性化程度。
這個過程分為三個階段,首先解決知識生成問題,通過指令模板提問生成關(guān)于用戶偏好和物品實(shí)時應(yīng)用的邏輯推理知識。由于推薦模型難以直接利用文本信息,需將知識適配為推薦系統(tǒng)可用的相對低緯度的dense向量,避免高維信息淹沒系統(tǒng)信號。因此,引入多專家網(wǎng)絡(luò)進(jìn)行信息提取、壓縮和映射,集成兩類信息以增強(qiáng)知識魯棒性,解決原模型幻覺問題。
接著進(jìn)入知識利用階段,推薦模型結(jié)構(gòu)靈活,可適配任何大語言模型生成的知識進(jìn)行推理。LLM進(jìn)行離線推理,生成離線知識及表征,拿到表征后,就放到傳統(tǒng)推薦模型中,知識適配器和傳統(tǒng)模型是一起訓(xùn)練的;推理時,僅使用知識適配器和傳統(tǒng)推薦模型,顯著降低訓(xùn)練與推理成本,滿足時延需求。
我們的實(shí)驗(yàn)結(jié)果顯示,大語言模型在多種推薦算法上的通用性得到了驗(yàn)證。與未經(jīng)增強(qiáng)的結(jié)果相比,引入大語言模型后,AUC指標(biāo)顯著提升,表明開放域知識對推薦領(lǐng)域有顯著增益。同時,我們驗(yàn)證了方案的可落地性,發(fā)現(xiàn)推理復(fù)雜度與推薦模型相當(dāng),且KAR方案在推理時間上與Base模型相近,是實(shí)際工業(yè)場景中的可行選擇。
對比SOTA等預(yù)訓(xùn)練模型,我們實(shí)現(xiàn)了近1%的提升。效能分析表明,不同知識類型對效果有顯著影響。融合用戶偏好與物品事實(shí)性知識的推理結(jié)果最為顯著。該方案已在華為多個場景上線,包括應(yīng)用市場、華為音樂等,主要用于物品側(cè)表征增強(qiáng),如音樂歌曲、廣告、應(yīng)用等,顯著提升了推薦效果,為全網(wǎng)帶來了價值提升。
2.Uni-CTR:利用大語言模型構(gòu)建多場景推薦底座
接下來介紹第二個工作,即利用大語言模型進(jìn)行跨域推薦的研究。多場景相比單場景具有顯著優(yōu)勢,包括緩解數(shù)據(jù)稀疏問題、實(shí)現(xiàn)場景間信息共享及高效性。然而,當(dāng)前多場景推薦系統(tǒng)仍面臨挑戰(zhàn):主要場景可能主導(dǎo)模型參數(shù),影響其他場景;語義信息利用及場景關(guān)系建模需進(jìn)一步探索;新增或淘汰場景對模型參數(shù)影響大。
大語言模型具備外部通用知識和邏輯推理能力,這在多場景建模中尤為重要。以電商和視頻場景為例,大語言模型能識別洗護(hù)用品成分、市場動態(tài)及新聞等外部知識,并通過邏輯推理,如用戶購買運(yùn)動器材后可能偏好體育視頻,實(shí)現(xiàn)場景間信息的自然泛化。我們將探索如何更好地利用這些能力,構(gòu)建通用的多場景推薦模型。
傳統(tǒng)的推薦算法模型通常基于特定類型的數(shù)據(jù)。這些數(shù)據(jù)主要來源于表格,包含場景、用戶ID、點(diǎn)擊歷史等信息。同時,物品數(shù)據(jù)則包括名稱、品牌、價格等特征。這些特征通過One-Hot或Embedding編碼進(jìn)行建模,并依據(jù)行為信號不斷更新表征。這是傳統(tǒng)多場景推薦算法的基本框架。
在大語言模型的設(shè)置下,我們優(yōu)化了多商業(yè)場景的處理流程。首先,針對表格數(shù)據(jù),我們摒棄了傳統(tǒng)的編碼方式,構(gòu)建了基于自然語言描述的提示詞模板,以更直觀地表達(dá)DomainID、用戶及產(chǎn)品信息。這些模板將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為自然語言描述,隨后輸入大語言模型(如24層Transformer結(jié)構(gòu)的SharedBert)中。
在處理過程中,我們每隔幾層Transformer引入Leader網(wǎng)絡(luò)(三層Transformer Encoder Block),以提取不同層次的模型表征。Leader網(wǎng)絡(luò)專注于學(xué)習(xí)場景特有的信息,而中間的general network則旨在提取跨場景共享的通用信息。
對于多場景應(yīng)用,每個場景擁有獨(dú)立的網(wǎng)絡(luò)及對應(yīng)的預(yù)估網(wǎng)絡(luò)(如DSN),這些網(wǎng)絡(luò)根據(jù)場景特性進(jìn)行優(yōu)化。同時,我們采用門控網(wǎng)絡(luò)融合大語言模型的通用表征與場景特有的新輸出,實(shí)現(xiàn)場景共性與特性的學(xué)習(xí)。
此外,該方案還具備zero-shot冷啟動能力,能夠利用大語言模型的輸出預(yù)測新場景,解決冷啟動問題。新增場景時,僅需增加相應(yīng)的網(wǎng)絡(luò)路徑,對主體網(wǎng)絡(luò)影響甚微。
我們將Amazon Review DataSet中的Fashion、Music Instruments和Gift Cards三個數(shù)據(jù)集作為不同場景,來驗(yàn)證我們的方案。這里主要對比了三種模型:單場景獨(dú)立模型、傳統(tǒng)多場景模型,以及基于大語言模型的Multi-domainModel。其中,Uni-CTR是我們提出的創(chuàng)新方案。
實(shí)驗(yàn)結(jié)果顯示,Uni-CTR在各個場景均取得了顯著的效果提升,尤其是在Gift Cards場景上表現(xiàn)尤為突出。這一方案不僅解決了傳統(tǒng)多場景模型中某些場景性能提升而其他場景可能下降的問題,還避免了主場景(如Fashion)對次場景性能產(chǎn)生的負(fù)面影響,實(shí)現(xiàn)了全面且均衡的性能提升。
我們同時考察了Uni-CTR的zero-shot能力,在新場景上測試模型效果。對于單場景和多場景模型,均選取最佳預(yù)測結(jié)果作為展示。Uni-CTR采用大語言模型的通用預(yù)測網(wǎng)絡(luò),在zero-shot場景下亦展現(xiàn)出顯著效果增益。
通過引入新場景并微調(diào),Uni-CTR也實(shí)現(xiàn)了效果顯著提升。我們對比這一重要場景模型參數(shù),分析不同參數(shù)量級語言模型(如TenonBot、Bot、Debota及SharedLama)的影響。實(shí)驗(yàn)表明,模型效果隨參數(shù)量增大而提升,驗(yàn)證了Signal的適用性。
此外,我們還探討了模型不同組件的影響,進(jìn)行效能分析。結(jié)果顯示,去除Leader和Backbone模型均導(dǎo)致效果下降,其中Backbone模型影響最為顯著。
三、挑戰(zhàn)和展望
接下來,將從工業(yè)應(yīng)用的視角,探討當(dāng)前大語言模型在推薦系統(tǒng)面臨的挑戰(zhàn)與未來趨勢。
首先,面對的挑戰(zhàn)可分為三個層面:一是協(xié)同信號與語義信號的聯(lián)合建模,需提升單獨(dú)使用時的效果;二是輸入策略的挑戰(zhàn),包括如何利用大語言模型優(yōu)化用戶畫像、處理長文本輸入及ID編碼的融合問題;三是動態(tài)數(shù)據(jù)如何有效融入模型,以及模型推理效率在工業(yè)級應(yīng)用中的挑戰(zhàn)。
展望未來,主要從數(shù)據(jù)、模型和流程三個層面展開工作:數(shù)據(jù)層面,致力于使推薦系統(tǒng)具備世界知識和邏輯推理能力,從封閉走向開放;模型層面,從判別式模型向生成式模型發(fā)展,潛力在于直接生成用戶感興趣的內(nèi)容;流程層面,傳統(tǒng)多階段推薦流程或?qū)⒈唤y(tǒng)一模型取代,實(shí)現(xiàn)端到端的推薦結(jié)果生成。
總體而言,大語言模型對推薦系統(tǒng)產(chǎn)生了巨大影響,隨著產(chǎn)品形態(tài)的不斷迭代,它將為推薦搜索系統(tǒng)帶來全新變革。未來,我們有更多想象空間值得探索,需要持續(xù)努力,以應(yīng)對挑戰(zhàn),把握機(jī)遇。