常規(guī)的推薦系統(tǒng)范式已經(jīng)逐漸走入瓶頸,原因是在當(dāng)前固定化的問題描述下模型和系統(tǒng)幾乎已經(jīng)發(fā)展到極限。當(dāng)前的主要范式在模型上為召回+排序+重排,系統(tǒng)上為樣本挖掘+特征工程+線上打分預(yù)估能力建設(shè)。一線大廠在上述領(lǐng)域已經(jīng)把空間挖掘殆盡。同時可以看到,我們的用戶對當(dāng)前推薦系統(tǒng)的滿意度仍然未達(dá)到理想狀態(tài)。推薦系統(tǒng)是一個非常面向于用戶滿意度的平臺系統(tǒng),而用戶滿意是一個永遠(yuǎn)存在不同理解的問題,一千個用戶眼里有一千種對好的推薦系統(tǒng)的理解。
構(gòu)建更好的推薦系統(tǒng)需要我們重新定義“什么是好的推薦系統(tǒng)”。這并不是學(xué)術(shù)界的“強(qiáng)行挖坑”或者“繼續(xù)填坑”,而是不同層面上都在呼喚新的定義。事實(shí)上,新的推薦系統(tǒng)已經(jīng)零散地在學(xué)術(shù)界和工業(yè)界展現(xiàn)星星之火。
為何本文主題提出 2026 呢?是因?yàn)楫?dāng)前無論在業(yè)務(wù)上還是技術(shù)上都有一些亟待解決的問題,希望在未來 3 年能找到好的解法。
一、留存提升
對于所有 APP 來說,留存是第一生命力,APP 留下多少用戶,DAU 多高,決定著公司的估值和市值。業(yè)界和留存相關(guān)的課題主要有以下三種:
通過相關(guān)性分析、因果推斷找出影響留存的因素。比如愛奇藝、騰訊視頻和優(yōu)酷等平臺。對于長視頻平臺,影響留存的最大因子是熱播劇,在騰訊視頻中我們會發(fā)現(xiàn)假如有熱播劇上線,那么當(dāng)季的留存和 DAU 會提升很多。但如果一個熱播劇下線,DAU 就會降低很多,這就要求平臺不斷提供爆款的熱播劇,熱播劇因素跟平臺的留存非常相關(guān)。
留存拆分為多個子目標(biāo)建模,再綜合排分。
建模多天的收益來逼近留存的概念。如果是次日留存,對用戶的正反饋,不要建模為一次點(diǎn)擊或者觀看30秒,而要建模為48小時的總體消費(fèi)指標(biāo),這樣更能夠逼近留存。
下圖中展示了兩個項(xiàng)目:
一是留存與一刷 tag 熵的關(guān)系,例如今天有 n 個用戶來到平臺,明天 m 個用戶留下,留存就是 m 除以 n,這是次日留存的概念。tag 熵是指內(nèi)容多樣性,我們發(fā)現(xiàn)如果用戶看的內(nèi)容比較多樣,在當(dāng)時場景下留存率是比較高的。
二是基于強(qiáng)化學(xué)習(xí)的分析,我們希望逼近 30 分鐘建模,即用戶在短視頻平臺看 30 分鐘的總價值。
二、用戶增長
這里使用的是狹義的用戶增長定義,如何把一個新的不活躍的消費(fèi)者變成平臺的活躍用戶。
平臺僅依靠巨大的人口紅利獲得持續(xù)發(fā)展的時代已經(jīng)過去,很多平臺進(jìn)入存量競爭。在新平臺新 APP 上線的階段,更是用戶增長能力決定生死的關(guān)鍵階段。
相關(guān)的課題:
用戶分層優(yōu)化,預(yù)估high value action。舉個例子,比如有些用戶狀態(tài)能夠很好地區(qū)分用戶的等級,我們會利用這些關(guān)鍵的動作把用戶分層[2]。
二是營銷手段建模uplift和推薦算法的分人群。營銷的手段主要就是物質(zhì)獎勵,推薦算法就是更精準(zhǔn)的匹配,針對不同層次的用戶,有不同推薦算法的目標(biāo)。
用戶的知識融合,一個中小型APP其實(shí)非常缺乏數(shù)據(jù),無法建模用戶偏好,我們希望能夠從外部融合一些數(shù)據(jù),來彌補(bǔ)數(shù)據(jù)不足[3][4]。
三、內(nèi)容生態(tài)
內(nèi)容生態(tài)的定義是平臺供給側(cè)繁榮程度,它是平臺的 B 面,好的內(nèi)容生態(tài)應(yīng)該能充分反映用戶的需求,而且自身應(yīng)該有比較好的生長發(fā)育衰退機(jī)制,就像一片森林或者是一個社會的經(jīng)濟(jì)系統(tǒng),這也是其稱為生態(tài)的一個原因。
內(nèi)容生態(tài)非常重要,是平臺真正的護(hù)城河,很多時候平臺經(jīng)濟(jì)的護(hù)城河其實(shí)不在于C 端,更多在于 B 端。例如淘寶的服飾類、拼多多的機(jī)制供應(yīng)鏈競爭、抖音很大程度上靠優(yōu)質(zhì)內(nèi)容供給來搞定前期用戶。
相關(guān)的課題:
內(nèi)容生態(tài)的指標(biāo):建立調(diào)性控制生態(tài)自身的繁榮程度
計劃經(jīng)濟(jì):建立保量系統(tǒng),達(dá)到運(yùn)營調(diào)控的目標(biāo)
部分的計劃經(jīng)濟(jì):建立創(chuàng)作者的分級成長、內(nèi)容生命周期管理,利用PID算法、帶約束優(yōu)化以及流量博弈等。
平臺供給&消費(fèi)是否匹配:從用戶出發(fā)設(shè)計供需機(jī)制。理解用戶平臺內(nèi)容側(cè)的需求是什么。預(yù)估主播內(nèi)容的潛力+主播內(nèi)容質(zhì)量的建模,進(jìn)行有計劃地分發(fā)。通過預(yù)估增長程度指導(dǎo)內(nèi)容生產(chǎn),我們可以知道生產(chǎn)X個某種內(nèi)容到底能讓用戶側(cè)產(chǎn)生怎樣的反應(yīng)。
四、多目標(biāo)帕累托最優(yōu)
要實(shí)現(xiàn)更加精細(xì)地優(yōu)化用戶滿意度,目標(biāo)越充足越好,我們希望用戶在所有指標(biāo)上都有增長,即多目標(biāo)帕累托最優(yōu),比如觀看、下單、點(diǎn)贊、評論、分享等。user_satisfactinotallow= max {click,order,interaction,....}
這個問題很重要,因?yàn)橛脩魸M意也是平臺的終極目標(biāo)之一。只有用戶滿意,平臺才能夠存活。在缺乏大規(guī)模問卷調(diào)查的情況下,目前很多公司采用的就是優(yōu)化多目標(biāo)滿意,一般是點(diǎn)擊率、轉(zhuǎn)化率、觀看時長等指標(biāo)。
帕累托最優(yōu)[5]可能難以達(dá)到,因?yàn)橛行┠繕?biāo)是相沖的,這時的帕累托最優(yōu)是在相沖的情況下最優(yōu)的一種情況。例如下圖中紅色的線,被認(rèn)為是帕累托最優(yōu)的前沿,這條線代表已經(jīng)到達(dá)臨界值。臨界值指的是在不損害某一個指標(biāo)的情況下,是無法提升其他指標(biāo)的,這被稱為帕累托前沿。我們的目標(biāo)就是找到帕累托最優(yōu)前沿,在不同指標(biāo)間進(jìn)行 trade off。
相關(guān)課題包括:
提升多個目標(biāo)-超參數(shù)尋優(yōu)算法。
在多目標(biāo)無法共同提升情況下,如何取舍。
五、時間-長期價值預(yù)估
接下來介紹建立時間維度的長期價值預(yù)估。當(dāng)前的推薦系統(tǒng)比較專注于瞬時價值,缺乏對更長期價值的預(yù)估,而長期價值更加接近 DAU 目標(biāo)。
短期價值優(yōu)化容易出現(xiàn)很多問題,比如標(biāo)題黨、軟色情等,導(dǎo)致平臺失敗。
相關(guān)課題包括:
優(yōu)化session的總價值,將session定義為一個用戶一次不間斷的跟APP的交互。
優(yōu)化多個場景之間的總價值,比如淘寶現(xiàn)在是雙列流,用戶在雙列流進(jìn)行瀏覽,但又可能點(diǎn)進(jìn)去某一個具體詳情繼續(xù)瀏覽。雙列流可能會具有多樣性,單列流則更偏向于單類目。雙列流跟單列流之間也會存在此消彼長的效應(yīng),需要進(jìn)行調(diào)和。
session 總價值可以用馬爾可夫過程建模成一個多輪交互。這里引用微軟謝幸老師在微軟新聞上的一個工作[6],他把推薦系統(tǒng)稱為一個智能體,把用戶稱為環(huán)境,智能體推薦給用戶一些新聞,根據(jù)用戶是否點(diǎn)擊作為反饋來建模。
另一個是騰訊視頻的一個工作[1],通過優(yōu)化 session 價值,使 VV、GTR 等提高了兩個點(diǎn)。
六、空間-全站優(yōu)化
APP 通常有多個場景滿足不同需求,比如首頁猜你喜歡滿足發(fā)現(xiàn)性、相似推薦滿足對于某個點(diǎn)的深入消費(fèi)、購物車頁面滿足搭配需求。需要聯(lián)動所有場景,在典型用戶行為鏈路上進(jìn)行全局優(yōu)化。
單場景優(yōu)化會出現(xiàn)抵消效應(yīng),所以要對用戶的典型鏈路進(jìn)行分析。利用用戶行為鏈路信息作為建模約束可以更好地實(shí)現(xiàn)單場景優(yōu)化。
相關(guān)課題包括:
用戶典型鏈路分析,比如逛、比價、分享等。
多場景聯(lián)合建模/觀察影響-使用基于共享和博弈的強(qiáng)化學(xué)習(xí)等。
七、交互式推薦系統(tǒng)(IRS)
個性化問答助手逐漸商用,并在未來的人類生活中被寄予厚望?;谌祟愔苯诱Z言交互的推薦系統(tǒng),能夠更加滿足用戶意圖,并且更加便捷。
目前有兩種 IRS 系統(tǒng),隱式對話和顯式對話。前者已經(jīng)在大廠初步展示了價值,后者隨著 chatGPT 熱度再起,但是當(dāng)前仍不成熟。
相關(guān)課題包括:
顯示的對話式推薦,GPT加推薦算法以及意圖識別等。
隱式交互式推薦-意圖生成,知識圖譜,列表式推薦(Exact-K) ,下圖所示是當(dāng)時提出的騰訊視頻的心向標(biāo)項(xiàng)目。
八、千人千模
人類的理解能力很強(qiáng),基于極少的信息描述,就能夠很好地理解一個人。在主流平臺上,單個用戶的信息、行為多達(dá)上千上萬條。是否有可能為每一個人建立一個模型以提升準(zhǔn)確度呢?雖然我們現(xiàn)在的推薦算法就是千人千面,但其實(shí) pattern 是被大部分主流人群主導(dǎo)的,對于長尾用戶表現(xiàn)得并不理想。
在排序算法中,預(yù)估精度是永恒的追求,大公司通過分類別分群建模以進(jìn)一步提升效果,如果能夠在機(jī)器負(fù)載允許情況下為每一個用戶建立一個模型,那么將會實(shí)現(xiàn)真正的千人千面。
目前相關(guān)課題包括:
如何進(jìn)行系統(tǒng)和算法的聯(lián)合設(shè)計節(jié)省資源。
如何逼近千人千模分群學(xué)習(xí),工業(yè)界其實(shí)很難給每個用戶建立模型,比如淘寶有10億的用戶,如果每個用戶建一個模型,那么機(jī)器負(fù)載消耗是巨大的。但我們可以采用一些逼近方法,比如多任務(wù)學(xué)習(xí)或Meta learning。
單個人建?;蛱嵘P偷挠洃浤芰?。主流排序算法模型+千人千模。如下圖所示,Gate 特征與 CTR 模型融合來校準(zhǔn)學(xué)習(xí)[8]。
九、當(dāng)作決策問題的推薦算法
工業(yè)界推薦的本質(zhì)不是一個常規(guī)的回歸/分類,而是一個決策問題。平臺通過感知用戶并決策給到用戶在不同時刻想要的東西,從而希望用戶能夠喜歡這個平臺最終停留下去。同時用戶反饋(比如點(diǎn)不點(diǎn))也是一個決策問題,里面含有不確定性。從決策角度看,推薦不同于 CV/NLP 等問題,更加類似于 AI。當(dāng)前的解法基本上把推薦當(dāng)作分類問題,這是存在缺陷的。
為什么推薦是決策且不確定性問題?
平臺給用戶推薦視頻,用戶的反饋、用戶的狀態(tài)都具有一定不確定性。所以我們將其視為決策問題。
相關(guān)課題:
針對平臺調(diào)性的留存建模。運(yùn)營挑選的熱門物品根本不匹配用戶興趣,但是用戶卻喜歡上了平臺,比如拼多多首頁。
把推薦當(dāng)作多輪交互的MDP過程。
用戶決策僅僅是興趣匹配嗎?其實(shí)決策不僅僅是興趣匹配,還包括多樣性、精細(xì)度、時效性、用戶疲勞度等,這些都對用戶決策起到了作用。
十、OneRec-推薦融合大模型[3]
大模型和推薦的共同點(diǎn)是參數(shù)量都很大,其實(shí)在大模型問世之前,淘寶等主流平臺的推薦模型也都達(dá)到千億參數(shù)規(guī)模。
大模型的優(yōu)勢在于深度語義理解和廣度世界知識,它能夠根據(jù)上下文做出比較精準(zhǔn)的推斷。具備廣度世界知識是因?yàn)榇竽P蛯W(xué)習(xí)了很多不同領(lǐng)域的信息。
然而大模型也有其局限性,推薦模型是高度專有化的,大模型在單獨(dú)某個任務(wù)的精度不容易超越傳統(tǒng)模型。
大模型會不會取代推薦模型?比如 GPT 是否會取代推薦算法?
一是取決于人機(jī)交互的進(jìn)化,從應(yīng)用的角度來看,近二三十年大的互聯(lián)網(wǎng)變革都是從交互方式發(fā)生的。從 PC 時代、移動互聯(lián)網(wǎng)時代,再到當(dāng)前的 GPT 時代,交互方式是第一生產(chǎn)力。如果 GPT 控制終端入口,那么推薦將被迫作為 GPT 的子模塊,所以整體取決于人類更喜歡的前端交互形態(tài)是什么樣的。
二是 GPT 是否會成為推薦的入口。當(dāng)大模型內(nèi)置于手機(jī)等智能終端后,消費(fèi)者的使用習(xí)慣如果一直傾向于通過提問來獲取物料,那么推薦就有可能成為 GPT 的一個后端。但如果消費(fèi)者的習(xí)慣沒有改,還是喜歡刷淘寶、抖音,那么 GPT 就不會取代傳統(tǒng)推薦系統(tǒng)。
三是推薦算法不會消失,因?yàn)橥扑]算法的準(zhǔn)確度非常高,最差的情況下它也會作為一種 backend 內(nèi)嵌于大模型當(dāng)中。
后續(xù)的演進(jìn)方向:
交互性。chatGPT類催生新的業(yè)務(wù)場景,比如基于問答的推薦場景,類似于淘寶問答中的答案生成和推薦。
深度語義理解,大模型對內(nèi)容理解能力的提升。當(dāng)前推薦建模依賴大量離散特征以及統(tǒng)計后驗(yàn)特征,如果未來能通過大模型的內(nèi)容理解能力,直接匹配用戶理解,這樣端到端的新范式會重塑推薦系統(tǒng)的發(fā)展線路。
廣度知識,改善長尾。
生成能力。需要得到 chatGPT 類模型,當(dāng)前難度較大。下圖中的 case 就是對比一些大模型和原來 Facebook 的 DLIM 模型,可以看到大模型的參數(shù)集中在 FC 層,而推薦集中在 embedding 層,F(xiàn)C 層模型有更好的語義理解,集中在 embedding 層模型就有更好的記憶。
基于以上的判斷,我們并沒有把大模型和推薦系統(tǒng)直接結(jié)合起來,而是先開發(fā)了OneRec 項(xiàng)目,試圖融入各種各樣的更廣闊的業(yè)務(wù)知識,從而拿到業(yè)務(wù)效果。在我們可以靈活有效地進(jìn)行多信號信息融合基礎(chǔ)上,探索統(tǒng)一的大模型之路。
從 2019 年我們開始關(guān)注多種信息的萃取融合,提出了 OneRec 算法[3],希望通過平臺或外部各種各樣的信息來進(jìn)行知識集成,打破數(shù)據(jù)孤島,極大擴(kuò)充推薦的“Extra World Knowledge”。我們認(rèn)為這是當(dāng)下非常可行的推薦大模型演進(jìn)方向。
已實(shí)踐的算法包括行為數(shù)據(jù)、內(nèi)容描述、社交信息、知識圖譜等。在 OneRec,每種信息和整體算法的集成是可插拔的,一方面方便大家在自己的業(yè)務(wù)數(shù)據(jù)下靈活組合各種信息,另一方面方便開源共建,大家集成自己的各種算法。相關(guān)代碼和論文已經(jīng)開源,項(xiàng)目地址:https://github.com/xuanjixiao/onerec。
十一、Q&A
Q1:在用戶增長部分提到 42 秒,這里分析很細(xì)致。請問這個 42 秒的來源是什么?
A1:對于 high value action 可以選 41 或 40 秒。42 秒是經(jīng)過統(tǒng)計分析和模型預(yù)估最終得出的結(jié)果。
大于 42 秒的用戶跟小于 42 秒的用戶的長期價值差別非常大。比如大于 40 秒的用戶大概平均每年能買 3 單,如果小于 40 秒的用戶平均能買 1 單,那么 DIFF 就是兩單。再來看為什么不選 40 秒,大于 40 秒的用戶可能平均每年只買兩單,小于 42 秒的用戶可能每年只買 1 單,他們的 DIFF 是 1 單。我們認(rèn)為 42 秒更能區(qū)分用戶,他們的 deep 更大,這就是我們選 42 秒的原因。
Q2:內(nèi)容生態(tài)部分提到計劃經(jīng)濟(jì)會用到 PID 控制,它的約束和優(yōu)化目標(biāo)是什么?
A2:對于 PID 控制算法,舉個例子,比如我們現(xiàn)在引入了 1 萬個網(wǎng)紅,是跟 MCN 機(jī)構(gòu)簽約的,假設(shè)我是其他平臺競爭方,我們從那邊挖過來 1 萬個網(wǎng)紅,那么每天要給他們 1 萬個 view,這是我們跟他們協(xié)議的一部分。
要達(dá)到這 1 萬 view 量,就由 PID 算法來保證的。比如可能一小時給他 1 萬 view,按照每分鐘給予數(shù)量相同的 view。
帶約束優(yōu)化則是更進(jìn)階的算法,在做計劃經(jīng)濟(jì)的時候我們經(jīng)常會對原來的市場經(jīng)濟(jì)算法的自然分發(fā)造成效果的損失。那么如何調(diào)節(jié)兩個 PID 呢?
我們可以將其轉(zhuǎn)換為一個帶約束的優(yōu)化問題,描述為最大化 C 端的收益,比如說 Max CTR(最大化點(diǎn)擊率)??梢蕴砑右粋€超參數(shù) Pij,Pij 代表對于這個用戶這次要不要推薦這個短視頻或直播,I 代表這個用戶,j 代表直播間。比如在當(dāng)下要不要推薦這個直播,我們自然流量分發(fā)的目標(biāo)是 CTR,約束就是比如每小時給的量不要大于 12000,也不要少于 8000,這樣將其變成一個帶約束的固化問題。Max CTR*Pij,subject 這個約束指的是,我們給的量,比如 Pij sum 要大于 8000,小于等于 12000,這樣可能是一個更好的描述形態(tài),但這個問題可能是非凸的。
Q3:大模型和推薦系統(tǒng)的主要區(qū)別是什么?
A3:推薦的最大優(yōu)勢是在單個問題上,比如 CTR 建模上,推薦系統(tǒng)精度非常高。但大模型做不到高精度。
大模型的優(yōu)勢是有深度的語義理解,還有廣度的世界知識。