面向2026年的推薦算法前瞻

沃卡惠
行業(yè)資訊
2024-04-04 09:47:53
565

常規(guī)的推薦系統(tǒng)范式已經(jīng)逐漸走入瓶頸，原因是在當(dāng)前固定化的問題描述下模型和系統(tǒng)幾乎已經(jīng)發(fā)展到極限。當(dāng)前的主要范式在模型上為召回+排序+重排，系統(tǒng)上為樣本挖掘+特征工程+線上打分預(yù)估能力建設(shè)。一線大廠在上述領(lǐng)域已經(jīng)把空間挖掘殆盡。同時可以看到，我們的用戶對當(dāng)前推薦系統(tǒng)的滿意度仍然未達(dá)到理想狀態(tài)。推薦系統(tǒng)是一個非常面向于用戶滿意度的平臺系統(tǒng)，而用戶滿意是一個永遠(yuǎn)存在不同理解的問題，一千個用戶眼里有一千種對好的推薦系統(tǒng)的理解。

構(gòu)建更好的推薦系統(tǒng)需要我們重新定義“什么是好的推薦系統(tǒng)”。這并不是學(xué)術(shù)界的“強(qiáng)行挖坑”或者“繼續(xù)填坑”，而是不同層面上都在呼喚新的定義。事實(shí)上，新的推薦系統(tǒng)已經(jīng)零散地在學(xué)術(shù)界和工業(yè)界展現(xiàn)星星之火。

為何本文主題提出 2026 呢？是因?yàn)楫?dāng)前無論在業(yè)務(wù)上還是技術(shù)上都有一些亟待解決的問題，希望在未來 3 年能找到好的解法。

一、留存提升

對于所有 APP 來說，留存是第一生命力，APP 留下多少用戶，DAU 多高，決定著公司的估值和市值。業(yè)界和留存相關(guān)的課題主要有以下三種：

通過相關(guān)性分析、因果推斷找出影響留存的因素。比如愛奇藝、騰訊視頻和優(yōu)酷等平臺。對于長視頻平臺，影響留存的最大因子是熱播劇，在騰訊視頻中我們會發(fā)現(xiàn)假如有熱播劇上線，那么當(dāng)季的留存和 DAU 會提升很多。但如果一個熱播劇下線，DAU 就會降低很多，這就要求平臺不斷提供爆款的熱播劇，熱播劇因素跟平臺的留存非常相關(guān)。

留存拆分為多個子目標(biāo)建模，再綜合排分。

建模多天的收益來逼近留存的概念。如果是次日留存，對用戶的正反饋，不要建模為一次點(diǎn)擊或者觀看30秒，而要建模為48小時的總體消費(fèi)指標(biāo)，這樣更能夠逼近留存。

下圖中展示了兩個項(xiàng)目：

一是留存與一刷 tag 熵的關(guān)系，例如今天有 n 個用戶來到平臺，明天 m 個用戶留下，留存就是 m 除以 n，這是次日留存的概念。tag 熵是指內(nèi)容多樣性，我們發(fā)現(xiàn)如果用戶看的內(nèi)容比較多樣，在當(dāng)時場景下留存率是比較高的。

二是基于強(qiáng)化學(xué)習(xí)的分析，我們希望逼近 30 分鐘建模，即用戶在短視頻平臺看 30 分鐘的總價值。

二、用戶增長

這里使用的是狹義的用戶增長定義，如何把一個新的不活躍的消費(fèi)者變成平臺的活躍用戶。

平臺僅依靠巨大的人口紅利獲得持續(xù)發(fā)展的時代已經(jīng)過去，很多平臺進(jìn)入存量競爭。在新平臺新 APP 上線的階段，更是用戶增長能力決定生死的關(guān)鍵階段。

相關(guān)的課題：

用戶分層優(yōu)化，預(yù)估high value action。舉個例子，比如有些用戶狀態(tài)能夠很好地區(qū)分用戶的等級，我們會利用這些關(guān)鍵的動作把用戶分層[2]。

二是營銷手段建模uplift和推薦算法的分人群。營銷的手段主要就是物質(zhì)獎勵，推薦算法就是更精準(zhǔn)的匹配，針對不同層次的用戶，有不同推薦算法的目標(biāo)。

用戶的知識融合，一個中小型APP其實(shí)非常缺乏數(shù)據(jù)，無法建模用戶偏好，我們希望能夠從外部融合一些數(shù)據(jù)，來彌補(bǔ)數(shù)據(jù)不足[3][4]。

三、內(nèi)容生態(tài)

內(nèi)容生態(tài)的定義是平臺供給側(cè)繁榮程度，它是平臺的 B 面，好的內(nèi)容生態(tài)應(yīng)該能充分反映用戶的需求，而且自身應(yīng)該有比較好的生長發(fā)育衰退機(jī)制，就像一片森林或者是一個社會的經(jīng)濟(jì)系統(tǒng)，這也是其稱為生態(tài)的一個原因。

內(nèi)容生態(tài)非常重要，是平臺真正的護(hù)城河，很多時候平臺經(jīng)濟(jì)的護(hù)城河其實(shí)不在于C 端，更多在于 B 端。例如淘寶的服飾類、拼多多的機(jī)制供應(yīng)鏈競爭、抖音很大程度上靠優(yōu)質(zhì)內(nèi)容供給來搞定前期用戶。

相關(guān)的課題：

內(nèi)容生態(tài)的指標(biāo)：建立調(diào)性控制生態(tài)自身的繁榮程度

計劃經(jīng)濟(jì)：建立保量系統(tǒng)，達(dá)到運(yùn)營調(diào)控的目標(biāo)

部分的計劃經(jīng)濟(jì)：建立創(chuàng)作者的分級成長、內(nèi)容生命周期管理，利用PID算法、帶約束優(yōu)化以及流量博弈等。

平臺供給&消費(fèi)是否匹配：從用戶出發(fā)設(shè)計供需機(jī)制。理解用戶平臺內(nèi)容側(cè)的需求是什么。預(yù)估主播內(nèi)容的潛力+主播內(nèi)容質(zhì)量的建模，進(jìn)行有計劃地分發(fā)。通過預(yù)估增長程度指導(dǎo)內(nèi)容生產(chǎn)，我們可以知道生產(chǎn)X個某種內(nèi)容到底能讓用戶側(cè)產(chǎn)生怎樣的反應(yīng)。

四、多目標(biāo)帕累托最優(yōu)

要實(shí)現(xiàn)更加精細(xì)地優(yōu)化用戶滿意度，目標(biāo)越充足越好，我們希望用戶在所有指標(biāo)上都有增長，即多目標(biāo)帕累托最優(yōu)，比如觀看、下單、點(diǎn)贊、評論、分享等。user_satisfactinotallow= max {click,order,interaction,....}

這個問題很重要，因?yàn)橛脩魸M意也是平臺的終極目標(biāo)之一。只有用戶滿意，平臺才能夠存活。在缺乏大規(guī)模問卷調(diào)查的情況下，目前很多公司采用的就是優(yōu)化多目標(biāo)滿意，一般是點(diǎn)擊率、轉(zhuǎn)化率、觀看時長等指標(biāo)。

帕累托最優(yōu)[5]可能難以達(dá)到，因?yàn)橛行┠繕?biāo)是相沖的，這時的帕累托最優(yōu)是在相沖的情況下最優(yōu)的一種情況。例如下圖中紅色的線，被認(rèn)為是帕累托最優(yōu)的前沿，這條線代表已經(jīng)到達(dá)臨界值。臨界值指的是在不損害某一個指標(biāo)的情況下，是無法提升其他指標(biāo)的，這被稱為帕累托前沿。我們的目標(biāo)就是找到帕累托最優(yōu)前沿，在不同指標(biāo)間進(jìn)行 trade off。

相關(guān)課題包括：

提升多個目標(biāo)-超參數(shù)尋優(yōu)算法。

在多目標(biāo)無法共同提升情況下，如何取舍。

五、時間-長期價值預(yù)估

接下來介紹建立時間維度的長期價值預(yù)估。當(dāng)前的推薦系統(tǒng)比較專注于瞬時價值，缺乏對更長期價值的預(yù)估，而長期價值更加接近 DAU 目標(biāo)。

短期價值優(yōu)化容易出現(xiàn)很多問題，比如標(biāo)題黨、軟色情等，導(dǎo)致平臺失敗。

相關(guān)課題包括：

優(yōu)化session的總價值，將session定義為一個用戶一次不間斷的跟APP的交互。

優(yōu)化多個場景之間的總價值，比如淘寶現(xiàn)在是雙列流，用戶在雙列流進(jìn)行瀏覽，但又可能點(diǎn)進(jìn)去某一個具體詳情繼續(xù)瀏覽。雙列流可能會具有多樣性，單列流則更偏向于單類目。雙列流跟單列流之間也會存在此消彼長的效應(yīng)，需要進(jìn)行調(diào)和。

session 總價值可以用馬爾可夫過程建模成一個多輪交互。這里引用微軟謝幸老師在微軟新聞上的一個工作[6]，他把推薦系統(tǒng)稱為一個智能體，把用戶稱為環(huán)境，智能體推薦給用戶一些新聞，根據(jù)用戶是否點(diǎn)擊作為反饋來建模。

另一個是騰訊視頻的一個工作[1]，通過優(yōu)化 session 價值，使 VV、GTR 等提高了兩個點(diǎn)。

六、空間-全站優(yōu)化

APP 通常有多個場景滿足不同需求，比如首頁猜你喜歡滿足發(fā)現(xiàn)性、相似推薦滿足對于某個點(diǎn)的深入消費(fèi)、購物車頁面滿足搭配需求。需要聯(lián)動所有場景，在典型用戶行為鏈路上進(jìn)行全局優(yōu)化。

單場景優(yōu)化會出現(xiàn)抵消效應(yīng)，所以要對用戶的典型鏈路進(jìn)行分析。利用用戶行為鏈路信息作為建模約束可以更好地實(shí)現(xiàn)單場景優(yōu)化。

相關(guān)課題包括：

用戶典型鏈路分析，比如逛、比價、分享等。

多場景聯(lián)合建模/觀察影響-使用基于共享和博弈的強(qiáng)化學(xué)習(xí)等。

七、交互式推薦系統(tǒng)(IRS)

個性化問答助手逐漸商用，并在未來的人類生活中被寄予厚望?；谌祟愔苯诱Z言交互的推薦系統(tǒng)，能夠更加滿足用戶意圖，并且更加便捷。

目前有兩種 IRS 系統(tǒng)，隱式對話和顯式對話。前者已經(jīng)在大廠初步展示了價值，后者隨著 chatGPT 熱度再起，但是當(dāng)前仍不成熟。

相關(guān)課題包括：

顯示的對話式推薦，GPT加推薦算法以及意圖識別等。

隱式交互式推薦-意圖生成，知識圖譜，列表式推薦(Exact-K) ,下圖所示是當(dāng)時提出的騰訊視頻的心向標(biāo)項(xiàng)目。

八、千人千模

人類的理解能力很強(qiáng)，基于極少的信息描述，就能夠很好地理解一個人。在主流平臺上，單個用戶的信息、行為多達(dá)上千上萬條。是否有可能為每一個人建立一個模型以提升準(zhǔn)確度呢？雖然我們現(xiàn)在的推薦算法就是千人千面，但其實(shí) pattern 是被大部分主流人群主導(dǎo)的，對于長尾用戶表現(xiàn)得并不理想。

在排序算法中，預(yù)估精度是永恒的追求，大公司通過分類別分群建模以進(jìn)一步提升效果，如果能夠在機(jī)器負(fù)載允許情況下為每一個用戶建立一個模型，那么將會實(shí)現(xiàn)真正的千人千面。

目前相關(guān)課題包括：

如何進(jìn)行系統(tǒng)和算法的聯(lián)合設(shè)計節(jié)省資源。

如何逼近千人千模分群學(xué)習(xí)，工業(yè)界其實(shí)很難給每個用戶建立模型，比如淘寶有10億的用戶，如果每個用戶建一個模型，那么機(jī)器負(fù)載消耗是巨大的。但我們可以采用一些逼近方法，比如多任務(wù)學(xué)習(xí)或Meta learning。

單個人建?；蛱嵘Ｐ偷挠洃浤芰?。主流排序算法模型+千人千模。如下圖所示，Gate 特征與 CTR 模型融合來校準(zhǔn)學(xué)習(xí)[8]。

九、當(dāng)作決策問題的推薦算法

工業(yè)界推薦的本質(zhì)不是一個常規(guī)的回歸/分類，而是一個決策問題。平臺通過感知用戶并決策給到用戶在不同時刻想要的東西，從而希望用戶能夠喜歡這個平臺最終停留下去。同時用戶反饋(比如點(diǎn)不點(diǎn))也是一個決策問題，里面含有不確定性。從決策角度看，推薦不同于 CV/NLP 等問題，更加類似于 AI。當(dāng)前的解法基本上把推薦當(dāng)作分類問題，這是存在缺陷的。

為什么推薦是決策且不確定性問題？

平臺給用戶推薦視頻，用戶的反饋、用戶的狀態(tài)都具有一定不確定性。所以我們將其視為決策問題。

相關(guān)課題：

針對平臺調(diào)性的留存建模。運(yùn)營挑選的熱門物品根本不匹配用戶興趣，但是用戶卻喜歡上了平臺，比如拼多多首頁。

把推薦當(dāng)作多輪交互的MDP過程。

用戶決策僅僅是興趣匹配嗎？其實(shí)決策不僅僅是興趣匹配，還包括多樣性、精細(xì)度、時效性、用戶疲勞度等，這些都對用戶決策起到了作用。

十、OneRec-推薦融合大模型[3]

大模型和推薦的共同點(diǎn)是參數(shù)量都很大，其實(shí)在大模型問世之前，淘寶等主流平臺的推薦模型也都達(dá)到千億參數(shù)規(guī)模。

大模型的優(yōu)勢在于深度語義理解和廣度世界知識，它能夠根據(jù)上下文做出比較精準(zhǔn)的推斷。具備廣度世界知識是因?yàn)榇竽Ｐ蛯W(xué)習(xí)了很多不同領(lǐng)域的信息。

然而大模型也有其局限性，推薦模型是高度專有化的，大模型在單獨(dú)某個任務(wù)的精度不容易超越傳統(tǒng)模型。

大模型會不會取代推薦模型？比如 GPT 是否會取代推薦算法？

一是取決于人機(jī)交互的進(jìn)化，從應(yīng)用的角度來看，近二三十年大的互聯(lián)網(wǎng)變革都是從交互方式發(fā)生的。從 PC 時代、移動互聯(lián)網(wǎng)時代，再到當(dāng)前的 GPT 時代，交互方式是第一生產(chǎn)力。如果 GPT 控制終端入口，那么推薦將被迫作為 GPT 的子模塊，所以整體取決于人類更喜歡的前端交互形態(tài)是什么樣的。

二是 GPT 是否會成為推薦的入口。當(dāng)大模型內(nèi)置于手機(jī)等智能終端后，消費(fèi)者的使用習(xí)慣如果一直傾向于通過提問來獲取物料，那么推薦就有可能成為 GPT 的一個后端。但如果消費(fèi)者的習(xí)慣沒有改，還是喜歡刷淘寶、抖音，那么 GPT 就不會取代傳統(tǒng)推薦系統(tǒng)。

三是推薦算法不會消失，因?yàn)橥扑]算法的準(zhǔn)確度非常高，最差的情況下它也會作為一種 backend 內(nèi)嵌于大模型當(dāng)中。

后續(xù)的演進(jìn)方向：

交互性。chatGPT類催生新的業(yè)務(wù)場景，比如基于問答的推薦場景，類似于淘寶問答中的答案生成和推薦。

深度語義理解，大模型對內(nèi)容理解能力的提升。當(dāng)前推薦建模依賴大量離散特征以及統(tǒng)計后驗(yàn)特征，如果未來能通過大模型的內(nèi)容理解能力，直接匹配用戶理解，這樣端到端的新范式會重塑推薦系統(tǒng)的發(fā)展線路。

廣度知識，改善長尾。

生成能力。需要得到 chatGPT 類模型，當(dāng)前難度較大。下圖中的 case 就是對比一些大模型和原來 Facebook 的 DLIM 模型，可以看到大模型的參數(shù)集中在 FC 層，而推薦集中在 embedding 層，F(xiàn)C 層模型有更好的語義理解，集中在 embedding 層模型就有更好的記憶。

基于以上的判斷，我們并沒有把大模型和推薦系統(tǒng)直接結(jié)合起來，而是先開發(fā)了OneRec 項(xiàng)目，試圖融入各種各樣的更廣闊的業(yè)務(wù)知識，從而拿到業(yè)務(wù)效果。在我們可以靈活有效地進(jìn)行多信號信息融合基礎(chǔ)上，探索統(tǒng)一的大模型之路。

從 2019 年我們開始關(guān)注多種信息的萃取融合，提出了 OneRec 算法[3]，希望通過平臺或外部各種各樣的信息來進(jìn)行知識集成，打破數(shù)據(jù)孤島，極大擴(kuò)充推薦的“Extra World Knowledge”。我們認(rèn)為這是當(dāng)下非常可行的推薦大模型演進(jìn)方向。

已實(shí)踐的算法包括行為數(shù)據(jù)、內(nèi)容描述、社交信息、知識圖譜等。在 OneRec，每種信息和整體算法的集成是可插拔的，一方面方便大家在自己的業(yè)務(wù)數(shù)據(jù)下靈活組合各種信息，另一方面方便開源共建，大家集成自己的各種算法。相關(guān)代碼和論文已經(jīng)開源，項(xiàng)目地址：https://github.com/xuanjixiao/onerec。

十一、Q&A

Q1：在用戶增長部分提到 42 秒，這里分析很細(xì)致。請問這個 42 秒的來源是什么？

A1：對于 high value action 可以選 41 或 40 秒。42 秒是經(jīng)過統(tǒng)計分析和模型預(yù)估最終得出的結(jié)果。

大于 42 秒的用戶跟小于 42 秒的用戶的長期價值差別非常大。比如大于 40 秒的用戶大概平均每年能買 3 單，如果小于 40 秒的用戶平均能買 1 單，那么 DIFF 就是兩單。再來看為什么不選 40 秒，大于 40 秒的用戶可能平均每年只買兩單，小于 42 秒的用戶可能每年只買 1 單，他們的 DIFF 是 1 單。我們認(rèn)為 42 秒更能區(qū)分用戶，他們的 deep 更大，這就是我們選 42 秒的原因。

Q2：內(nèi)容生態(tài)部分提到計劃經(jīng)濟(jì)會用到 PID 控制，它的約束和優(yōu)化目標(biāo)是什么？

A2：對于 PID 控制算法，舉個例子，比如我們現(xiàn)在引入了 1 萬個網(wǎng)紅，是跟 MCN 機(jī)構(gòu)簽約的，假設(shè)我是其他平臺競爭方，我們從那邊挖過來 1 萬個網(wǎng)紅，那么每天要給他們 1 萬個 view，這是我們跟他們協(xié)議的一部分。

要達(dá)到這 1 萬 view 量，就由 PID 算法來保證的。比如可能一小時給他 1 萬 view，按照每分鐘給予數(shù)量相同的 view。

帶約束優(yōu)化則是更進(jìn)階的算法，在做計劃經(jīng)濟(jì)的時候我們經(jīng)常會對原來的市場經(jīng)濟(jì)算法的自然分發(fā)造成效果的損失。那么如何調(diào)節(jié)兩個 PID 呢？

我們可以將其轉(zhuǎn)換為一個帶約束的優(yōu)化問題，描述為最大化 C 端的收益，比如說 Max CTR（最大化點(diǎn)擊率）?？梢蕴砑右粋€超參數(shù) Pij，Pij 代表對于這個用戶這次要不要推薦這個短視頻或直播，I 代表這個用戶，j 代表直播間。比如在當(dāng)下要不要推薦這個直播，我們自然流量分發(fā)的目標(biāo)是 CTR，約束就是比如每小時給的量不要大于 12000，也不要少于 8000，這樣將其變成一個帶約束的固化問題。Max CTR*Pij,subject 這個約束指的是，我們給的量，比如 Pij sum 要大于 8000，小于等于 12000，這樣可能是一個更好的描述形態(tài)，但這個問題可能是非凸的。

Q3：大模型和推薦系統(tǒng)的主要區(qū)別是什么？

A3：推薦的最大優(yōu)勢是在單個問題上，比如 CTR 建模上，推薦系統(tǒng)精度非常高。但大模型做不到高精度。

大模型的優(yōu)勢是有深度的語義理解，還有廣度的世界知識。

上一篇：人工智能是否被高估了？

下一篇：應(yīng)對構(gòu)建物聯(lián)網(wǎng)系統(tǒng)的復(fù)雜性：采用協(xié)作解決方案以獲得成功