推薦系統(tǒng)自1992 年首篇論文提出協(xié)同過濾算法誕生以來,經(jīng)歷了互聯(lián)網(wǎng)公司百萬次的模型迭代,猶如不斷涅的鳳凰,從一次又一次的低谷中不斷重生,先后誕生了百分點、快手、抖音、今日頭條等知名的公司和產(chǎn)品。
推薦系統(tǒng)最大的功能在于其低廉的獲客功能。Google 廣告在行業(yè)內(nèi)的平均 CPC 在2 美元左右。推薦系統(tǒng)每給公司增加一次點擊,就相當(dāng)于給公司省下了2 美元,同時帶來了1 名新客戶。由于大型互聯(lián)網(wǎng)公司比如亞馬遜和今日頭條體量龐大,而推薦系統(tǒng)給這些網(wǎng)站帶來了超過30% 的新增客流量。所以事實上,推薦系統(tǒng)給大型互聯(lián)網(wǎng)公司帶來了規(guī)模巨大的收益,而組建推薦系統(tǒng)團隊,和維護推薦系統(tǒng)團隊的費用,只占收益的一小部分。因此國外許多高校都從學(xué)生開始,就培養(yǎng)推薦系統(tǒng)相關(guān)的人才,比如科羅拉多大學(xué)的 THAT 組,和明尼蘇達大學(xué)的 GroupLens 組。
不管是機器學(xué)習(xí),還是深度學(xué)習(xí),都離不開概率統(tǒng)計學(xué)的相關(guān)知識。然而在推薦系統(tǒng)領(lǐng)域,人們卻很少直接對于噪聲進行建模。不管是最優(yōu)化函數(shù)中的最大似然函數(shù),還是深度學(xué)習(xí)中的架構(gòu)和參數(shù)設(shè)計,似乎都少了對于噪聲的關(guān)注。
在推薦系統(tǒng)領(lǐng)域的權(quán)威會議ACM RecSys 2023 上,來自美國 Visa 研究院的研究人員發(fā)表了一篇題為Adversarial Collaborative Filtering for Free 的論文講述了如何利用生成式對抗框架和矩陣分解算法結(jié)合,解決推薦系統(tǒng)難題的算法。
作者在論文中首先回顧了一些基礎(chǔ)性的概念,比如生成式對抗算法的框架,以及Bayesian Personalized Ranking算法的基礎(chǔ)知識,隨后作者給出了自己設(shè)計的新算法的損失函數(shù)公式:
在這個公式中Δ 是干擾噪聲,Θ 是算法中的參數(shù)。eu 是矩陣分解中的用戶特征向量,而 ei 是矩陣分解中的物品特征向量。我們首先定義如下的Bayesian Personalized Ranking 問題:
隨后,我們正式定義本算法APR 的損失函數(shù)如下:
這個損失函數(shù)非常容易理解,就是在沒有噪聲干擾情況下的Bayesian Personalized Ranking 損失函數(shù),和加了最糟糕情況下的Bayesian Personalized Ranking 在有噪聲情況下的損失函數(shù)。
采用隨機梯度下降函數(shù)對參數(shù)進行求解,我們得到了如下參數(shù)求解公式:
通過進一步的觀察和分析,我們發(fā)現(xiàn)該問題的求解等價于下面的公式:
我們把公式改寫一下,可以把公式轉(zhuǎn)變?yōu)殇J度敏感的公式:
可以看到,公式中的R 其實就是銳度相關(guān)的公式。我們這里為了節(jié)省篇幅,略去作者關(guān)于公式的進一步推導(dǎo),只是將最終推導(dǎo)得到的SharpCF 公式的偽代碼列明如下:
研究人員隨后在若干數(shù)據(jù)集合上將該算法和 Bayesian Personalized Ranking 等算法進行了橫向?qū)Ρ?,得到了如下的實驗結(jié)果:
根據(jù)觀察,我們發(fā)現(xiàn),在所有的數(shù)據(jù)集合上,我們的新方法都取得了比傳統(tǒng)的 Bayesian Personalized Ranking 等方法更優(yōu)的效果??梢钥吹?,新的方法只是在時間消耗上比傳統(tǒng)方法略微高出1 到 2 個百分點,但是性能卻提升了不少。如果我們把實驗中的參數(shù)和誤差曲線繪出,我們得到如下圖形:
綜上所述,基于對抗學(xué)習(xí)的協(xié)同過濾方法,能夠比傳統(tǒng)的 Bayesian Personalized Ranking 取得更好的效果,而增加的時間通??梢院雎圆挥?。初看該方法,似乎該方法的原理非常簡單,就是將矩陣分解算法中的用戶向量和物品向量同時增加噪聲變量,然后利用對抗學(xué)習(xí)的原理來解決推薦系統(tǒng)的問題。
然而,仔細(xì)考慮之后,你可以發(fā)現(xiàn)在簡單的算法原理背后,作者有更為深入的思考,同時進行了大量的對比實驗。畢竟 RecSys 2023 是CCF-B 級別的會議,對論文內(nèi)容的深度和實驗的完備性都有要求。通過閱讀這篇論文,也可以幫助廣大讀者在學(xué)會科研的同時,學(xué)會中高檔次論文的寫作。
推薦系統(tǒng)是下蛋的金鵝,隨著技術(shù)在全球范圍內(nèi)的展開,原先的許多研究小組,甚至是先發(fā)國家比如美國的研究小組,其實已經(jīng)泯然眾人已。所以讀者如果出國深造,還是應(yīng)該認(rèn)真檢查目標(biāo)學(xué)校研究組的論文水平,比如論文發(fā)表刊物級別,論文引用次數(shù),論文影響力,就業(yè)出路等等,再做決定。在人工智能高潮此起彼伏的今天,我們需要認(rèn)真閱讀論文中有特色的創(chuàng)新,在提升自己競爭力的同時,也可以看到別樣的風(fēng)景。