線上小額信貸常見的風(fēng)控場景從階段上可以劃分為貸前、貸中和貸后。實(shí)際風(fēng)控實(shí)踐中可能還會(huì)有流量獲客等場景,本次分享未展開。
貸前風(fēng)控是比較重要的一環(huán),關(guān)注點(diǎn)包括:身份核驗(yàn)、反欺詐風(fēng)險(xiǎn)評(píng)估、信用風(fēng)險(xiǎn)評(píng)估、額度和費(fèi)率的匹配。
貸中管理是指在用戶放款之后,對借款人的信用風(fēng)險(xiǎn)進(jìn)行跟蹤和管理的過程。具體場景包括復(fù)貸準(zhǔn)入和存量用戶運(yùn)營。復(fù)貸準(zhǔn)入是指用戶已經(jīng)有借款記錄后再次支用的場景。存量用戶運(yùn)營是指對已經(jīng)放款的借款人所做的維護(hù)或管理等一系列運(yùn)營活動(dòng),比如對用戶風(fēng)險(xiǎn)的再次評(píng)估、信息更新,以及新產(chǎn)品的推廣促活等。
貸后管理是指在用戶貸款到期之后的管理,常見的場景包括還款管理、客訴風(fēng)險(xiǎn)管理、失聯(lián)預(yù)測。該環(huán)節(jié)偏向于線下的運(yùn)營,模型或規(guī)則策略更多的是給運(yùn)營同學(xué)提供一些輔助工具,不像貸前或貸中可以直接拿模型或規(guī)則來決策。
接下來具體介紹各階段場景下風(fēng)控模型的搭建。
一、貸前風(fēng)控
1、貸前風(fēng)控的一般流程
在線上小額信貸的場景下,一個(gè)用戶從進(jìn)件到最終放款,一般會(huì)經(jīng)歷這樣一些環(huán)節(jié):
◆準(zhǔn)入策略:用戶在進(jìn)件之后可能會(huì)對其做一些準(zhǔn)入策略,比如年齡或身份核驗(yàn)、反欺詐規(guī)則(如黑名單或逾期)。
◆模型前規(guī)則:過了準(zhǔn)入策略后,用戶會(huì)走到模型前的一些規(guī)則,這里一般會(huì)是一些無成本或低成本的規(guī)則。
◆授信模型:接著就會(huì)進(jìn)到授信模型階段,這里授信模型可能包含一組模型。
◆模型后規(guī)則:授信模型通過之后的用戶可能會(huì)進(jìn)到模型后規(guī)則,這些規(guī)則可能是相對較貴的規(guī)則,如征信數(shù)據(jù)。
最后給出用戶評(píng)級(jí),如果這里是多模型決策,用戶評(píng)級(jí)可以通過決策矩陣給出。
這樣設(shè)計(jì)主要還是基于平衡成本的考慮,配置時(shí)大多會(huì)是內(nèi)部數(shù)據(jù)在前,外部數(shù)據(jù)在后,形成一個(gè)成本漏斗,即已經(jīng)被前面的規(guī)則或模型拒掉的一些用戶,就不會(huì)再走后面相對比較貴的規(guī)則了。
我們是怎樣部署這樣一套風(fēng)控策略的?下圖給出了系統(tǒng)交互的過程:
數(shù)據(jù)接入模塊,包括外部和內(nèi)部數(shù)據(jù)的接入和存儲(chǔ)。
◆內(nèi)部數(shù)據(jù)一般會(huì)直接調(diào)用業(yè)務(wù)系統(tǒng)的數(shù)據(jù)接口去獲取。這里會(huì)有一個(gè)成本和穩(wěn)定性的折中:比如在調(diào)用復(fù)雜數(shù)據(jù)時(shí),數(shù)據(jù)本身可能存在一些耗資源的長尾現(xiàn)象,但這種特征在實(shí)際決策中又會(huì)用到的話,我們就會(huì)在一定的可接受范圍內(nèi)去做一些操作以平衡成本和穩(wěn)定性,例如99. 99%的用戶都正常返回,對于另外的極少部分用戶可能做一個(gè)置空操作;
◆外部數(shù)據(jù)會(huì)調(diào)用三方的服務(wù)。這時(shí)會(huì)遇到的問題是接入三方數(shù)據(jù)的返回時(shí)長是否在業(yè)務(wù)可接受范圍,大部分三方數(shù)據(jù)返回都是比較快的,但也有一些數(shù)據(jù)返回慢一些,在這種情況下我們會(huì)在可接受程度內(nèi)作處理,比說只有0.01%的返回時(shí)長很長,那這部分用戶可能就直接做一些額外處理,比如置空等操作。如果業(yè)務(wù)上對這種缺失的容忍度極低的話,一種可能方案提前去調(diào)這個(gè)外部數(shù)據(jù),這時(shí)就會(huì)涉及成本的平衡。
特征引擎從數(shù)據(jù)接入模塊獲取原始數(shù)據(jù),特征引擎在貸前環(huán)節(jié)主要是用于實(shí)時(shí)特征計(jì)算(有些情況下也會(huì)有離線計(jì)算,比如貸超場景中應(yīng)用的特征,我們業(yè)務(wù)中以實(shí)時(shí)特征為主主要是基于特征覆蓋度的考慮)。特征引擎計(jì)算實(shí)時(shí)特征后,會(huì)對模型引擎輸出模型特征,對決策引擎輸出規(guī)則特征。
模型引擎主要是用來計(jì)算模型分,包括空跑模型和決策模型。二者的部署有一些差異,空跑模型可以部署為異步調(diào)用,決策模型因?yàn)樯婕暗匠杀韭┒?前文已提及),需要同步調(diào)用。模型分最終會(huì)輸出到?jīng)Q策引擎。
決策引擎里可以配置決策流和規(guī)則集。規(guī)則集中可以包括單特征規(guī)則和模型應(yīng)用規(guī)則,在決策流里可以部署多個(gè)規(guī)則集。
流程圖中的幾個(gè)環(huán)節(jié)在業(yè)務(wù)系統(tǒng)中的部署方式:
◆準(zhǔn)入策略:一部分是配置在決策引擎里的,還有一部分是在產(chǎn)品環(huán)節(jié)的,比如像 OCR 這些是耦合在產(chǎn)品流程里的。
◆模型前規(guī)則、模型后規(guī)則以及決策矩陣:是在決策引擎里部署的。
◆授信模型:在模型引擎里部署,然后把其中的決策模型分給到?jīng)Q策引擎
2、貸前常用的風(fēng)控?cái)?shù)據(jù)
貸前常用的風(fēng)控?cái)?shù)據(jù)包括內(nèi)部和外部數(shù)據(jù)兩類,不同機(jī)構(gòu)用的外部數(shù)據(jù)可能會(huì)各有側(cè)重,內(nèi)部數(shù)據(jù)這幾類大家通常都會(huì)用到:用戶基本信息、ID map數(shù)據(jù)、用戶行為數(shù)據(jù)、歷史借款數(shù)據(jù)、還有一些用戶授權(quán)的其他數(shù)據(jù)。所有內(nèi)部數(shù)據(jù)都是經(jīng)過用戶授權(quán)或用戶自填的。其中,其他授權(quán)數(shù)據(jù)包括設(shè)備指紋信息、聯(lián)系人信息、 GPS位置信息等。聯(lián)系人是用戶自填的緊急聯(lián)系人,并非通訊錄聯(lián)系人。
3、貸前風(fēng)控常用數(shù)據(jù)的流轉(zhuǎn)過程
在貸前怎么應(yīng)用這些數(shù)據(jù)?下面是一個(gè)簡單的流轉(zhuǎn)過程,主要涉及模型引擎部分(其實(shí)在模型引擎給到?jīng)Q策引擎時(shí)也有一些數(shù)據(jù)流轉(zhuǎn),圖中暫未涉及)。首先是在線數(shù)據(jù)的流轉(zhuǎn)過程,數(shù)據(jù)經(jīng)過線上的特征工廠或特征引擎實(shí)時(shí)計(jì)算,輸出特征給模型引擎用于計(jì)算模型分。這份數(shù)據(jù)也會(huì)定期導(dǎo)到線下一份用于離線特征回溯,構(gòu)建離線的模型,訓(xùn)練完成之后會(huì)定期更新線上模型;離線數(shù)據(jù)在特征一致性監(jiān)控中也會(huì)使用。
4、貸前授信模型實(shí)時(shí)決策流程
數(shù)據(jù)獲取
首先是內(nèi)部和外部數(shù)據(jù)的獲取。
內(nèi)部數(shù)據(jù)數(shù)據(jù)獲取是由數(shù)據(jù)接入模塊來做的,它會(huì)調(diào)用業(yè)務(wù)系統(tǒng)提供的各種接口,拿到數(shù)據(jù)用于實(shí)時(shí)特征計(jì)算并將原始數(shù)據(jù)存儲(chǔ)下來用于后續(xù)離線特征使用。
外部數(shù)據(jù)也是數(shù)據(jù)接入模塊獲取的,只是調(diào)用的是外部服務(wù)接口,這里比較關(guān)鍵的是原始數(shù)據(jù)需要完整落表存儲(chǔ),并且針對哪些情況下使用緩存、哪些情況下需要重新查詢數(shù)據(jù)需要有明確的規(guī)范。
特征計(jì)算
我們在貸前主要是用的實(shí)時(shí)特征,也就是說實(shí)時(shí)從接口獲取數(shù)據(jù),然后計(jì)算特征,特征落庫并提供給模型引擎使用。這里遇到的主要問題是特征耗時(shí),我們采取的優(yōu)化手段主要特征預(yù)計(jì)算或者融合計(jì)算。
預(yù)計(jì)算,主要是說提前計(jì)算,在業(yè)務(wù)系統(tǒng)里,有些數(shù)據(jù)是可以提前獲取到的。比如說用戶一進(jìn)到授信的頁面可能就已經(jīng)授權(quán)獲取了設(shè)備指紋數(shù)據(jù),但是實(shí)際到授信模型才用到這個(gè)數(shù)據(jù),中間可能有幾秒的時(shí)間我們可以做特征預(yù)計(jì)算
融合計(jì)算,主要是針對比如“歷史所有XX次數(shù)”這種特征,數(shù)據(jù)量可能比較大、在計(jì)算耗時(shí)比較長的情況下,我們可以先算出來截止昨天24點(diǎn)的特征,然后實(shí)際授信中就只需要計(jì)算今天截止當(dāng)前的新數(shù)據(jù)對應(yīng)特征,然后融合之后作為最終的特征來使用,不過這種方式實(shí)現(xiàn)起來比較復(fù)雜。
模型服務(wù)
基于特征輸出模型分或評(píng)級(jí)。跟特征計(jì)算相比,這里的耗時(shí)其實(shí)還好。目前我們系統(tǒng)里決策模型是同步的,陪跑是異步的,這個(gè)其實(shí)主要也是出于成本的考慮。
以上是貸前授信實(shí)時(shí)決策的流程,我們現(xiàn)在用的主要是實(shí)時(shí)特征,但其實(shí)在一些場景上也有離線批量衍生特征的情況,即特征離線批量算,但線上實(shí)時(shí)去取之前離算離線的結(jié)果。但這種場景在純新用戶上會(huì)完全是空的,所以我們目前應(yīng)用范圍不多,主要還是實(shí)時(shí)特征以及數(shù)據(jù)覆蓋度上的一些考慮;還有一個(gè)就是離線回溯系統(tǒng)的部署,我們在離線建模時(shí)是需要去離線跑這些特征用于離線建模的,內(nèi)部特征的回溯也是有穩(wěn)定性和成本的平衡,比較理想的肯定是搭建一整套的離線回溯系統(tǒng),業(yè)務(wù)系統(tǒng)數(shù)據(jù)定期備份到這里用。但因?yàn)榭紤]到部署成本,實(shí)際在離線回溯時(shí),一些數(shù)據(jù)還是直接去調(diào)業(yè)務(wù)接口,但會(huì)進(jìn)行一些限速,并且做比較嚴(yán)格的監(jiān)控,這塊各家的部署應(yīng)該會(huì)有各家的特點(diǎn)。
5、貸前優(yōu)化的一些嘗試
針對貸前模型我們做了一些優(yōu)化嘗試,第一個(gè)優(yōu)化對系統(tǒng)的改動(dòng)較大,后面兩個(gè)優(yōu)化主要是業(yè)務(wù)層面做的一些嘗試,系統(tǒng)上的改動(dòng)并不算大。
優(yōu)化1:從單模型決策到區(qū)分?jǐn)?shù)據(jù)源類型組合決策
最初我們是單模型決策的,可用的外部數(shù)據(jù)較少,后來隨著可用數(shù)據(jù)的增多,也有一些成本方面的考慮,逐漸區(qū)分?jǐn)?shù)據(jù)源,搭建一些子模型組合決策。之后在數(shù)據(jù)合規(guī)的背景下,把內(nèi)部數(shù)據(jù)源和外部數(shù)據(jù)源做了拆分,以便更好地去適配內(nèi)部決策流和依賴外部數(shù)據(jù)決策流的情況。
為了實(shí)現(xiàn)從單模型決策到區(qū)分內(nèi)外部數(shù)據(jù)源來搭建風(fēng)控模型,系統(tǒng)上做了許多優(yōu)化,這里僅列出了主要的幾項(xiàng),包括決策引擎和模型引擎的改動(dòng)。
優(yōu)化2:數(shù)據(jù)成本優(yōu)化
數(shù)據(jù)成本優(yōu)化主要有兩個(gè)方向:一是從業(yè)務(wù)上拆分子分模型,二是單獨(dú)搭建通過率模型。通過率模型是采用內(nèi)部數(shù)據(jù),以通過率為目標(biāo)搭建的模型,用在授信模型前面,通過率模型拒絕的用戶不再走后面的授信模型。
優(yōu)化3:通過率優(yōu)化
主要包括兩個(gè)方面的嘗試:一是部署前篩規(guī)則或模型。主要從業(yè)務(wù)角度出發(fā)去做的一些嘗試,技術(shù)上會(huì)需要一些適配。前篩模型是部署在資產(chǎn)方的,我們自己系統(tǒng)的改動(dòng)并不大,主要集中在回傳數(shù)據(jù)的一些規(guī)范、存儲(chǔ)和監(jiān)控上有別于我們自己內(nèi)部的模型打出來的分?jǐn)?shù)的;二是對授信階段拒絕的樣本嘗試做一些召回。召回模型的關(guān)鍵點(diǎn)還是在建模時(shí)的數(shù)據(jù)特征、以及樣本的差異,可能會(huì)加一些拒絕推斷的樣本,但是加拒絕樣本也是有一定風(fēng)險(xiǎn)的。風(fēng)控系統(tǒng)上需要做一些適配,但是改動(dòng)不算太大。
二、貸中管理
區(qū)別于貸前,貸中對應(yīng)的場景是在用戶放款之后,在這個(gè)階段用戶的情況、風(fēng)險(xiǎn)情況和貸前相比可能是已經(jīng)有了一些變化,所以需要持續(xù)地觀測、動(dòng)態(tài)評(píng)估這個(gè)變化,再配合貸中可用的一些工具,對用戶進(jìn)行一些提額、降額、凍結(jié)額度這些操作,以及匹配一些運(yùn)營的動(dòng)作,以促進(jìn)回款,達(dá)成業(yè)務(wù)目標(biāo)。
1、貸中系統(tǒng)模塊交互--與貸前差異
在可用工具和系統(tǒng)部署上,貸中和貸前的差別比較明顯。下圖是一個(gè)貸中系統(tǒng)模塊的交互,可以看出從數(shù)據(jù)接入到特征到模型引擎都會(huì)有一些差異:
數(shù)據(jù)方面:主要還是會(huì)涉及到一些離線批量打分存儲(chǔ)的場景,首先它會(huì)增加一個(gè)貸中任務(wù)調(diào)度的模塊,定時(shí)批量的去對目標(biāo)客戶調(diào)數(shù)據(jù)服務(wù),去取貸中數(shù)據(jù),調(diào)用特征引擎計(jì)算特征,調(diào)用模型引擎去打分。再就是數(shù)據(jù)接入需要跟貸前相分離的,包括存儲(chǔ)分離和調(diào)用分離。
特征方面:這是變化最大的部分。貸前我們將實(shí)時(shí)特征給到模型,再給到?jīng)Q策引擎。在貸中是先把這些特征預(yù)計(jì)算并存儲(chǔ),使用時(shí)直接查詢。會(huì)有很多情況導(dǎo)致數(shù)據(jù)存儲(chǔ)不完整,所以會(huì)涉及容錯(cuò)的問題,一般會(huì)取逆序后最新的一條,并加上特征實(shí)際計(jì)算時(shí)間和查詢時(shí)間差的監(jiān)控。
模型方面:包括實(shí)時(shí)模型分和離線模型分兩部分。貸中也會(huì)有一些實(shí)時(shí)的模型打分給到?jīng)Q策引擎。離線部分會(huì)把模型分批量計(jì)算后存儲(chǔ)下來,用于決策引擎查詢。
2、貸中管理常用數(shù)據(jù)
貸中比貸前的可用數(shù)據(jù)豐富很多,首先貸前內(nèi)部數(shù)據(jù)是全部可用的,還增加了一些貸前變化類的數(shù)據(jù),以及用戶的貸中行為數(shù)據(jù)。此外在外部數(shù)據(jù)上有一些差異,會(huì)有專門適配貸中批量查詢的數(shù)據(jù)源產(chǎn)品。相對地,貸前可以用的產(chǎn)品如果打算在貸中批量地去用,需要考慮產(chǎn)品的收費(fèi)模式,以及批量查詢的數(shù)據(jù)成本是否可以承擔(dān)。
3、貸中離線模型決策流程
貸中離線模型的決策過程主要還是適配離線批量計(jì)算的場景。直觀看是增加了幾個(gè)存儲(chǔ)的環(huán)節(jié),數(shù)據(jù)調(diào)用、特征計(jì)算、模型打分都是計(jì)算后先存儲(chǔ)后查詢,以及容錯(cuò)和監(jiān)控。
4、貸中模型應(yīng)用場景
貸中管理應(yīng)該是一整套的體系,包括策略、模型、運(yùn)營各個(gè)方面,涉及的內(nèi)容會(huì)很多,我們的介紹主要集中在模型工具方面。具體包括在復(fù)貸、存量用戶運(yùn)營場景上都會(huì)有一些貸中模型可以使用。下圖右側(cè)列出了一些可以使用的模型工具。
復(fù)貸準(zhǔn)入環(huán)節(jié)我們可以使用跟貸前類似的實(shí)時(shí)風(fēng)險(xiǎn)模型,也可以使用貸中用戶行為模型,通常是這兩種模型結(jié)合起來用。
存量用戶運(yùn)營環(huán)節(jié)使用更多的是離線批量模型,主要包括下面幾類:
貸中行為模型:就是我們通常說的b卡。
提前結(jié)清模型:這個(gè)模型主要是在貸中盡量去識(shí)別用戶的提前結(jié)清行為,然后做一些針對性的運(yùn)營操作,盡量提高用戶的留存,增加收入。
借貸意愿評(píng)估模型:主要針對授信通過甚至有過支用的用戶,然后評(píng)估其接下來一段時(shí)間的借貸意愿。
三、貸后管理
貨后管理的主要目標(biāo)是提高回款率,降低違約。但這塊介紹會(huì)比較簡單,因?yàn)楹唾J前、貸中不一樣,貸后的場景主要還是以運(yùn)營為主,模型或規(guī)則更多的是作為工具提供一些輔助作用。決策引擎輸出的分?jǐn)?shù)或評(píng)級(jí),我們會(huì)在貸后系統(tǒng)里做展示,但是實(shí)際的決策更多地還是由負(fù)責(zé)貸后的同學(xué)來完成的。所以在系統(tǒng)部署方面更復(fù)雜的是貸后業(yè)務(wù)系統(tǒng)的開發(fā)或部署。在決策引擎和貸后系統(tǒng)的交互主要是會(huì)提供一些分?jǐn)?shù)和評(píng)級(jí)在系統(tǒng)里做展示,常用的模型工具有回款客訴、失聯(lián)等模型。
1、貸后管理常用數(shù)據(jù)
貸后數(shù)據(jù)包括外部數(shù)據(jù)和內(nèi)部數(shù)據(jù),需要注意的點(diǎn)是數(shù)據(jù)的獲取時(shí)間和應(yīng)用時(shí)間是需要匹配的。貸后可用的數(shù)據(jù)會(huì)更豐富一些,跟貸前和貸中相比,貸后模型比較容易做出區(qū)分度,但是模型的應(yīng)用是個(gè)挑戰(zhàn)。
2、貸后模型應(yīng)用場景
貸后模型應(yīng)用的場景主要是違約、客訴,及失聯(lián)。比較典型的應(yīng)用有回款率預(yù)測和客訴風(fēng)險(xiǎn)預(yù)測模型:
回款率預(yù)測模型
預(yù)測已經(jīng)逾期的用戶在未來一段時(shí)間內(nèi)回款的概率。Y會(huì)根據(jù)貸后不同階段有所不同,早期回款的可能性會(huì)比較大,越到后期回款越難。在做這個(gè)模型時(shí)可能會(huì)有不同顆粒度的樣本,比如用戶維度、訂單維度或賬單維度。
針對賬單或訂單維度的模型,模型評(píng)估時(shí)需要先剔除掉在訓(xùn)練樣本中已經(jīng)出現(xiàn)的用戶,否則看到的可能是虛假的效果。在應(yīng)用方式上,貸后的不同階段會(huì)有差異化的運(yùn)營策略,以及不同的實(shí)驗(yàn)方案設(shè)計(jì)。
客訴風(fēng)險(xiǎn)預(yù)測模型
主要用于在貸后階段去預(yù)測用戶可能發(fā)生投訴的風(fēng)險(xiǎn),以方便貸后的同事采取一些差異化的應(yīng)對方式。引發(fā)客訴的原因是多種多樣的,考慮到樣本量,我們僅選主要因素來建模。Y的選取時(shí)需要做一些數(shù)據(jù)清洗的工作;在數(shù)據(jù)方面,部分?jǐn)?shù)據(jù)源其實(shí)還是和風(fēng)險(xiǎn)是有相關(guān)性的,比如多頭數(shù)目更大,首次借款時(shí)間更早的用戶,發(fā)生客訴的概率可能也會(huì)更大;
模型應(yīng)用上,還是會(huì)區(qū)分貸前和貸后,在貸前使用時(shí)就需要額外關(guān)注跟風(fēng)險(xiǎn)模型的相關(guān)性,如果兩種模型相關(guān)性很高的話,這個(gè)客訴模型應(yīng)用起來難度會(huì)比較大,需要平衡通過率,在模型應(yīng)用上需要有一些設(shè)計(jì)。
四、監(jiān)控搭建
監(jiān)控方向上主要看準(zhǔn)確性、穩(wěn)定性和有效性,監(jiān)控形式上會(huì)有日常監(jiān)控和監(jiān)控預(yù)警。這塊的內(nèi)容主要是技術(shù)上的搭建,不同的公司會(huì)差距會(huì)比較大,因?yàn)榇蠹視?huì)基于自己的業(yè)務(wù)系統(tǒng)或大數(shù)據(jù)環(huán)境來設(shè)計(jì),技術(shù)選型上可能差異比較大,但是報(bào)表的內(nèi)容還是比較通用的。下面列舉了幾個(gè)不同維度的監(jiān)控內(nèi)容:
業(yè)務(wù)監(jiān)控
模型監(jiān)控
特征與數(shù)據(jù)監(jiān)控
下圖是各場景下監(jiān)控的匯總,包括業(yè)務(wù)、模型、特征、數(shù)據(jù)字段以及服務(wù)接口,每個(gè)下面都會(huì)有一些監(jiān)控的點(diǎn),也會(huì)涉及到一些預(yù)警,其提示的機(jī)制也是不一樣的。
五、內(nèi)容匯總
文章首先是結(jié)合實(shí)際場景,列出了貸前、貸中和貸后可用的風(fēng)控模型工具,接著介紹了這些工具在風(fēng)控系統(tǒng)重是如何部署的,以及在貸前、貸中部署上的差異,最后列出監(jiān)控及預(yù)警系統(tǒng)通常涵蓋的內(nèi)容。