您是否需要確定自己的數(shù)據(jù)集存在性別或種族方面的偏誤?是否需要確保所使用的機(jī)器學(xué)習(xí)模型沒有偏誤,即使數(shù)據(jù)有偏誤?如果您對上述問題的回答是肯定的,那么這篇文章就適合您閱讀。
偏誤簡介
偏誤是指有意識或無意識地傾向于某一特定群體,通常排斥其他人群。對于屬于某些種族、民族、性別、能力和宗教群體的人來說,偏誤會導(dǎo)致歧視,并在機(jī)會和成功方面造成系統(tǒng)性障礙。在有偏誤的世界中生成的數(shù)據(jù)本身就是有偏誤的。創(chuàng)建和部署機(jī)器學(xué)習(xí)模型總是伴隨著顯著的偏誤風(fēng)險(xiǎn)。因此,機(jī)器學(xué)習(xí)解決方案環(huán)境應(yīng)該提供人類可用的解釋以檢測和糾正偏誤。
問責(zé)制和可訪問性在處理偏誤方面至關(guān)重要。需要問責(zé)制確保任何注意到偏誤的人都能采取行動。生產(chǎn)環(huán)境中機(jī)器學(xué)習(xí)系統(tǒng)的可訪問性便于及時(shí)處理偏誤。審計(jì)日志可以部分解決問責(zé)制。通過自動化和易于使用的UI/UX降低機(jī)器學(xué)習(xí)的進(jìn)入門檻有助于提高可訪問性。
本文將解釋如何通過針對數(shù)據(jù)和機(jī)器學(xué)習(xí)模型的系統(tǒng)來檢測和處理與數(shù)據(jù)相關(guān)的偏誤和與模型相關(guān)的偏誤。按照定義,與數(shù)據(jù)相關(guān)的偏誤是數(shù)據(jù)集中已經(jīng)存在的偏誤。比如在客戶流失預(yù)測用例中,90%的數(shù)據(jù)集可能含有白人客戶,導(dǎo)致數(shù)據(jù)集存在種族偏誤。按照定義,與模型相關(guān)的偏誤指模型內(nèi)生成的偏誤。在這種情況下,由于白人占人口的90%,旨在盡量減小誤差的模型可以更好地預(yù)測白人的流失,從而導(dǎo)致模型出現(xiàn)種族偏誤。若使用這種模型采取行動以防止客戶流失,會導(dǎo)致非白人群體得不到充足的服務(wù)。
數(shù)據(jù)偏誤的檢測
當(dāng)數(shù)據(jù)集的一些變量值比其他變量值更頻繁地出現(xiàn)時(shí),就會出現(xiàn)第一種、也是最常見的數(shù)據(jù)相關(guān)偏誤(代表偏誤)。比如在臨床試驗(yàn)中,90%的參與者可能是男性。
通過重新采樣數(shù)據(jù)以平等地代表不同的群體,可以部分地處理代表偏誤。然而,當(dāng)代表性不足的群體的信息和細(xì)節(jié)較少時(shí),機(jī)器學(xué)習(xí)模型對這個(gè)群體的學(xué)習(xí)可能會較少。
當(dāng)存在與目標(biāo)特征高度相關(guān)的變量時(shí),也會出現(xiàn)與數(shù)據(jù)相關(guān)的偏誤。為了根據(jù)某些敏感特征檢測偏誤,可以計(jì)算出特征相關(guān)性(即每列相對目標(biāo)特征的相關(guān)性)。用戶可以忽略可能導(dǎo)致偏誤的高度相關(guān)的敏感特征,比如性別或年齡。請注意,線性相關(guān)測量可能不適用于同時(shí)含有離散特征和連續(xù)特征(即非線性相關(guān)性)的數(shù)據(jù)集。使用歸一化互信息有助于解決這個(gè)問題。
即使去除了敏感的相關(guān)特征,也可能存在與那些敏感特征相關(guān)的其他特征。比如說,郵政編碼可能與種族高度相關(guān)。即使從模型構(gòu)建中去除種族,保留郵政編碼仍然可能導(dǎo)致有偏誤的模型。根據(jù)變量之間的相關(guān)性對變量進(jìn)行聚類或分組可能有助于檢測和去除這類相關(guān)特征。檢測復(fù)雜數(shù)據(jù)偏誤的另一種方法是為每個(gè)敏感特征創(chuàng)建機(jī)器學(xué)習(xí)模型。應(yīng)該忽略機(jī)器學(xué)習(xí)模型中對這些敏感特征的預(yù)測貢獻(xiàn)最大的特征。
機(jī)器學(xué)習(xí)模型偏誤的檢測
對于與模型相關(guān)的偏誤,要同時(shí)考慮機(jī)器學(xué)習(xí)模型的輸入和模型的輸出預(yù)測。當(dāng)數(shù)據(jù)集不平衡時(shí),敏感特征可能與目標(biāo)特征過于相關(guān)而導(dǎo)致偏誤。一些機(jī)器學(xué)習(xí)平臺在構(gòu)建模型時(shí)分配自動類權(quán)重,以強(qiáng)調(diào)未充分代表的類。
機(jī)器學(xué)習(xí)模型解釋也有助于檢測和預(yù)防與模型相關(guān)的偏誤。存在局部或全局特征的重要性,比如SHAP或LIME,提供了關(guān)于每個(gè)特征的值如何影響模型結(jié)果的信息。比如說,如果年齡增加導(dǎo)致信用評分預(yù)測降低,那么模型具有與年齡相關(guān)的偏誤。然而,很難確定偏誤在模型中的確切位置??梢允褂靡子诮忉尩拇砟P徒忉?,比如線性模型或決策樹。代理模型近似并解釋用于決策制定的底層機(jī)器學(xué)習(xí)模型。它們允許更細(xì)粒度地檢測偏誤。決策樹代理模型包含模型預(yù)測的自動生成的微分段,每個(gè)類似一個(gè)規(guī)則(比如說,如果代理類型是老年人,性別是男性,那么該客戶就會流失)。
檢測到機(jī)器模型上的偏誤(或任何其他問題)后,行動的容易程度和速度決定了解決集訓(xùn)的速度有多快。創(chuàng)建并共享數(shù)據(jù)和模型解釋可以幫助用戶更快地采取行動。
結(jié)語
你可以系統(tǒng)地檢測和預(yù)防數(shù)據(jù)和機(jī)器學(xué)習(xí)模型中的偏誤。比如通過雇用來自不同背景的用戶,并為他們提供人工智能,不僅有助于更好地檢測和預(yù)防偏誤,還有助于糾正偏誤檢測系統(tǒng)或機(jī)器學(xué)習(xí)模型失敗或被人做手腳的情況。