2022年,數(shù)據(jù)和人工智能為數(shù)字革命新篇章奠定基礎(chǔ),并為越來(lái)越多的全球公司提供動(dòng)力。那么,公司如何確保責(zé)任和道德是這些革命性技術(shù)的核心?
1.定義數(shù)據(jù)和人工智能的責(zé)任
注釋者和數(shù)據(jù)標(biāo)記者間缺少多元化樣本是導(dǎo)致人工智能偏差的最大因素之一。
VentureBeat數(shù)據(jù)峰會(huì)的小組成員、東北大學(xué)Khoury計(jì)算機(jī)科學(xué)學(xué)院公民人工智能實(shí)驗(yàn)室的助理教授兼主任Saiph Savage表示,負(fù)責(zé)任的人工智能需要從具有包容性的基礎(chǔ)工作開(kāi)始做起。
“其中要考慮的關(guān)鍵問(wèn)題是,需要不同類(lèi)型的勞動(dòng)力為其進(jìn)行數(shù)據(jù)標(biāo)記。”Savage在VentureBeat的數(shù)據(jù)峰會(huì)上表示,假設(shè)工人僅來(lái)自紐約,那么,其與來(lái)自農(nóng)村地區(qū)的工人信息標(biāo)簽方式就存在不同。這取決于工人不同類(lèi)型的經(jīng)歷和不同類(lèi)型的偏見(jiàn)。”
據(jù)行業(yè)專(zhuān)家解釋?zhuān)?dāng)今生產(chǎn)中的大量人工智能模型需要帶注釋、標(biāo)記的數(shù)據(jù)來(lái)學(xué)習(xí),用以增強(qiáng)人工智能的智能,并最終增強(qiáng)機(jī)器整體能力。
能夠支持這一點(diǎn)的技術(shù)很復(fù)雜,其中包括自然語(yǔ)言處理 (NLP)、計(jì)算機(jī)視覺(jué)和情感分析等,而這些技術(shù)的復(fù)雜性將決定訓(xùn)練人工智能的誤差范圍。
研究表明,即使是著名的NLP語(yǔ)言模型中也包含種族、宗教、性別和職業(yè)偏見(jiàn)。同樣,在研究人員所記錄的計(jì)算機(jī)視覺(jué)算法中的偏見(jiàn)證據(jù)顯示,這些模型會(huì)自動(dòng)從在線刻板地描繪人群(按種族、性別、體重等)的數(shù)據(jù)中學(xué)習(xí)到偏見(jiàn),即使是情緒分析模型也面臨同樣的挑戰(zhàn)。
全球數(shù)據(jù)標(biāo)簽平臺(tái)Toloka AI的數(shù)據(jù)峰會(huì)小組成員兼首席執(zhí)行官Olga Megorskaya認(rèn)為,負(fù)責(zé)任的人工智能很重要,但是,它只有在可操作的情況下才能發(fā)揮作用。面向企業(yè)時(shí),負(fù)責(zé)任人工智能需要隨時(shí)監(jiān)控生產(chǎn)中部署的模型質(zhì)量及人工智能決策來(lái)源。用戶(hù)需要了解模型訓(xùn)練數(shù)據(jù),并根據(jù)模型運(yùn)行的上下文來(lái)對(duì)其不斷進(jìn)行更新。因此,負(fù)責(zé)任的人工智能意味著需要負(fù)責(zé)任地對(duì)待訓(xùn)練人工智能模型的幕后行動(dòng)人,而這也是現(xiàn)階段許多研究人員和大學(xué)密切合作的地方。
2.可解釋性和透明度
如果負(fù)責(zé)任的人工智能具有可操作性,那么人工智能背后的可解釋性和透明度與信息情緒同樣重要。這些信息情緒將取決于處理數(shù)據(jù)的注釋員和標(biāo)簽商以及使用Toloka等服務(wù)的公司客戶(hù)。
Toloka自2014年啟動(dòng)起,便將自己定位于眾包平臺(tái)和微任務(wù)處理項(xiàng)目,即從全球范圍尋找不同的個(gè)人,用以快速標(biāo)記大量數(shù)據(jù),然后用于機(jī)器學(xué)習(xí)和改進(jìn)搜索算法。
在過(guò)去八年間,Toloka已然擴(kuò)張,現(xiàn)階段,該項(xiàng)目擁有來(lái)自全球100多個(gè)國(guó)家的數(shù)據(jù)注釋和標(biāo)簽的20多萬(wàn)用戶(hù)。同時(shí),Toloka還開(kāi)發(fā)了工具來(lái)幫助檢測(cè)數(shù)據(jù)集和工具中的偏差,這些工具能夠快速反饋可能會(huì)影響請(qǐng)求公司接口、項(xiàng)目或工具等與標(biāo)記項(xiàng)目有關(guān)的問(wèn)題。此外,Toloka還與Savage工作的東北大學(xué)Khoury計(jì)算機(jī)科學(xué)學(xué)院的Civic AI實(shí)驗(yàn)室中的研究人員存在密切合作。
Megorskaya表示,人工智能和數(shù)據(jù)標(biāo)簽市場(chǎng)的公司應(yīng)該努力實(shí)現(xiàn)透明度和可解釋性,這將“符合工人的利益,也符合企業(yè)的利益,使其成為每個(gè)人都能從共同發(fā)展中獲得優(yōu)勢(shì)的雙贏局面。”
Megorskaya建議企業(yè)保持對(duì)以下內(nèi)容的調(diào)整,以確保內(nèi)部和外部的透明度和可解釋性:
1、不斷調(diào)整人工智能培訓(xùn)的數(shù)據(jù),使用能夠反映當(dāng)前的現(xiàn)實(shí)生活情況的數(shù)據(jù)。
2、衡量模型質(zhì)量,并使用這些信息來(lái)構(gòu)建模型質(zhì)量指標(biāo),用以跟蹤改進(jìn)超時(shí)性能。
3、保持靈活度,將透明度視為數(shù)據(jù)標(biāo)簽人在進(jìn)行注釋時(shí)應(yīng)遵循的可見(jiàn)性準(zhǔn)則。
4、保證反饋易于訪問(wèn),并優(yōu)先處理。
例如,Toloka的平臺(tái)提供了對(duì)可用任務(wù)的可見(jiàn)性以及為從事這項(xiàng)工作的標(biāo)簽工提供出指南,確保進(jìn)行標(biāo)簽的工人和公司能夠進(jìn)行直接、快速的反饋循環(huán)。如果需要調(diào)整標(biāo)簽規(guī)則或指南,其就可以在短時(shí)間內(nèi)進(jìn)行更改。而這一標(biāo)準(zhǔn),為標(biāo)簽團(tuán)隊(duì)提供了空間,讓他們能夠以更統(tǒng)一、準(zhǔn)確及更新的方式處理數(shù)據(jù)標(biāo)簽過(guò)程的其余部分,用以人為本的方法解決可能出現(xiàn)的偏見(jiàn)留出空間。
3.將“人性”推向創(chuàng)新的最前沿
Megorskaya和Savage均表示,通常,外包標(biāo)簽和培訓(xùn)人工智能模型的公司是不會(huì)選擇與實(shí)際標(biāo)記數(shù)據(jù)的個(gè)人進(jìn)行互動(dòng)的。因此,公司把數(shù)據(jù)標(biāo)簽和注釋任務(wù)留給第三方或外包的決定將使得其本身在人工智能負(fù)責(zé)任開(kāi)發(fā)方面造成裂痕。
Toloka認(rèn)為,消除人工智能生產(chǎn)領(lǐng)域偏見(jiàn)并打破系統(tǒng)斷開(kāi)的循環(huán),能夠讓人工智能和機(jī)器學(xué)習(xí)更具包容性和代表性。
而他們也希望能夠?yàn)檫@一變化鋪平道路,并讓開(kāi)發(fā)工程師要求公司面對(duì)面地與數(shù)據(jù)標(biāo)簽商會(huì)面。這樣一來(lái),能夠了解到其數(shù)據(jù)和人工智能存在的用戶(hù)多樣性。若公司技術(shù)影響到真實(shí)人員、地點(diǎn)和社區(qū)的可見(jiàn)性,工程最終將造成差距,而消除這一差距將為團(tuán)隊(duì)建造出更有利的發(fā)展。
"在現(xiàn)代世界,非有效人工智能模型可以根據(jù)一小部分預(yù)選人員收集的一些數(shù)據(jù)進(jìn)行培訓(xùn),而他們一生都在做這個(gè)注釋。”Megorskaya說(shuō)道。
現(xiàn)下,Toloka正在構(gòu)建數(shù)據(jù)表用以展示工人可能存在的偏見(jiàn)。
“當(dāng)您進(jìn)行數(shù)據(jù)標(biāo)簽時(shí),這些工作表會(huì)顯示員工擁有的背景類(lèi)型及可能缺少的背景等信息。”Savage解釋道,這對(duì)開(kāi)發(fā)人員和研究人員來(lái)說(shuō)特別有幫助,這樣他們就可以做出決定,獲得下次運(yùn)行中可能缺失的背景和視角,使模型更具包容性。
盡管每個(gè)數(shù)據(jù)集和模型中都涵蓋無(wú)數(shù)種族、人員背景及經(jīng)驗(yàn)似乎是一項(xiàng)艱巨的任務(wù)。但對(duì)此,Savage和Megorskaya強(qiáng)調(diào),對(duì)企業(yè)、研究人員和開(kāi)發(fā)人員而言,增強(qiáng)公平和負(fù)責(zé)任的人工智能的最重要的方法就是讓盡可能多的主要利益相關(guān)者參與進(jìn)來(lái),因?yàn)榧m正偏見(jiàn)是比這項(xiàng)工作更困難的任務(wù)。
“人工智能很難做到絕對(duì)負(fù)責(zé)和合乎道德,但盡可能貼近這一目標(biāo)十分重要。”Megorskaya表示,需要擁有盡可能廣泛和包容的代表性,以便為工程師提供負(fù)責(zé)任地有效構(gòu)建人工智能的最佳工具。