引人注意的十大由AI造成的災(zāi)難案例

沃卡惠
行業(yè)資訊
2024-04-19 09:28:58
64

2017年，《經(jīng)濟學(xué)人》宣稱數(shù)據(jù)已取代石油成為世界上最有價值的資源，這一說法自此一直被重復(fù)?？缭礁鱾€行業(yè)的企業(yè)一直在投資數(shù)據(jù)和分析，并將持續(xù)大舉投資，但就像石油一樣，數(shù)據(jù)和分析也有其陰暗面。

根據(jù)《CIO》雜志2023年的《CIO狀態(tài)報告》，26%的IT領(lǐng)導(dǎo)者表示機器學(xué)習(xí)(ML)和AI將推動最多的IT投資。雖然由ML算法驅(qū)動的行為可以給組織帶來競爭優(yōu)勢，但錯誤可能在聲譽、收入甚至生命方面造成高昂的代價。

理解你的數(shù)據(jù)及其所傳達(dá)的信息很重要，但同樣重要的是了解你的工具，了解你的數(shù)據(jù)，并始終牢記組織的價值觀。

以下是過去十年中一些引人注意的AI失誤，揭示了可能出現(xiàn)的問題。

加拿大航空因聊天機器人的錯誤信息支付賠償金

2024年2月，加拿大航空被命令向一名乘客支付賠償金，因為其虛擬助手在特別困難的時期給了他錯誤的信息。

杰克·莫法特在2023年11月祖母去世后，咨詢了加拿大航空的虛擬助手關(guān)于喪親票價的信息。聊天機器人告訴他，他可以以常規(guī)價格購買從溫哥華到多倫多的機票，并在購買后90天內(nèi)申請喪親折扣。遵循這一建議，莫法特購買了一張單程794.98加元的多倫多機票和845.38加元的返回溫哥華的機票。

但是當(dāng)莫法特提交退款申請時，航空公司拒絕了他的請求，聲稱喪親票價不能在購票后申請。

莫法特隨后將加拿大航空告到加拿大的一個仲裁庭，聲稱航空公司疏忽并通過其虛擬助手誤傳了信息。根據(jù)仲裁委員克里斯托弗·里弗斯的說法，加拿大航空辯稱不能為其聊天機器人提供的信息承擔(dān)責(zé)任。

里弗斯駁回了這一論點，指出航空公司沒有“采取合理的注意確保其聊天機器人的準(zhǔn)確性”，因此他命令航空公司支付給莫法特812.02加元，其中包括650.88加元的損害賠償。

《體育畫報》可能發(fā)表了虛假作者的文章

2023年11月，在線雜志《未來主義》表示，《體育畫報》正在發(fā)表由AI生成的作者撰寫的文章。

《未來主義》援引匿名消息來源稱，涉及內(nèi)容創(chuàng)建，還指出這家著名體育雜志發(fā)表了“很多”虛假作者的文章，一些在這些虛假作者名下的文章也是由AI生成的。

這家在線雜志發(fā)現(xiàn)，相關(guān)作者的頭像在一個銷售AI生成肖像的網(wǎng)站上有列出?！段磥碇髁x》隨后聯(lián)系了《體育畫報》的出版商Arena Group，后者在一份聲明中說，相關(guān)文章是來自第三方AdVon Commerce的授權(quán)內(nèi)容。

“我們持續(xù)監(jiān)控我們的合作伙伴，并且在這些指控提出時正在進行審核，”Arena Group在提供給《未來主義》的聲明中說。“AdVon向我們保證，所有涉及的文章均由人類撰寫和編輯。”

聲明還提到，AdVon的作者在某些文章中使用筆名或化名，同時指出Arena Group不認(rèn)同這些行為。隨后，Arena Group從《體育畫報》網(wǎng)站上撤下了有問題的文章。

針對《未來主義》的報道，體育畫報工會發(fā)表聲明表示對這些指控感到震驚，并要求Arena Group管理層給出答案和透明度。

“如果這些做法屬實，它們違反了我們對新聞業(yè)的所有信仰，”體育畫報工會在聲明中說。“我們對與如此不尊重我們讀者的事情相關(guān)聯(lián)感到厭惡。”

甘內(nèi)特公司的AI在高中體育文章中出錯

2023年8月，新聞集團甘尼特宣布將暫停使用一種名為LedeAI的AI工具，此前由該AI撰寫的幾篇報道因重復(fù)、寫作質(zhì)量差且缺乏關(guān)鍵細(xì)節(jié)而在網(wǎng)絡(luò)上走紅。

CNN指出了一個例子，被互聯(lián)網(wǎng)檔案館的Wayback Machine保存下來，文章開頭寫道：“沃辛頓基督教[[WINNING_TEAM_MASCOT]]在周六的俄亥俄州男子足球比賽中以2-1擊敗了韋斯特維爾北部[[LOSING_TEAM_MASCOT]]。”

CNN還發(fā)現(xiàn)LedeAI為甘尼特旗下其他地方性報紙撰寫了類似的故事，包括路易斯維爾信使日報、亞利桑那中央、佛羅里達(dá)今日以及密爾沃基日報哨兵報。

在這些故事在社交媒體上被廣泛嘲笑后，甘尼特選擇在所有使用該服務(wù)的地方市場暫停使用LedeAI。

在給CNN的一份聲明中，LedeAI的首席執(zhí)行官Jay Allred表示遺憾，并承諾全天候努力糾正問題。

iTutor Group 的招聘 AI 會因年齡原因拒絕應(yīng)聘者

在2023年8月，輔導(dǎo)公司iTutor Group同意支付365,000美元，以解決由美國平等就業(yè)機會委員會(EEOC)提起的訴訟。聯(lián)邦機構(gòu)指出，這家為中國學(xué)生提供遠(yuǎn)程輔導(dǎo)服務(wù)的公司使用了AI驅(qū)動的招聘軟件，該軟件自動拒絕了55歲及以上的女性申請者以及60歲及以上的男性申請者。

EEOC表示，有超過200名合格的申請者被軟件自動拒絕。

EEOC主席Charlotte A. Burrows在一份聲明中表示：“年齡歧視是不公正且非法的。即使技術(shù)自動化了歧視，雇主仍然要負(fù)責(zé)。”

iTutor Group否認(rèn)任何不當(dāng)行為，但決定和解此案。作為和解和同意令的一部分，它同意采納新的反歧視政策。

ChatGPT虛構(gòu)法庭案件

2023年大型語言模型(LLMs)的進步引發(fā)了對生成性AI在幾乎所有行業(yè)變革潛力的廣泛興趣。OpenAI的ChatGPT處于這一興趣高漲的中心，預(yù)示著生成AI如何具有在商業(yè)的幾乎每個角落中顛覆工作性質(zhì)的能力。

但這項技術(shù)在能夠可靠地接管大部分業(yè)務(wù)流程之前還有很長的路要走，正如律師Steven A. Schwartz在2023年遭遇美國地區(qū)法官P. Kevin Castel的困境時發(fā)現(xiàn)的那樣，當(dāng)時他使用ChatGPT來研究針對哥倫比亞航空公司Avianca的訴訟中的先例。

施瓦茨律師在Levidow, Levidow & Oberman律師事務(wù)所使用OpenAI生成的AI聊天機器人來尋找先前的案例，以支持Avianca員工Roberto Mata因2019年受傷而提起的訴訟。問題在于?提交給法庭的至少六個案例并不存在。在5月提交的文件中，Castel法官指出施瓦茨提交的案例包括虛假的名稱和案件編號，以及偽造的內(nèi)部引用和引述。施瓦茨的合伙人Peter LoDuca是Mata的案件律師，并且簽署了訴狀，這也使他自己陷入了危險之中。

在一份宣誓書中，施瓦茨告訴法庭這是他第一次使用ChatGPT作為法律研究來源，并“沒有意識到其內(nèi)容可能是虛假的”。他承認(rèn)沒有確認(rèn)AI聊天機器人提供的來源。他還表示，“非常后悔在此次法律研究中使用了生成式AI，將來在沒有絕對驗證其真實性之前，絕不再使用。”

2023年6月，Castel法官對施瓦茨和LoDuca各處以5000美元罰款。在6月的另一項裁決中，Castel法官駁回了Mata對Avianca的訴訟。

AI算法識別一切除了COVID-19之外

自2020年COVID-19大流行開始以來，許多組織試圖應(yīng)用機器學(xué)習(xí)算法幫助醫(yī)院更快地診斷或分流病人。但據(jù)英國圖靈研究所——一個國家級的數(shù)據(jù)科學(xué)和AI中心稱，這些預(yù)測工具幾乎沒有幫助。

《麻省理工科技評論》記錄了多起失敗案例，這些失敗大多是由于工具的訓(xùn)練或測試方式出錯所致。使用標(biāo)簽錯誤的數(shù)據(jù)或來源不明的數(shù)據(jù)是常見的原因。

德里克·德里格斯(Derek Driggs)是劍橋大學(xué)的機器學(xué)習(xí)研究員，他與同事們在《自然機器智能》雜志上發(fā)表了一篇論文，探討了深度學(xué)習(xí)模型在診斷該病毒方面的應(yīng)用。這篇論文確定了這種技術(shù)不適合臨床使用。例如，德里格斯的團隊發(fā)現(xiàn)他們自己的模型存在缺陷，因為它是根據(jù)包括躺著和站立掃描的病人的數(shù)據(jù)集來訓(xùn)練的。躺著的病人更有可能嚴(yán)重患病，因此算法學(xué)會了根據(jù)掃描中人的位置來識別COVID風(fēng)險。

類似的例子還包括一個訓(xùn)練數(shù)據(jù)集包括健康兒童的胸部掃描的算法。該算法學(xué)會了識別兒童，而不是高風(fēng)險病人。

Zillow因算法購房災(zāi)難虧損數(shù)百萬，大幅裁員

2021年11月，線上房地產(chǎn)市場Zillow對股東表示，將關(guān)閉其Zillow Offers業(yè)務(wù)，并在未來幾個季度內(nèi)裁減公司25%的員工——約2000名員工。房屋翻轉(zhuǎn)部門的困境是由于其用來預(yù)測房價的ML算法的錯誤率所致。

Zillow Offers是一個程序，通過該程序，公司根據(jù)從ML算法派生的房屋價值“Zestimate”對房產(chǎn)進行現(xiàn)金報價。該想法是翻新這些房產(chǎn)并快速轉(zhuǎn)手出售。但Zillow的一位發(fā)言人告訴CNN，該算法的中位數(shù)錯誤率為1.9%，對于非市場房屋，錯誤率高達(dá)6.9%。

CNN報道稱，自2018年4月Zillow Offers推出以來，Zillow通過該程序購買了27,000套房屋，但截至2021年9月底只賣出了17,000套。COVID-19大流行和家庭裝修勞動力短缺等“黑天鵝”事件加劇了算法的準(zhǔn)確性問題。

Zillow 承認(rèn)該算法導(dǎo)致其無意中以高于未來預(yù)估售價的價格購買了房屋，從而導(dǎo)致2021年第三季度賬面價值減記3.04億美元。

在宣布后與投資者的電話會議中，Zillow聯(lián)合創(chuàng)始人兼首席執(zhí)行官Rich Barton表示，可能可以調(diào)整算法，但最終風(fēng)險過大。

醫(yī)療算法未能標(biāo)記出黑人患者

2019年，《科學(xué)》雜志發(fā)表的一項研究揭示，一種被全美各地醫(yī)院和保險公司用來識別需要“高風(fēng)險護理管理”項目的病人的醫(yī)療預(yù)測算法，不太可能標(biāo)記出黑人病人。

高風(fēng)險護理管理計劃為慢性病患者提供訓(xùn)練有素的護理人員和初級保健監(jiān)控，以防止嚴(yán)重并發(fā)癥。但該算法更有可能推薦白人患者參加這些計劃，而不是黑人患者。

該研究發(fā)現(xiàn)，該算法使用醫(yī)療支出作為判斷個體醫(yī)療需求的代理指標(biāo)。但根據(jù)《科學(xué)美國人》雜志，病情較重的黑人患者的醫(yī)療成本與健康狀況較好的白人相當(dāng)，這意味著即使他們的需求更大，他們也獲得了較低的風(fēng)險評分。

研究人員提出，可能有幾個因素導(dǎo)致了這種情況。首先，有色人種更可能有較低的收入，這即使在有保險的情況下，也可能使他們不太可能獲得醫(yī)療服務(wù)。隱性偏見也可能導(dǎo)致有色人種接受到的護理質(zhì)量較低。

盡管研究沒有指明算法或開發(fā)者的名稱，研究人員告訴《科學(xué)美國人》雜志，他們正在與開發(fā)者合作解決這一問題。

微軟聊天機器人因訓(xùn)練數(shù)據(jù)集而發(fā)表種族歧視推文

2016年3月，微軟發(fā)現(xiàn)使用Twitter互動作為機器學(xué)習(xí)算法的訓(xùn)練數(shù)據(jù)可能帶來令人沮喪的結(jié)果。

微軟在社交媒體平臺上發(fā)布了名為Tay的AI聊天機器人，并描述它是“對話理解”的實驗。其設(shè)計理念是讓聊天機器人扮演一個青少年女孩的角色，并通過Twitter與人們互動，這一過程結(jié)合了機器學(xué)習(xí)和自然語言處理技術(shù)。微軟使用匿名的公共數(shù)據(jù)和一些由喜劇演員預(yù)編寫的內(nèi)容進行種子填充，然后讓它在社交網(wǎng)絡(luò)上自由學(xué)習(xí)和進化。

在16小時內(nèi)，該聊天機器人發(fā)布了超過95,000條推文，這些推文迅速變得公然種族歧視、厭女以及反猶太人。微軟迅速暫停了這項服務(wù)進行調(diào)整，并最終徹底停止了該項目。

事件發(fā)生后，微軟研究與孵化部門的公司副總裁(當(dāng)時為微軟醫(yī)療部門的公司副總裁)Peter Lee在微軟官方博客上發(fā)文道歉：“我們對Tay發(fā)布的那些無意的、具有攻擊性和傷害性的推文深表歉意，這些并不代表我們是誰，也不代表我們所追求的目標(biāo)，更不是我們設(shè)計Tay的方式。”

李指出，Tay的前身——微軟于2014年在中國發(fā)布的小冰，已經(jīng)在Tay發(fā)布前的兩年里成功地與超過4000萬人進行了對話。微軟沒有預(yù)料到的是，一群Twitter用戶會立即開始向Tay發(fā)送種族主義和厭女主義的評論。這個機器人很快從這些內(nèi)容中學(xué)習(xí)，并將其融入自己的推文中。

李寫道：“盡管我們?yōu)橄到y(tǒng)可能遭受的多種濫用做了準(zhǔn)備，但我們對這種特定攻擊的監(jiān)管存在重大疏忽。結(jié)果，Tay發(fā)布了極不恰當(dāng)和應(yīng)受譴責(zé)的言論和圖片。”

亞馬遜AI招聘工具僅推薦男性候選人

像許多大公司一樣，亞馬遜渴望擁有可以幫助其人力資源部門篩選出最佳候選人的工具。2014年，亞馬遜開始研發(fā)一款A(yù)I驅(qū)動的招聘軟件。然而，存在一個問題：該系統(tǒng)極度偏愛男性候選人。2018年，路透社報道稱亞馬遜已經(jīng)終止了該項目。

亞馬遜的系統(tǒng)給候選人評級從1星到5星。但系統(tǒng)核心的機器學(xué)習(xí)模型是基于過去十年提交給亞馬遜的簡歷訓(xùn)練的——其中大多數(shù)來自男性。由于這種訓(xùn)練數(shù)據(jù)的影響，系統(tǒng)開始懲罰簡歷中包含“women's”一詞的短語，并降低了來自全女子學(xué)院的候選人的評級。

當(dāng)時，亞馬遜表示這個工具從未被亞馬遜的招聘人員用于評估候選人。公司試圖編輯工具使其變得中立，但最終決定它不能保證不會學(xué)到其他某種歧視性的候選人排序方式，因此終止了該項目。

上一篇：到2032年，汽車AI市場規(guī)模預(yù)計將達(dá)到311.1億美元

下一篇：你不知道的人工智能的五個事實！