九次著名的統(tǒng)計分析和人工智能災(zāi)難

沃卡惠
行業(yè)資訊
2023-10-26 09:17:11
212

2017 年，《經(jīng)濟學人》雜志宣布，數(shù)據(jù)而非石油已成為世界上最有價值的資源。從那時起，這句話就一直在重復(fù)。各行各業(yè)的組織已經(jīng)并將繼續(xù)在數(shù)據(jù)和分析方面投入巨資。但與石油一樣，數(shù)據(jù)和分析也有其陰暗面。

根據(jù) CIO 網(wǎng)站發(fā)布的《2023 年CIO狀況》報告，34% 的 IT 領(lǐng)導(dǎo)者表示，數(shù)據(jù)和業(yè)務(wù)分析將成為他們所在企業(yè)今年最大的 IT 投資驅(qū)動力。而 26% 的 IT 領(lǐng)導(dǎo)者表示，機器學習/人工智能將推動最多的 IT 投資。從分析中獲得的洞察力和機器學習算法驅(qū)動的行動可以為企業(yè)帶來競爭優(yōu)勢，但失誤可能會在聲譽、收入甚至生命方面造成巨大損失。

了解你的數(shù)據(jù)和它告訴你的信息固然重要，但同樣重要的是掌握你的工具、了解你的數(shù)據(jù)，并牢記組織的價值觀。

以下這些在過去十年中發(fā)生的備受矚目的統(tǒng)計分析和人工智能方面的失誤，提示我們可能出現(xiàn)的問題。

01Gannett AI弄錯高中體育文章

2023 年 8 月，連鎖報業(yè)集團 Gannett 宣布將暫停使用一款名為 LedeAI 的人工智能工具，因為該人工智能撰寫的幾篇文章因重復(fù)、文筆差和缺乏關(guān)鍵細節(jié)而走紅網(wǎng)絡(luò)。

美國有線電視新聞網(wǎng)（CNN）指出了互聯(lián)網(wǎng)檔案館 Wayback Machine 保存的一個例子，它的開篇是這樣寫的：“周六，在俄亥俄州的一場男子足球比賽中，Worthington Christian 隊 [WINNING_TEAM_MASCOT] 以 2-1 的比分擊敗了Westerville North 隊 [LOSING_TEAM_MASCOT]。”

CNN 在其他地區(qū)的 Gannett 集團所屬的報紙上也發(fā)現(xiàn)了由 LedeAI 撰寫的類似報道，包括《路易斯維爾信使報》、《亞利桑那中央報》、《今日佛羅里達》和《密爾沃基哨兵報》。

這些報道的行文在社交媒體上遭到廣泛嘲諷后，Gannett 選擇在所有使用 LedeAI 服務(wù)的地方媒體上暫停使用該服務(wù)。

在給 CNN 的一份聲明中，LedeAI 首席執(zhí)行官 Jay Allred 表示遺憾，并承諾將盡早改正這些問題。

02iTutorGroup 的招聘人工智能以年齡為由拒絕應(yīng)聘者

2023 年 8 月，家教公司 iTutorGroup 同意支付 36.5 萬美元，以解決美國平等就業(yè)機會委員會（EEOC）提起的訴訟。聯(lián)邦機構(gòu)稱，這家為中國學生提供遠程輔導(dǎo)服務(wù)的公司使用人工智能驅(qū)動的招聘軟件，自動拒絕 55 歲及以上的女性申請人和 60 歲及以上的男性申請人。

平等就業(yè)機會委員會稱，該軟件自動拒絕了 200 多名合格的求職者。

EEOC 主席 Charlotte A. Burrows 在一份聲明中說：“年齡歧視是不公正和非法的。即使是由于技術(shù)實現(xiàn)歧視的自動化，雇主仍應(yīng)承擔責任。”

iTutorGroup 否認有任何不當行為，但決定就訴訟達成和解。作為和解和同意令的一部分，iTutorGroup 同意采取新的反歧視政策。

03ChatGPT 幻化法庭案例

大型語言模型（LLM）在 2023 年取得的進展激發(fā)了人們對生成式人工智能在幾乎所有行業(yè)的變革潛力的廣泛興趣。OpenAI 的 ChatGPT 是這股熱潮的中心，它預(yù)示著生成式人工智能將如何在幾乎所有商業(yè)領(lǐng)域顛覆工作的本質(zhì)。

但這項技術(shù)要想可靠地接管大多數(shù)業(yè)務(wù)流程還有很長的路要走，正如Steven A. Schwartz 律師在 2023 年發(fā)現(xiàn)自己與美國地區(qū)法官 P. Kevin Castel 發(fā)生爭執(zhí)時所了解到的那樣，他在起訴哥倫比亞航空公司 Avianca 時使用了 ChatGPT 來研究先例。

Schwartz 是 Levidow, Levidow & Oberman 律師事務(wù)所的律師，他使用 OpenAI 生成式人工智能聊天機器人查找以前的案例，以支持 Avianca 航空公司雇員 Roberto Mata 就其在 2019 年所受傷害提起的訴訟。你一定會關(guān)心問題是什么？問題是辯護狀中提交的案例中至少有6個是不存在的。在 5 月份提交的一份文件中，Castel 法官指出，Schwartz 提交的案件包括虛假的名稱和備審案件號，以及虛假的內(nèi)部引用和引文。Schwartz 的合伙人 Peter LoDuca 是 Mata 的注冊律師，并在辯護狀上簽了名，這也讓他自己陷入了危險之中。

Schwartz 在一份宣誓書中告訴法庭，這是他第一次使用 ChatGPT 作為法律研究來源，他“沒有意識到其內(nèi)容可能是虛假的”。他承認自己沒有確認人工智能聊天機器人提供的信息來源。他還說，他 “非常后悔利用生成式人工智能來補充在此進行的法律研究，承諾今后在沒有絕對核實其真實性的情況下絕不會這樣做”。

2023 年 6 月，Castel 法官對 Schwartz 和 LoDuca 處以 5000 美元的罰款。在今年 6 月的另一項裁決中，Castel 法官駁回了 Mata 對 Avianca 航空公司的訴訟。

04人工智能算法可識別除 COVID-19 以外的所有病毒

自 COVID-19 大流行開始以來，許多機構(gòu)都在尋求應(yīng)用機器學習（ML）算法來幫助醫(yī)院更快地診斷或分流病人。但據(jù)英國 Turing Institute（英國的國家數(shù)據(jù)科學與人工智能研究機構(gòu)）稱，這些預(yù)測工具幾乎沒有起到任何作用。

《MIT Technology Review》記錄了一系列失敗案例，其中大部分源于工具訓(xùn)練或測試方法的錯誤。使用標記錯誤的數(shù)據(jù)或來源不明的數(shù)據(jù)是常見的罪魁禍首。

劍橋大學的機器學習研究員 Derek Driggs 及其同事在《Nature Machine Intelligence》雜志上發(fā)表了一篇論文，探討了使用深度學習模型診斷病毒的問題。論文認為該技術(shù)不適合臨床使用。例如，Driggs 的研究小組發(fā)現(xiàn)，他們自己的模型存在缺陷，因為該模型是在一個數(shù)據(jù)集上訓(xùn)練的，該數(shù)據(jù)集包括躺姿掃描的病人和站姿掃描的病人。躺著的病人更有可能患重病，因此算法學會了根據(jù)掃描過程中人的姿勢來識別 COVID 風險。

類似的例子還包括使用數(shù)據(jù)集訓(xùn)練算法，該數(shù)據(jù)集包括健康兒童的胸部掃描結(jié)果。該算法學會了識別兒童，而不是高風險患者。

05Zillow 因算法購房災(zāi)難減記數(shù)百萬美元并裁員

2021 年 11 月，在線房地產(chǎn)市場 Zillow 向股東表示，將在接下來的幾個季度里關(guān)閉 Zillow Offers 業(yè)務(wù)，并裁員 25%，約 2000 人。舊屋翻新部門的困境是其用于預(yù)測房價的機器學習算法的錯誤率造成的。

Zillow Offers 是該公司根據(jù)機器學習算法 Zestimate 對房屋估價后對房產(chǎn)進行現(xiàn)金收購的項目。他們的設(shè)想是翻新這些房產(chǎn)，然后迅速出售。但 Zillow 發(fā)言人告訴 CNN，該算法的中位誤差率為 1.9%，而那些未公開出售房屋資源的誤差率可能更是高達 6.9%。

CNN 報道稱，自 2018 年 4 月推出 Zillow Offers 以來，Zillow 通過該平臺購買了 2.7 萬套房屋，但截至 2021 年 9 月底僅售出 1.7 萬套。COVID-19 大流行和房屋裝修勞動力短缺等黑天鵝事件導(dǎo)致了該算法的準確性出現(xiàn)問題。

Zillow 表示，該算法導(dǎo)致其無意中以高于目前對未來售價估計的價格購買了房屋，導(dǎo)致 2021 年第三季度的庫存減記達 3.04 億美元。

Zillow 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Rich Barton 在聲明發(fā)布后的投資者電話會議上表示，也許可以調(diào)整算法，但無論如何承擔風險太大。

06醫(yī)療保險算法將黑人患者排除

2019 年，發(fā)表在《科學》（Science）雜志上的一項研究顯示，美國各地的醫(yī)院和保險公司用來識別需要 “高風險護理管理”項目的患者的醫(yī)療預(yù)測算法，不太可能將黑人患者納入其中。

高風險護理管理計劃為慢性病患者提供訓(xùn)練有素的護理人員和初級保健監(jiān)測，以預(yù)防嚴重并發(fā)癥的發(fā)生。但與黑人患者相比，該算法更傾向于推薦白人患者參加這些項目。

研究發(fā)現(xiàn)，該算法將醫(yī)療支出作為確定個人醫(yī)療需求的替代指標。但據(jù)《科學美國人》報道，病情較重的黑人患者的醫(yī)療費用與較健康的白人患者的費用相當，這意味著即使他們的需求更大，他們得到的風險評分也較低。

該研究的研究人員認為，可能有幾個因素造成了這種情況。首先，有色人種更有可能收入較低，這可能使他們即使有保險也不太容易獲得醫(yī)療服務(wù)。隱性偏見也可能導(dǎo)致有色人種獲得較低質(zhì)量的醫(yī)療服務(wù)。

雖然這項研究沒有指出算法或開發(fā)者的名字，但研究人員告訴《科學美國人》，他們正在與開發(fā)者合作解決這一問題。

07數(shù)據(jù)集訓(xùn)練微軟聊天機器人發(fā)表種族主義推文

2016 年 3 月，微軟了解到，使用 Twitter 互動作為機器學習算法的訓(xùn)練數(shù)據(jù)可能會產(chǎn)生令人沮喪的結(jié)果。

微軟在社交媒體平臺上發(fā)布了人工智能聊天機器人 Tay。該公司將其描述為 “對話理解”實驗。當時的設(shè)想是，這個聊天機器人將假扮成一個十幾歲的女孩，利用機器學習和自然語言處理相結(jié)合的方法，通過 Twitter 與個人互動。微軟將匿名的公共數(shù)據(jù)和一些喜劇演員預(yù)先寫好的材料作為種子，然后讓它在社交網(wǎng)絡(luò)的互動中學習和發(fā)展。

在 16 個小時內(nèi)，聊天機器人發(fā)布了 95,000 多條推文，這些推文迅速變成了明顯的種族主義、歧視女性和反猶太言論。微軟迅速暫停該服務(wù)進行調(diào)整，并最終拔掉了插頭。

事件發(fā)生后，微軟研究與孵化部門企業(yè)副總裁（時任微軟醫(yī)療保健部門企業(yè)副總裁）Peter Lee 在微軟官方博客上發(fā)文寫道：“我們對Tay無意中發(fā)出的攻擊性和傷害性推文深表歉意。這些推文并不代表我們的身份和立場，也不代表我們設(shè)計 Tay 的方式。”

Lee 指出，2014 年微軟在中國發(fā)布的 Tay 的前身 “小冰”，并在 Tay 發(fā)布前的兩年里成功地與 4000 多萬人進行了對話。微軟沒有考慮到的是，一群推特用戶會立即開始在推特上向 Tay 發(fā)表種族主義和厭女主義的評論。該機器人迅速從這些材料中學習，并將這些素材融入自己的推特。

Lee 寫道：“盡管我們已經(jīng)為許多類型的系統(tǒng)濫用做好了準備，但在這次特定的攻擊中，我們還是出現(xiàn)了嚴重的疏忽。結(jié)果，Tay 在推特上發(fā)布了大量不恰當且應(yīng)受譴責的文字和圖片。”

08Amazon公司人工智能招聘工具只推薦男性

與許多大公司一樣，Amazon 也渴望獲得能幫助其人力資源部門篩選最佳人選的工具。2014 年，Amazon 開始研發(fā)人工智能驅(qū)動的招聘軟件來實現(xiàn)這一目標。問題只有一個：該系統(tǒng)極度偏愛男性求職者。2018 年， Reuters 爆料稱，Amazon 已經(jīng)取消了該項目。

Amazon 的系統(tǒng)會給應(yīng)聘者打 1 到 5 分的星級，但系統(tǒng)核心的機器學習模型是根據(jù) 10 年來向 Amazon 提交的簡歷訓(xùn)練出來的，其中大部分來自男性。訓(xùn)練數(shù)據(jù)的結(jié)果是，該系統(tǒng)開始懲罰簡歷中包含“女性”一詞的短語，甚至給來自全女子學院的應(yīng)聘者降級。

當時，Amazon 表示，Amazon 的招聘人員從未使用過該工具來評估應(yīng)聘者。

該公司試圖編輯該工具，使其保持中立，但最終決定不能保證它不會學到其他歧視性的應(yīng)聘者排序方法，因此終止了該項目。

09Target 分析侵犯隱私

2012 年，零售巨頭 Target 的一個分析項目展示了公司可以從數(shù)據(jù)中了解到多少關(guān)于客戶的信息。據(jù)《紐約時報》報道，2002 年，Target 的營銷部門開始琢磨如何判斷顧客是否懷孕。這個問題引發(fā)了一個預(yù)測分析項目，導(dǎo)致該零售商無意中向一位少女的家人透露了她懷孕的消息。這反過來又導(dǎo)致各種文章和營銷博客引用這一事件，作為避免 “網(wǎng)絡(luò)恐怖”的建議的一部分。

Target 公司的市場營銷部門希望識別出懷孕的人，因為在人生的某些時期，人們最有可能徹底改變自己的購買習慣，懷孕就是其中之一。如果 Target 能在這個時期接觸到顧客，就可以培養(yǎng)這些顧客的新行為，讓他們到 Target 購買日用品、服裝或其他商品。

與所有其他大型零售商一樣，Target 一直在通過購物代碼、信用卡、調(diào)查等方式收集顧客數(shù)據(jù)。它將這些數(shù)據(jù)與人口統(tǒng)計數(shù)據(jù)和購買的第三方數(shù)據(jù)進行了整合。Target 的分析團隊通過對所有數(shù)據(jù)的分析，確定了 Target 銷售的約 25 種產(chǎn)品可以通過綜合分析得出 “懷孕預(yù)測 ”分數(shù)。市場營銷部門就可以針對高分顧客提供優(yōu)惠券和營銷信息。

進一步的研究表明，研究客戶的生育狀況可能會讓一些客戶感到毛骨悚然。據(jù)《泰晤士報》報道，該公司并沒有放棄有針對性的營銷，但確實開始將他們知道孕婦不會購買的東西的廣告混合在一起以便讓客戶感覺廣告組合并非有意而為，比如在尿布廣告旁插入割草機廣告。

上一篇：GameGPT：使用AI實現(xiàn)游戲開發(fā)自動化

下一篇：IBM的研究表明人工智能網(wǎng)絡(luò)釣魚的能力與人類不相上下