在讓人工智能變得更好的競(jìng)賽中,麻省理工學(xué)院(MIT)林肯實(shí)驗(yàn)室正在開(kāi)發(fā)降低功耗、高效訓(xùn)練和透明能源使用的方法。
在 Google 上搜索航班時(shí),您可能已經(jīng)注意到,現(xiàn)在每個(gè)航班的碳排放量估算值都顯示在其成本旁邊。這是一種告知客戶其對(duì)環(huán)境影響的方式,并讓他們將這些信息納入決策中。
盡管計(jì)算機(jī)行業(yè)的碳排放量超過(guò)了整個(gè)航空業(yè)的碳排放量,但這種透明度尚不存在。這種能源需求不斷升級(jí)的是人工智能模型。像ChatGPT這樣巨大的流行模型預(yù)示著大規(guī)模人工智能的趨勢(shì),預(yù)測(cè)到2030年,數(shù)據(jù)中心將消耗全球21%的電力供應(yīng)。
麻省理工學(xué)院(MIT)林肯實(shí)驗(yàn)室超級(jí)計(jì)算中心(LLSC)正在開(kāi)發(fā)技術(shù),以幫助數(shù)據(jù)中心控制能源使用。他們的技術(shù)范圍從簡(jiǎn)單但有效的更改,如調(diào)整硬件的功率上限,到采用可以在早期停止人工智能訓(xùn)練的新工具。至關(guān)重要的是,他們發(fā)現(xiàn)這些技術(shù)對(duì)模型性能的影響最小。
從更廣泛的角度來(lái)看,他們的工作是動(dòng)員綠色計(jì)算研究并促進(jìn)透明文化。“能源感知計(jì)算并不是一個(gè)真正的研究領(lǐng)域,因?yàn)槊總€(gè)人都在保留他們的數(shù)據(jù),”領(lǐng)導(dǎo)能源感知研究工作的LLSC高級(jí)職員Vijay Gadepally說(shuō)。“必須有人開(kāi)始,我們希望其他人也能效仿。
抑制功率和冷卻
與許多數(shù)據(jù)中心一樣,LLSC 在其硬件上運(yùn)行的 AI 作業(yè)數(shù)量顯著增加。注意到能源使用量的增加,LLSC的計(jì)算機(jī)科學(xué)家對(duì)更有效地運(yùn)行作業(yè)的方法感到好奇。綠色計(jì)算是該中心的一項(xiàng)原則,該中心完全由無(wú)碳能源提供動(dòng)力。
訓(xùn)練 AI 模型(從龐大數(shù)據(jù)集中學(xué)習(xí)模式的過(guò)程)需要使用圖形處理單元 (GPU),這些硬件是耗電的硬件。例如,訓(xùn)練 GPT-3(ChatGPT 的前身)的 GPU 估計(jì)消耗了 1,300 兆瓦時(shí)的電力,大致相當(dāng)于1,450 個(gè)美國(guó)普通家庭一個(gè)月使用的電力。
雖然大多數(shù)人尋求 GPU 是因?yàn)槠溆?jì)算能力,但制造商提供了限制 GPU 允許消耗的功率的方法。“我們研究了封頂功率的影響,發(fā)現(xiàn)我們可以將能耗降低約12%至15%,具體取決于模型,”LLSC的研究員Siddharth Samsi說(shuō)。
限制功率的影響是增加任務(wù)時(shí)間——GPU 完成任務(wù)所需的時(shí)間將延長(zhǎng)約 3%,Gadepally 表示,考慮到模型通常需要幾天甚至幾個(gè)月的訓(xùn)練,這種增加“幾乎不明顯”。在他們的一項(xiàng)實(shí)驗(yàn)中,他們訓(xùn)練了流行的 BERT 語(yǔ)言模型,將 GPU 功率限制在 150 瓦,訓(xùn)練時(shí)間增加了兩個(gè)小時(shí)(從 80 小時(shí)增加到 82 小時(shí)),但節(jié)省了相當(dāng)于一個(gè)美國(guó)家庭一周的能源。
然后,該團(tuán)隊(duì)構(gòu)建了軟件,將這種功率封頂功能插入到廣泛使用的調(diào)度器系統(tǒng) Slurm 中。該軟件允許數(shù)據(jù)中心所有者在其系統(tǒng)中或逐個(gè)作業(yè)設(shè)置限制。
“我們今天就可以部署這種干預(yù)措施,我們已經(jīng)在所有系統(tǒng)中這樣做了,”Gadepally說(shuō)。
附帶的好處也出現(xiàn)了,自從實(shí)施功率限制以來(lái),LLSC 超級(jí)計(jì)算機(jī)上的 GPU 一直在以更穩(wěn)定的溫度運(yùn)行 30 華氏度左右,從而減少了冷卻系統(tǒng)的壓力。運(yùn)行硬件冷卻器還可以提高可靠性和使用壽命。他們現(xiàn)在可以考慮推遲購(gòu)買(mǎi)新硬件——減少中心的“隱含碳”,即通過(guò)制造設(shè)備產(chǎn)生的排放——直到使用新硬件所獲得的效率抵消了這方面的碳足跡。他們還在尋找減少冷卻需求的方法,通過(guò)戰(zhàn)略性地將作業(yè)安排在夜間和冬季運(yùn)行。
Gadepally說(shuō):“數(shù)據(jù)中心今天可以使用這些易于實(shí)施的方法來(lái)提高效率,而無(wú)需修改代碼或基礎(chǔ)設(shè)施。
全面了解數(shù)據(jù)中心的運(yùn)營(yíng)以尋找削減成本的機(jī)會(huì)可能會(huì)耗費(fèi)大量時(shí)間。為了讓其他人更容易完成這一過(guò)程,該團(tuán)隊(duì)與Northeastern大學(xué)的Devesh Tiwari教授和Baolin Li合作,最近開(kāi)發(fā)并發(fā)布了一個(gè)用于分析高性能計(jì)算系統(tǒng)碳足跡的綜合框架。系統(tǒng)從業(yè)者可以使用此分析框架來(lái)更好地了解其當(dāng)前系統(tǒng)的可持續(xù)性,并考慮對(duì)下一代系統(tǒng)進(jìn)行更改。
調(diào)整模型的訓(xùn)練和使用方式
除了對(duì)數(shù)據(jù)中心運(yùn)營(yíng)進(jìn)行調(diào)整外,該團(tuán)隊(duì)還在設(shè)計(jì)提高 AI 模型開(kāi)發(fā)效率的方法。
在訓(xùn)練模型時(shí),AI 開(kāi)發(fā)人員通常專(zhuān)注于提高準(zhǔn)確性,并以以前的模型為基礎(chǔ)進(jìn)行構(gòu)建。為了實(shí)現(xiàn)所需的輸出,他們必須弄清楚要使用哪些參數(shù),而要做到這一點(diǎn)可能需要測(cè)試數(shù)千種配置。這個(gè)過(guò)程被稱(chēng)為超參數(shù)優(yōu)化,是LLSC研究人員發(fā)現(xiàn)的減少能源浪費(fèi)的成熟領(lǐng)域。
“我們開(kāi)發(fā)了一個(gè)模型,基本上著眼于給定配置的學(xué)習(xí)速度,”Gadepally說(shuō)。鑒于這個(gè)比率,他們的模型預(yù)測(cè)了可能的表現(xiàn)。表現(xiàn)不佳的模型會(huì)提前停止。“我們可以在早期給你一個(gè)非常準(zhǔn)確的估計(jì),最好的模型將在100個(gè)模型中的前10個(gè)模型中,”他說(shuō)。
在他們的研究中,這種提前停止導(dǎo)致了巨大的節(jié)?。河糜谀P陀?xùn)練的能源減少了80%。他們將這種技術(shù)應(yīng)用于為計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和材料設(shè)計(jì)應(yīng)用程序開(kāi)發(fā)的模型。
“在我看來(lái),這種技術(shù)在推進(jìn)人工智能模型訓(xùn)練方式方面具有最大的潛力,”Gadepally說(shuō)。
訓(xùn)練只是 AI 模型排放的一部分。隨著時(shí)間的推移,排放的最大貢獻(xiàn)者是模型推理,或?qū)崟r(shí)運(yùn)行模型的過(guò)程,例如用戶與 ChatGPT 聊天時(shí)。為了快速響應(yīng),這些模型使用冗余硬件,一直運(yùn)行,等待用戶提出問(wèn)題。
提高推理效率的一種方法是使用最合適的硬件。此外,該團(tuán)隊(duì)還與Northeastern大學(xué)合作,創(chuàng)建了一個(gè)優(yōu)化器,將模型與碳效率最高的硬件組合相匹配,例如用于推理計(jì)算密集型部分的高功率GPU和用于要求較低的方面的低功耗中央處理器(CPU)。這項(xiàng)工作最近在國(guó)際ACM高性能并行和分布式計(jì)算研討會(huì)上獲得了最佳論文獎(jiǎng)。
使用此優(yōu)化器可以減少 10-20% 的能源使用,同時(shí)仍能滿足相同的“服務(wù)質(zhì)量目標(biāo)”(模型的響應(yīng)速度)。
此工具對(duì)云客戶特別有用,這些客戶從數(shù)據(jù)中心租用系統(tǒng),并且必須從數(shù)千個(gè)選項(xiàng)中選擇硬件。“大多數(shù)客戶高估了他們的需求;他們之所以選擇功能過(guò)強(qiáng)的硬件,只是因?yàn)樗麄儾恢栏茫?ldquo;Gadepally 說(shuō)。
綠色計(jì)算意識(shí)的增強(qiáng)
實(shí)施這些干預(yù)措施所節(jié)省的能源也降低了開(kāi)發(fā)人工智能的相關(guān)成本,通常以一比一的比例降低。事實(shí)上,成本通常被用作能源消耗的代名詞。既然節(jié)省了這些成本,為什么不讓更多的數(shù)據(jù)中心投資于綠色技術(shù)呢?
“我認(rèn)為這有點(diǎn)激勵(lì)失調(diào)的問(wèn)題,”薩姆西說(shuō)。“在構(gòu)建更大更好的模型方面,有如此激烈的競(jìng)爭(zhēng),幾乎所有次要考慮因素都被擱置一旁。
他們指出,雖然一些數(shù)據(jù)中心購(gòu)買(mǎi)了可再生能源信用額度,但這些可再生能源不足以滿足不斷增長(zhǎng)的能源需求。為數(shù)據(jù)中心供電的大部分電力來(lái)自化石燃料,而用于冷卻的水正在導(dǎo)致流域壓力。
他們還承認(rèn),如果沒(méi)有能夠向人工智能開(kāi)發(fā)人員展示其消費(fèi)的工具,就很難實(shí)現(xiàn)透明度。他們希望能夠向每個(gè)LLSC用戶展示每項(xiàng)工作,他們消耗了多少能源,以及該能源量與其他能源量的比較情況,類(lèi)似于家庭能源報(bào)告。
這項(xiàng)工作的一部分需要與硬件制造商更緊密地合作,以便更容易、更準(zhǔn)確地從硬件中獲取這些數(shù)據(jù)。如果制造商能夠標(biāo)準(zhǔn)化數(shù)據(jù)的讀取方式,那么節(jié)能和報(bào)告工具就可以應(yīng)用于不同的硬件平臺(tái)。LLSC 研究人員和英特爾之間正在開(kāi)展合作,以解決這一問(wèn)題。
即使對(duì)于意識(shí)到人工智能強(qiáng)烈能源需求的人工智能開(kāi)發(fā)人員來(lái)說(shuō),他們也無(wú)法獨(dú)自做太多事情來(lái)遏制這種能源使用。LLSC團(tuán)隊(duì)希望幫助其他數(shù)據(jù)中心應(yīng)用這些干預(yù)措施,并為用戶提供能源感知選項(xiàng)。他們的第一個(gè)合作伙伴關(guān)系是與美國(guó)空軍合作,美國(guó)空軍是這項(xiàng)研究的贊助商,該研究運(yùn)營(yíng)著數(shù)千個(gè)數(shù)據(jù)中心,應(yīng)用這些技術(shù)可以顯著降低其能耗和成本。