正在進(jìn)行的數(shù)據(jù)中心重新設(shè)計(jì)的一個(gè)主要方面是,由于人工智能的龐大、復(fù)雜的工作負(fù)載以及需要添加更多圖形處理單元(GPU)、張量處理單元(TPU)或加速器。
這些單元所需的功率和產(chǎn)生的熱量,迫使設(shè)計(jì)人員重新思考什么是可行的和最佳的布局設(shè)計(jì)。而且,重新設(shè)計(jì)的成本正在不斷增加。
因此,根據(jù)Tirias Research的數(shù)據(jù),到2028年,業(yè)主每年可能會(huì)在新的人工智能數(shù)據(jù)中心基礎(chǔ)設(shè)施上花費(fèi)760億美元。
數(shù)據(jù)中心當(dāng)前面臨的挑戰(zhàn):當(dāng)今基于GPU的密集集群
Tom's Hardware的Anton Shilov最近評(píng)估了人工智能工作負(fù)載對(duì)GPU的巨大需求:
Omdia表示,Nvidia在2023年第二季度實(shí)際上售出了900噸H100處理器。
Omdia估計(jì),Nvidia在第二季度為人工智能(AI)和高性能計(jì)算(HPC)應(yīng)用銷售了超過900噸(180萬磅)H100計(jì)算GPU。Omdia認(rèn)為,帶有散熱器的Nvidia H100計(jì)算GPU的平均重量超過3公斤(6.6磅),因此Nvidia在第二季度出貨了超過30萬臺(tái)H100。
因此,單個(gè)Nvidia H100圖形處理單元(GPU)的重量約為一個(gè)輕型保齡球的重量。Omdia上面計(jì)算的重量不包括相關(guān)的布線或液體冷卻。
Schneider Electric數(shù)據(jù)中心創(chuàng)新副總裁Steven Carlini表示,用于人工智能的機(jī)架必須重新設(shè)計(jì),以適應(yīng)額外的重量和熱量。其將當(dāng)今密集的人工智能服務(wù)器集群與“整齊分布”的成排普通服務(wù)器機(jī)架進(jìn)行了對(duì)比,這些服務(wù)器機(jī)架在當(dāng)代人工智能開始認(rèn)真發(fā)展之前很常見,將整齊的行變成了密集的熱運(yùn)行集群。
Carlini表示,這些人工智能集群每個(gè)機(jī)架的功耗高達(dá)100千瓦,而傳統(tǒng)的非人工智能數(shù)據(jù)中心機(jī)架的每個(gè)機(jī)架功耗高達(dá)20千瓦。Carlini的同事、Schneider Electric能源管理研究中心的高級(jí)研究分析師Victor Avelar指出,每臺(tái)Nvidia H100的功耗為700瓦,而舊款A(yù)100的功耗為400瓦,后者的需求量仍然很高。兩種GPU類型都需要液體冷卻。
每個(gè)GPU中密集的800億個(gè)晶體管硅區(qū)域產(chǎn)生大部分熱量。Amazon和Google等企業(yè)正在安裝的一臺(tái)人工智能服務(wù)器包含8個(gè)這樣的GPU。如果設(shè)計(jì)得當(dāng),人工智能服務(wù)器集群可以持續(xù)100%運(yùn)行,相比之下,非人工智能AI應(yīng)用的服務(wù)器利用率要低得多。
數(shù)據(jù)中心能源管理的長遠(yuǎn)視角
承載當(dāng)今人工智能工作負(fù)載的主要數(shù)據(jù)中心的所有者,長期以來一直致力于減輕對(duì)環(huán)境的影響,并且在能源管理方面,他們往往著眼于長遠(yuǎn)。的確,能源消耗比以往任何時(shí)候都高,但現(xiàn)在大部分頂級(jí)數(shù)據(jù)中心容量都是由可再生能源供電,業(yè)主正在尋找其他零排放替代方案。例如,Microsoft在5月份簽署了一份合同,從2028年開始從聚變能源初創(chuàng)企業(yè)Helion購買至少50兆瓦的電力。
Victor Avelar致力于量化當(dāng)今數(shù)據(jù)中心在其生命周期內(nèi)的碳足跡,并幫助優(yōu)化未來數(shù)據(jù)中心的布局和設(shè)計(jì)。Avelar在其免費(fèi)的數(shù)據(jù)中心生命周期二氧化碳當(dāng)量計(jì)算器上進(jìn)行了演示,該計(jì)算器既關(guān)注了隱含碳,如數(shù)據(jù)中心建設(shè)中使用的混凝土的資源、制造和澆筑過程中排放的碳,也關(guān)注了數(shù)據(jù)中心運(yùn)營過程中產(chǎn)生的碳。
成本計(jì)算器幫助規(guī)劃者考慮替代方案并選擇最佳設(shè)計(jì)標(biāo)準(zhǔn)。例如,Schneider Electric對(duì)電源進(jìn)行了研究。Avelar對(duì)比了西弗吉尼亞州的一個(gè)燃煤電廠和法國的一個(gè)核電廠。
通過按范圍查看年度總二氧化碳當(dāng)量,發(fā)現(xiàn)西弗吉尼亞選項(xiàng)的范圍2(從當(dāng)?shù)毓檬聵I(yè)購買的電力)排放量在混合排放中所占的比例要大得多。相比之下,法國的選項(xiàng)在范圍3(間接能源,例如新數(shù)據(jù)中心混凝土中的隱含碳)中所占的比例更大。范圍1和范圍2的排放更多地在規(guī)劃者的控制范圍內(nèi)。
數(shù)據(jù)中心所有權(quán)的轉(zhuǎn)變
Carlini指出,從歷史上看,數(shù)據(jù)中心往往遵循一種類似購物中心的模式,即主要租戶和精品店,所有者只專注于滿足當(dāng)?shù)匦枨蟮慕ㄖI(yè)務(wù),并管理空間租賃。
但最近,大型云計(jì)算、媒體和SaaS提供商在新建數(shù)據(jù)中心的比例方面更加占據(jù)主導(dǎo)地位。對(duì)于那些所有者/運(yùn)營商而言,沒有標(biāo)準(zhǔn)的數(shù)據(jù)中心設(shè)計(jì)。每個(gè)數(shù)據(jù)中心都是不同的,當(dāng)前環(huán)境下的主要挑戰(zhàn)就是跟上所有正在發(fā)生的變化。