生成式人工智能 (AI) 能夠根據(jù)提示生成文本、圖像或其他內(nèi)容,盡管目前企業(yè)對它的采用尚處于早期階段,但隨著企業(yè)組織找到該技術(shù)的更多新用途,預(yù)計該技術(shù)的采用將迅速增加。
Gartner分析師Frances Karamouzis表示:“生成式人工智能的狂熱沒有任何減弱的跡象。” “各組織正在爭先恐后地確定向生成式人工智能解決方案投入多少資金、哪些產(chǎn)品值得投資、何時開始以及如何減輕這項新興技術(shù)帶來的風(fēng)險。”
據(jù)Bloomberg Intelligence預(yù)測,未來十年,生成式AI市場將以每年42%的驚人速度增長,從2022年的400 億美元增長到1.3萬億美元。
生成式人工智能可以通過多種方式幫助IT團隊:它可以編寫軟件代碼和網(wǎng)絡(luò)腳本、提供故障排除和問題解決、自動化流程、提供培訓(xùn)和入職培訓(xùn)、創(chuàng)建文檔和知識管理系統(tǒng)以及幫助進行項目管理和規(guī)劃。
另外,生成式人工智能還可以改變業(yè)務(wù)的其他部分,包括呼叫中心、客戶服務(wù)、虛擬助理、數(shù)據(jù)分析、內(nèi)容創(chuàng)建、設(shè)計和開發(fā)以及預(yù)測性維護等。
但數(shù)據(jù)中心基礎(chǔ)設(shè)施能否應(yīng)對生成式人工智能產(chǎn)生的不斷增長的工作負載?
生成式人工智能對計算需求的影響
毫無疑問,生成式人工智能將成為大多數(shù)組織未來數(shù)據(jù)戰(zhàn)略的一部分。如今,網(wǎng)絡(luò)和IT領(lǐng)導(dǎo)者需要做的是確保他們的IT基礎(chǔ)設(shè)施以及團隊為即將到來的變化做好準(zhǔn)備。
當(dāng)他們構(gòu)建和部署包含生成式人工智能的應(yīng)用時,這將如何影響對計算能力和其他資源的需求?
咨詢公司畢馬威 (KPMG) 咨詢部董事總經(jīng)理布萊恩·劉易斯 (Brian Lewis) 表示:“正如我們今天所知,對數(shù)據(jù)中心的需求將會增加,并將徹底改變未來數(shù)據(jù)中心及其相關(guān)技術(shù)的面貌。”
數(shù)據(jù)中心運營商DataBank首席執(zhí)行官Raul Marynek表示,生成式AI應(yīng)用分兩個階段對計算能力提出了巨大的需求:訓(xùn)練構(gòu)成生成式AI系統(tǒng)核心的大型語言模型 (LLM),然后使用這些訓(xùn)練有素的LLM來運行應(yīng)用程序。
“訓(xùn)練大型語言模型碩士需要神經(jīng)網(wǎng)絡(luò)形式的密集計算,其中數(shù)十億語言或圖像示例被輸入神經(jīng)網(wǎng)絡(luò)系統(tǒng)并反復(fù)細化,直到系統(tǒng)像人類一樣‘識別’它們,”Martynek 說。
Marynek表示,神經(jīng)網(wǎng)絡(luò)需要極其密集的GPU處理器高性能計算 (HPC) 集群,一次連續(xù)運行數(shù)月甚至數(shù)年。“它們在專用基礎(chǔ)設(shè)施上運行效率更高,這些基礎(chǔ)設(shè)施可以位于用于訓(xùn)練的專有數(shù)據(jù)集附近,”他說。
第二階段是“推理過程”或使用這些應(yīng)用程序?qū)嶋H進行查詢并返回數(shù)據(jù)結(jié)果。“在這個運營階段,它需要一個地理上更加分散的基礎(chǔ)設(shè)施,可以快速擴展并以較低的延遲提供對應(yīng)用的訪問,因為查詢信息的用戶希望對想象的用例做出快速響應(yīng)。”
Marynek表示,這將需要在許多地方建立數(shù)據(jù)中心,而不是目前支持大多數(shù)應(yīng)用程序的集中式公共云模型。他表示,在這個階段,數(shù)據(jù)中心的計算能力需求仍將上升,“但相對于第一階段,這種需求分布在更多的數(shù)據(jù)中心。”
生成式人工智能推動液體冷卻需求
網(wǎng)絡(luò)和IT領(lǐng)導(dǎo)者需要認識到生成式人工智能對服務(wù)器密度的影響,以及它對冷卻要求、電力需求、可持續(xù)發(fā)展計劃等的影響。
Tirias Research首席分析師Francis Sideco表示:“這不僅僅是密度,還包括這些服務(wù)器在峰值負載下的使用頻率和用量的工作周期。” “我們看到NVIDIA、AMD和英特爾等公司的每一代AI芯片都在努力提高性能,同時控制功耗和熱量。”
Sideco表示,盡管做出了這些努力,電力預(yù)算仍在增加。“隨著工作負載的快速增長,尤其是GenAI,我們在某些時候會遇到困難。”
Lewis補充道,服務(wù)器密度“不必像刀片技術(shù)和虛擬主機那樣增加”。“非硅芯片、圖形處理單元 (GPU)、量子計算和硬件感知、基于模型的軟件開發(fā)等技術(shù)創(chuàng)新將能夠從現(xiàn)有硬件中獲得更多收益。”
Lewis表示,業(yè)界已經(jīng)在不同地點試驗比空氣更高效的創(chuàng)新液體冷卻技術(shù)以及可持續(xù)性,例如微軟的Project Natick海底數(shù)據(jù)中心。
“傳統(tǒng)的空氣冷卻技術(shù),例如使用風(fēng)扇、管道、通風(fēng)口和空調(diào)系統(tǒng),不足以滿足GPU等高性能計算硬件的冷卻需求,”Lewis說。“因此,液體冷卻等替代冷卻技術(shù)正在受到關(guān)注。”
Lewis說,液體冷卻涉及通過熱交換器循環(huán)冷卻劑,例如水或其他液體,以吸收計算機組件產(chǎn)生的熱量。“液體冷卻比傳統(tǒng)空氣冷卻更節(jié)能,因為液體比空氣具有更高的導(dǎo)熱性,從而可以實現(xiàn)更好、更高效的熱傳遞。”
Marynek表示,新的數(shù)據(jù)中心設(shè)計需要滿足更高的冷卻要求和電力需求,這意味著未來的數(shù)據(jù)中心將不得不依靠新的冷卻方法,例如后冷門、芯片水或浸沒技術(shù)來提供正確的電力組合、冷卻和可持續(xù)性。
Marynek表示,數(shù)據(jù)中心運營商已經(jīng)在液體冷卻方面取得了進展。例如,DataBank在其位于亞特蘭大的佐治亞理工學(xué)院超級計算機設(shè)施中使用了QCooling的新型ColdLogik Dx 后門冷卻解決方案。
“我們預(yù)計門用水量和芯片冷卻技術(shù)用水量將大幅增加,特別是考慮到未來幾代 GPU 將消耗更多電力,”Martynek說道。“由于采用生成式人工智能而對更多計算空間和功率的需求無疑將推動人們尋求更高的功耗和冷卻效率。”
Gen AI如何影響電力需求
Marynek表示,數(shù)據(jù)中心運營商建造自己的變電站可能會變得更加普遍。“由于需求和向可再生能源的過渡而給電網(wǎng)帶來的壓力,給電力供應(yīng)帶來了更多的不確定性,新的數(shù)據(jù)中心項目時間表在很大程度上受到公用事業(yè)公司的工作量及其處理新設(shè)施電力需求的能力的影響, “ 他說。
Marynek 表示,擁有可靠且可擴展的電源將越來越成為數(shù)據(jù)中心運營商的首要考慮因素,既可以滿足HPC集群對電力的需求,又可以繞過公用事業(yè)的時間表和限制。
Marynek表示,DataBank正在推出一種名為“通用數(shù)據(jù)大廳設(shè)計”(UDHD) 的新數(shù)據(jù)中心設(shè)計標(biāo)準(zhǔn),該標(biāo)準(zhǔn)采用平板地板,周邊有空氣冷卻,機柜之間的間距更大,非常適合超大規(guī)模云部署,并且可以快速部署。
“這種方法還使我們能夠輕松添加活動地板和更近的機柜間距,以適應(yīng)更傳統(tǒng)的企業(yè)工作負載,”Martynek說。“而且,我們可以以最小的努力添加下一代冷卻技術(shù),如后門熱交換器、水冷門配置或直接芯片冷卻基礎(chǔ)設(shè)施,”他說。
未來,數(shù)據(jù)中心的技術(shù)設(shè)計“將需要適應(yīng)更高的計算需求,如快速訪問內(nèi)存、強大的存儲/存儲區(qū)域網(wǎng)絡(luò)、高性能延遲/中斷容忍網(wǎng)絡(luò)和大數(shù)據(jù)數(shù)據(jù)庫技術(shù),”劉易斯說。
IT團隊需要做好準(zhǔn)備
網(wǎng)絡(luò)和數(shù)據(jù)中心團隊現(xiàn)在應(yīng)該做好準(zhǔn)備。“這些變化發(fā)生得太快,任何人都無法做好充分準(zhǔn)備,” Sideco說。“不僅僅是網(wǎng)絡(luò)/數(shù)據(jù)中心團隊,整個生態(tài)系統(tǒng)都需要解決所有所需的變化。”
這包括處理增加的工作負載和電力需求的芯片供應(yīng)商。“它們提供了不同的選項,網(wǎng)絡(luò)/數(shù)據(jù)中心團隊可以使用這些選項來嘗試[解決]不斷變化的需求,”Sideco說。“所有這些方面的合作對于跟上需求的步伐非常重要。”
其他人對準(zhǔn)備工作更有信心。“我們IT部門始終為下一次顛覆做好準(zhǔn)備,”Lewis說。“真正的問題是:企業(yè)會投資于需要改變的地方嗎?節(jié)省成本仍然是數(shù)據(jù)中心外包的首要任務(wù)。然而,企業(yè)尚未采用現(xiàn)代IT總擁有成本和價值實現(xiàn)框架來衡量 IT 的響應(yīng)能力和適應(yīng)人工智能等技術(shù)推動業(yè)務(wù)發(fā)展的速度。”
“為了為人工智能的采用做好準(zhǔn)備,數(shù)據(jù)中心需要確定正確的業(yè)務(wù)和資本戰(zhàn)略,以便他們可以投資必要的基礎(chǔ)設(shè)施和工具,并培養(yǎng)一支具有適當(dāng)技能的勞動力隊伍,”Martynek 說。“擁有合適的人員來執(zhí)行戰(zhàn)略與制定正確的戰(zhàn)略同樣重要。”