人工智能是數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的引擎,也是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量。習(xí)近平總書記指出,人工智能是引領(lǐng)這一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),具有溢出帶動性很強(qiáng)的“頭雁”效應(yīng)。加快發(fā)展新一代人工智能是我們贏得全球科技競爭主動權(quán)的重要戰(zhàn)略抓手。《中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》也做出了相關(guān)部署。
人工智能計(jì)算中心作為人工智能算力基礎(chǔ)設(shè)施受到全球廣泛重視。中國、美國、歐洲、日本等國家和地區(qū)都在積極推動人工智能計(jì)算中心建設(shè)。當(dāng)前,人工智能計(jì)算中心的發(fā)展面臨新的形勢。一方面,人工智能的發(fā)展對算力的需求持續(xù)攀升,以鵬程·盤古為代表的超大規(guī)模預(yù)訓(xùn)練模型開始賦能各行各業(yè);另一方面,在國家“雙碳”戰(zhàn)略下,需要計(jì)算中心加強(qiáng)統(tǒng)籌建設(shè)和提升利用率,進(jìn)一步減排降耗。君子豹變,其文蔚也,新形勢下,人工智能計(jì)算中心正在悄然“豹變”,走向網(wǎng)絡(luò)化和集約化,將實(shí)現(xiàn)算力、大模型、數(shù)據(jù)集、行業(yè)應(yīng)用等人工智能要素流動共享,成為應(yīng)對新需求的重要途徑。
人工智能計(jì)算中心不再作為獨(dú)立的系統(tǒng),而是逐步走向相互連接的算力網(wǎng)絡(luò),將深化人工智能計(jì)算中心的高質(zhì)量建設(shè),是人工智能計(jì)算中心下一步發(fā)展的新形態(tài)和新范式。新型網(wǎng)絡(luò)技術(shù)將各地分布的人工智能計(jì)算中心節(jié)點(diǎn)連接起來,構(gòu)成感知、分配、調(diào)度人工智能算力的網(wǎng)絡(luò),可以更好地匯聚和共享算力、數(shù)據(jù)、算法資源,更好地滿足我國經(jīng)濟(jì)社會高質(zhì)量發(fā)展的新需求。
推進(jìn)人工智能計(jì)算中心高質(zhì)量網(wǎng)絡(luò)化發(fā)展
人工智能計(jì)算中心及其網(wǎng)絡(luò)建設(shè)具有技術(shù)實(shí)現(xiàn)復(fù)雜、建設(shè)周期長、資源投入巨大、產(chǎn)業(yè)輻射面廣的特點(diǎn),為了適應(yīng)我國經(jīng)濟(jì)高質(zhì)量發(fā)展的需要,進(jìn)一步推進(jìn)人工智能的集約化、普及化、低碳化發(fā)展,我國需要進(jìn)一步強(qiáng)化戰(zhàn)略統(tǒng)籌和政策保障,進(jìn)行系統(tǒng)的組織機(jī)制和體制創(chuàng)新,加強(qiáng)關(guān)鍵核心技術(shù)攻關(guān)和標(biāo)準(zhǔn)化建設(shè),以加快推動人工智能計(jì)算中心向高質(zhì)量網(wǎng)絡(luò)化發(fā)展。
統(tǒng)籌推進(jìn)計(jì)算中心高質(zhì)量建設(shè)
在確保已建成的人工智能計(jì)算中心高效運(yùn)營的同時(shí),順應(yīng)人工智能發(fā)展趨勢和產(chǎn)業(yè)落地的需求,我們必須堅(jiān)持以應(yīng)用為導(dǎo)向,堅(jiān)持自主創(chuàng)新技術(shù)路線,加強(qiáng)人工智能計(jì)算中心建設(shè)。
繼續(xù)推進(jìn)計(jì)算中心高效運(yùn)營和可持續(xù)發(fā)展。已建成的人工智能計(jì)算中心,要強(qiáng)化洞察人工智能產(chǎn)業(yè)發(fā)展現(xiàn)狀、調(diào)研算力需求的能力,繼續(xù)實(shí)施算力普惠政策,為行業(yè)用戶及應(yīng)用開發(fā)企業(yè)、科研機(jī)構(gòu)、高校提供普惠算力服務(wù)等。聯(lián)合產(chǎn)業(yè)組織編制面向人工智能應(yīng)用場景的項(xiàng)目機(jī)會清單,面向人工智能企業(yè)、高校院所、科研機(jī)構(gòu)進(jìn)行公開發(fā)布,鼓勵(lì)開展人工智能先導(dǎo)性應(yīng)用開發(fā)和場景試驗(yàn),牽引科技創(chuàng)新成果進(jìn)行商用轉(zhuǎn)化,打造一批有影響力、有實(shí)際效果的應(yīng)用示范項(xiàng)目,形成圍繞大模型的產(chǎn)業(yè)集群,進(jìn)一步帶動產(chǎn)業(yè)智能化升級。
堅(jiān)持自主創(chuàng)新技術(shù)路線與推動開放開源并重。在當(dāng)前日益復(fù)雜的國際競爭環(huán)境下,在推動人工智能計(jì)算中心建設(shè)的過程中,要繼續(xù)堅(jiān)持自主技術(shù)路線,進(jìn)一步強(qiáng)化政策支持,廣泛吸納產(chǎn)學(xué)研用各方參與,共同提升相關(guān)產(chǎn)業(yè)鏈供應(yīng)鏈現(xiàn)代化水平。同時(shí),堅(jiān)持自主創(chuàng)新技術(shù)路線并不意味著故步自封,閉門造車。在注重掌握核心競爭力的基礎(chǔ)上,仍需以積極開放的態(tài)度擁抱開源開放,在全球范圍內(nèi)推動形成共建共享的人工智能算力與創(chuàng)新生態(tài)。
有序推進(jìn)人工智能算力網(wǎng)絡(luò)建設(shè)
當(dāng)前,順應(yīng)新形勢的要求,推進(jìn)人工智能算力網(wǎng)絡(luò)建設(shè),我們亟須做好以下三個(gè)方面的工作。
鼓勵(lì)京津冀、長三角、粵港澳大灣區(qū)、長江經(jīng)濟(jì)帶等人工智能發(fā)展基礎(chǔ)較好的重點(diǎn)區(qū)域先行發(fā)展人工智能算力網(wǎng)絡(luò),有序推動各地人工智能計(jì)算中心加入算力網(wǎng)絡(luò),探索推動算力跨網(wǎng)絡(luò)結(jié)算機(jī)制,降低算力網(wǎng)絡(luò)的使用費(fèi)用。
重點(diǎn)區(qū)域先行先試,有序推進(jìn)。在京津冀、長三角、長江經(jīng)濟(jì)帶、粵港澳大灣區(qū)、成渝地區(qū)雙城經(jīng)濟(jì)圈等人工智能創(chuàng)新資源聚集、產(chǎn)業(yè)聯(lián)系緊密的重點(diǎn)區(qū)域,可由節(jié)點(diǎn)城市平等互聯(lián)或一方牽頭,先行組建算力網(wǎng)絡(luò),實(shí)現(xiàn)資源互換和共享。在各節(jié)點(diǎn)之間自發(fā)互聯(lián)和資源共享的基礎(chǔ)上,隨著更多網(wǎng)絡(luò)互聯(lián)和節(jié)點(diǎn)的加入,積極做好相關(guān)制度安排,探索形成統(tǒng)一規(guī)劃和統(tǒng)一管理全國范圍算力網(wǎng)絡(luò)的體制和機(jī)制。
激勵(lì)人工智能計(jì)算中心加入算力網(wǎng)絡(luò),降低算力網(wǎng)絡(luò)使用費(fèi)用,推動算力跨網(wǎng)絡(luò)結(jié)算;通過政策保障和資金支持,激勵(lì)不同運(yùn)營主體的人工智能計(jì)算中心加入算力網(wǎng)絡(luò),突破資源流動的實(shí)際障礙和地域壁壘;探索建立跨算力網(wǎng)絡(luò)結(jié)算機(jī)制,破解AI要素評級、定價(jià)、計(jì)費(fèi)、傳輸、記賬、監(jiān)控、交易等機(jī)制建設(shè)難題,推動人工智能計(jì)算中心之間的算力、數(shù)據(jù)和生態(tài)服務(wù)實(shí)現(xiàn)可信交易,將多方、異構(gòu)的資源整合在一起,實(shí)現(xiàn)供需的靈活對接、資源的統(tǒng)一管控,在滿足用戶業(yè)務(wù)需求的情況下,實(shí)現(xiàn)資源利用的整體最優(yōu)化。
加強(qiáng)人工智能算力網(wǎng)絡(luò)核心技術(shù)攻關(guān)
目前,我國人工智能算力網(wǎng)絡(luò)技術(shù)還處于早期發(fā)展階段,需要強(qiáng)化高效網(wǎng)絡(luò)傳輸、算力調(diào)度聯(lián)通等關(guān)鍵技術(shù)的研發(fā)部署和資金保障,引導(dǎo)相關(guān)企業(yè)和研究機(jī)構(gòu)加大投入、聯(lián)合攻關(guān)。同時(shí),在當(dāng)前功耗技術(shù)和管理水平的基礎(chǔ)上,進(jìn)一步加強(qiáng)綠色能源技術(shù)的研發(fā)和應(yīng)用,提升電能利用水平,保證低碳可持續(xù)發(fā)展。
破解算力網(wǎng)絡(luò)關(guān)鍵核心技術(shù)難題,加大攻關(guān)資金保障。開發(fā)高效網(wǎng)絡(luò)傳送技術(shù),重點(diǎn)解決高帶寬低成本傳送、低延遲低抖動聯(lián)接和信息安全等問題,以滿足海量數(shù)據(jù)傳輸和分布式計(jì)算需求。開發(fā)適用于算力網(wǎng)絡(luò)的調(diào)度器技術(shù),實(shí)現(xiàn)作業(yè)調(diào)度層面聯(lián)通,構(gòu)建多級的算力調(diào)度系統(tǒng)層以實(shí)現(xiàn)全網(wǎng)算力與網(wǎng)絡(luò)的調(diào)度、匹配,形成一個(gè)“算力操作系統(tǒng)”,將整個(gè)網(wǎng)絡(luò)上的算力節(jié)點(diǎn)納入統(tǒng)一的體系。要圍繞以上關(guān)鍵技術(shù)問題,通過出臺相關(guān)科技攻關(guān)專項(xiàng)等方式,聯(lián)合計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)等多技術(shù)廠商和科研機(jī)構(gòu)共同攻關(guān)。
以低碳綠色技術(shù)為牽引優(yōu)化人工智能算力的利用率和能耗。圍繞人工智能計(jì)算中心及算力網(wǎng)絡(luò)可持續(xù)發(fā)展,強(qiáng)化綠色能源技術(shù)的研發(fā)應(yīng)用。在技術(shù)研發(fā)上,出臺政策牽引節(jié)能技術(shù)成為算力技術(shù)研發(fā)的重點(diǎn)方向,并積極使用綠色新能源和能效技術(shù)。在規(guī)劃和建設(shè)上,人工智能計(jì)算中心要盡量靠近能源豐富且便于天然散熱的地區(qū),更多使用可再生能源,推廣使用一體化機(jī)柜和液冷等先進(jìn)散熱方案。
推動人工智能算力網(wǎng)絡(luò)標(biāo)準(zhǔn)化建設(shè)
在推動人工智能算力網(wǎng)絡(luò)建設(shè)過程中,算力網(wǎng)絡(luò)的一體化標(biāo)準(zhǔn)至關(guān)重要,需在各人工智能計(jì)算中心自身標(biāo)準(zhǔn)研究與應(yīng)用實(shí)踐的基礎(chǔ)上,積極推動建立統(tǒng)一的算力網(wǎng)絡(luò)標(biāo)準(zhǔn),形成包括算力網(wǎng)絡(luò)架構(gòu)、節(jié)點(diǎn)互聯(lián)標(biāo)準(zhǔn)、應(yīng)用接口標(biāo)準(zhǔn)、人工智能數(shù)據(jù)集接口標(biāo)準(zhǔn)等在內(nèi)的標(biāo)準(zhǔn)體系,兼容多樣化算力和開發(fā)框架等軟硬件平臺,以促進(jìn)AI要素在算力網(wǎng)絡(luò)上的開放共享。其中包含以下三個(gè)方面的工作。
支持多樣化算力,形成可迭代可替換的硬件標(biāo)準(zhǔn)體系。國內(nèi)多家廠商紛紛在AI算力投入研發(fā),逐步形成了自主創(chuàng)新的技術(shù)力量。不同廠商建設(shè)的人工智能計(jì)算中心所提供的算力資源包含多種不同類型指令集、不同體系架構(gòu)異構(gòu)硬件,比如CPU、NPU、GPU等,不同指令集、不同體系架構(gòu)有不同的優(yōu)缺點(diǎn),適配不同的場景。人工智能計(jì)算中心網(wǎng)絡(luò)在支持多樣化算力的過程中,需要適配不同廠商的基礎(chǔ)設(shè)施硬件架構(gòu),同時(shí)支持對不同廠商的硬件進(jìn)行迭代和替換,提高算力基礎(chǔ)設(shè)施層的通用性、易用性。
堅(jiān)持開放性和兼容性,推動構(gòu)建算子、框架、平臺多層次互通的軟件標(biāo)準(zhǔn)體系。人工智能計(jì)算在發(fā)展中形成了各有特色和優(yōu)勢的算子庫、框架與使能平臺,并擁有各自的使用群體。算力網(wǎng)絡(luò)需要支持多算子庫、多人工智能開發(fā)框架和多使能平臺等基礎(chǔ)軟件,開發(fā)者可根據(jù)場景和需求來使用不同的框架與使能平臺。應(yīng)加快建設(shè)跨廠家的算子庫、框架和使能平臺的多層次標(biāo)準(zhǔn),對人工智能開發(fā)軟件系統(tǒng)分層解耦,層次之間接口統(tǒng)一且互聯(lián)互通,最終在算力網(wǎng)絡(luò)上形成開放的編程環(huán)境與編程接口標(biāo)準(zhǔn)。
以滿足場景應(yīng)用聯(lián)合創(chuàng)新需求為重點(diǎn),推動構(gòu)建互聯(lián)、應(yīng)用、人工智能數(shù)據(jù)集等接口標(biāo)準(zhǔn)。為解決算力感知與調(diào)度、區(qū)域協(xié)同聯(lián)合應(yīng)用創(chuàng)新以及數(shù)據(jù)匯聚共享等技術(shù)問題,針對計(jì)算和服務(wù)感知、互聯(lián)和資源控制調(diào)度、應(yīng)用場景聯(lián)合創(chuàng)新,重點(diǎn)推進(jìn)算力網(wǎng)絡(luò)架構(gòu)及接口、應(yīng)用及算力感知接口、算力量化與建模、人工智能數(shù)據(jù)集接口、資源可信與協(xié)同等標(biāo)準(zhǔn)化建設(shè)。
人工智能算力網(wǎng)絡(luò)作為計(jì)算中心的新形態(tài)和新范式,讓科研創(chuàng)新更高效,讓人工智能與產(chǎn)業(yè)的融合更深入,共建資源、共享資源、共同發(fā)展,共同促進(jìn)AI產(chǎn)業(yè)發(fā)展。人工智能算力網(wǎng)絡(luò)作為新型基礎(chǔ)設(shè)施,讓各區(qū)域共享資源,促進(jìn)AI技術(shù)生態(tài)和商業(yè)生態(tài)發(fā)展,加速科學(xué)新發(fā)現(xiàn)、推動應(yīng)用新場景、發(fā)現(xiàn)產(chǎn)業(yè)新方向、孵化發(fā)展新理念,為數(shù)字經(jīng)濟(jì)發(fā)展提供原動力,打造中國人工智能的數(shù)字底座,在中國打造共同富裕的新格局中,發(fā)揮人工智能的引擎作用。
就是現(xiàn)在!進(jìn)軍人工智能算力網(wǎng)絡(luò)
算力跨計(jì)算中心調(diào)度、大模型研究與產(chǎn)業(yè)跨區(qū)域創(chuàng)新協(xié)同、人工智能生產(chǎn)要素流動共享等新需求催生了人工智能算力網(wǎng)絡(luò)。人工智能算力網(wǎng)絡(luò)將各地分布的人工智能計(jì)算中心節(jié)點(diǎn)連接起來,構(gòu)成多個(gè)計(jì)算中心間感知、分配、調(diào)度人工智能算力的網(wǎng)絡(luò),在此基礎(chǔ)上匯聚和共享算力、數(shù)據(jù)、大模型等算法資源,是人工智能計(jì)算中心進(jìn)一步發(fā)展的重要方向,將有助于推動構(gòu)建區(qū)域范圍乃至全國范圍的人工智能產(chǎn)業(yè)生態(tài)網(wǎng)絡(luò)。
隨著5G、人工智能、云計(jì)算、大數(shù)據(jù)等新一代信息技術(shù)在各行各業(yè)廣泛應(yīng)用,行業(yè)應(yīng)用的多樣性帶來數(shù)據(jù)和算力的多樣性。未來,人工智能算力網(wǎng)絡(luò)將進(jìn)一步連接高性能計(jì)算中心和一體化大數(shù)據(jù)中心,演進(jìn)為多樣性算力網(wǎng)絡(luò),滿足數(shù)字化技術(shù)交叉應(yīng)用的廣泛需求。
人工智能算力網(wǎng)絡(luò)是以新型網(wǎng)絡(luò)技術(shù)連接各地人工智能計(jì)算中心,匯聚算力、算法、生態(tài)等創(chuàng)新資源,釋放人工智能產(chǎn)業(yè)賦能能力的新范式。通過算力網(wǎng)絡(luò)建設(shè),打造中國信息基礎(chǔ)設(shè)施數(shù)字基座,實(shí)現(xiàn)“共建算力、共享資源、共同發(fā)展”的愿景。
人工智能算力網(wǎng)絡(luò)的核心思想是通過新型網(wǎng)絡(luò)技術(shù)將各地分布的人工智能計(jì)算中心節(jié)點(diǎn)連接起來,動態(tài)實(shí)時(shí)感知算力和網(wǎng)絡(luò)資源狀態(tài),進(jìn)而統(tǒng)籌分配和調(diào)度計(jì)算任務(wù),構(gòu)成感知、決策、分配、調(diào)度算力的網(wǎng)絡(luò),在此基礎(chǔ)上匯聚和共享算力、應(yīng)用、數(shù)據(jù)、算法資源,是一種多資源、多樣性異構(gòu)算力深度融合,釋放人工智能賦能能力的新范式。
人工智能算力網(wǎng)絡(luò)使算力資源從單計(jì)算中心統(tǒng)一分配轉(zhuǎn)變?yōu)樗杏?jì)算中心間任務(wù)和資源統(tǒng)一調(diào)度。過去,人工智能算力中心在各地由企業(yè)和科研機(jī)構(gòu)等分散建設(shè)、分散使用,正如私家車一樣由每個(gè)人自行購買、自行維護(hù)和使用,從全局視角來看,車輛使用率低,使用成本高。統(tǒng)籌建設(shè)人工智能等計(jì)算中心,可以實(shí)現(xiàn)資源統(tǒng)一分配,計(jì)算任務(wù)排隊(duì)管理,就像出租車一樣,車輛由出租車公司集中購買,車輛統(tǒng)一分配,用戶排隊(duì)打車,這樣出租車車輛使用率較高,成本降低,但用戶需排隊(duì)使用車輛,用車高峰時(shí)需要等候,且無法將空閑的社會車輛利用起來。
人工智能算力網(wǎng)絡(luò)將全部計(jì)算中心的算力需求統(tǒng)一管理,并將數(shù)據(jù)、算法、應(yīng)用資源等開放共享,進(jìn)行統(tǒng)一分配,實(shí)現(xiàn)了整網(wǎng)最大效率,并拓展了應(yīng)用和創(chuàng)新的空間。正如當(dāng)前的互聯(lián)網(wǎng)用車平臺,將加入平臺的車輛資源進(jìn)行統(tǒng)一的按需分配,用戶向用車平臺申請用車,可以利用全網(wǎng)的車輛資源,用車更快,時(shí)間和費(fèi)用的綜合成本進(jìn)一步降低,全局資源利用率最優(yōu),實(shí)現(xiàn)可調(diào)度、可協(xié)同、可匯聚、可共享,達(dá)到了網(wǎng)絡(luò)價(jià)值的最大化。
從計(jì)算中心到算力網(wǎng)絡(luò) 符合國家“雙碳”目標(biāo)新要求
在國家碳達(dá)峰、碳中和目標(biāo)下,2021年10月21日,國家發(fā)展改革委等部門發(fā)布了關(guān)于嚴(yán)格能效約束推動重點(diǎn)領(lǐng)域節(jié)能降碳的若干意見,將“加強(qiáng)數(shù)據(jù)中心綠色高質(zhì)量發(fā)展”作為重點(diǎn)任務(wù),鼓勵(lì)重點(diǎn)行業(yè)利用綠色數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施實(shí)現(xiàn)節(jié)能降耗。新建大型、超大型數(shù)據(jù)中心電能利用效率(PUE)不超過1.3。到2025年,數(shù)據(jù)中心電能利用效率普遍不超過1.5。這些均對人工智能計(jì)算中心提出了進(jìn)一步提升電能利用率,在不同計(jì)算中心間算力協(xié)同調(diào)度、削峰填谷、精細(xì)化能耗控制的要求。
人工智能計(jì)算中心能耗總量較大,且還在不斷增長。2019年,馬薩諸塞大學(xué)阿默斯特分校的研究人員發(fā)現(xiàn),訓(xùn)練一個(gè)AI模型的過程中可排放超過626000磅二氧化碳,相當(dāng)于普通汽車壽命周期排放量的5倍(其中包括汽車本身的制造過程)。統(tǒng)計(jì)表明,2018年中國所有數(shù)據(jù)中心的總用電量達(dá)1600億千瓦時(shí),需消耗5300萬噸標(biāo)準(zhǔn)煤,占中國社會總用電量的2.5%。
工業(yè)和信息化部2021年7月印發(fā)的《新型數(shù)據(jù)中心發(fā)展三年行動計(jì)劃(2021- 2023年)》提出,到2023年底,全國數(shù)據(jù)中心機(jī)架規(guī)模年均增速將保持在20%左右。按照目前的增長速度推算,2023年中國所有數(shù)據(jù)中心用電量將達(dá)2600億千瓦時(shí),相當(dāng)于2.6個(gè)三峽大壩的年發(fā)電量。
人工智能計(jì)算中心提供人工智能計(jì)算范式所需的專用算力,配合少量的通用算力以進(jìn)行數(shù)據(jù)預(yù)處理和其他任務(wù),從而能夠以較低的能耗提供高效的人工智能計(jì)算能力。NVIDIA曾測算,在完成相同的人工智能計(jì)算任務(wù)條件下,人工智能計(jì)算中心的計(jì)算效率是傳統(tǒng)計(jì)算中心的10倍,而能耗僅為十分之一。近年來,計(jì)算中心不斷降低PUE,能耗效率顯著提升。原因主要有兩點(diǎn):一是得益于統(tǒng)籌規(guī)劃,集中建設(shè)。在全球各地區(qū)政策的引導(dǎo)下,數(shù)據(jù)中心從較小的傳統(tǒng)數(shù)據(jù)中心向超大規(guī)模數(shù)據(jù)中心轉(zhuǎn)變。二是得益于制冷和供配電等基礎(chǔ)設(shè)施技術(shù)的不斷改進(jìn)。這兩個(gè)措施有效降低了計(jì)算中心的PUE。2013年以前,全國對外服務(wù)型數(shù)據(jù)中心平均PUE在2.5左右,而到2019年底,全國對外服務(wù)型數(shù)據(jù)中心平均PUE近1.6,實(shí)現(xiàn)了質(zhì)的飛躍。
雖然計(jì)算中心有效降低了PUE,但計(jì)算業(yè)務(wù)天然存在波動,仍存在能耗閑置現(xiàn)象。計(jì)算中心的業(yè)務(wù)波動會造成算力利用的波峰和波谷,在波谷時(shí)部分計(jì)算集群沒有任務(wù)運(yùn)行,會發(fā)生能耗的閑置。如超大規(guī)模預(yù)訓(xùn)練模型在人工智能計(jì)算中心訓(xùn)練時(shí),將占據(jù)計(jì)算中心大部分算力,持續(xù)數(shù)周或數(shù)月形成時(shí)間周期性的算力波動,在算力波峰時(shí),算力滿負(fù)荷運(yùn)行,其他計(jì)算任務(wù)排隊(duì),在算力波谷時(shí)則造成能耗閑置。
因此,人工智能計(jì)算中心需要采用算力調(diào)度進(jìn)一步降低業(yè)務(wù)波峰波谷造成的能耗閑置。多人工智能計(jì)算中心協(xié)同調(diào)度,在A中心算力波峰時(shí),可以將排隊(duì)任務(wù)轉(zhuǎn)移到算力波谷的B中心計(jì)算,削峰填谷,多計(jì)算中心都可以保持算力高利用率,將計(jì)算中心的能耗充分利用起來,從全局和長遠(yuǎn)角度看,是進(jìn)一步提升電能利用率,降低碳排放的有效路徑。
國家“雙碳”目標(biāo)對計(jì)算中心能耗控制提出了更高的要求,多計(jì)算中心間聯(lián)網(wǎng)感知計(jì)算應(yīng)用所需算力資源,通過任務(wù)調(diào)度,在能效比的約束下作出算力調(diào)配的最優(yōu)決策,從全局視角看,可以獲得計(jì)算效率與能耗效率的最優(yōu)。
因此,算力網(wǎng)絡(luò)將成為人工智能計(jì)算中心下一步發(fā)展的新形態(tài)和新范式。人工智能超大規(guī)模預(yù)訓(xùn)練模型的不斷涌現(xiàn),基于大模型開發(fā)行業(yè)應(yīng)用賦能區(qū)域經(jīng)濟(jì)社會發(fā)展的需求激增,人工智能數(shù)據(jù)集等AI要素進(jìn)一步流動和共享,以及社會對計(jì)算中心不斷提升能耗控制水平的要求,促使人工智能計(jì)算中心之間開始連接。人工智能計(jì)算中心不再是獨(dú)立的系統(tǒng),而是形成相互連接的算力網(wǎng)絡(luò)。地理分布的多個(gè)算力中心將連接在一起,為基于基礎(chǔ)模型開發(fā)新型分布式融合應(yīng)用提供支撐。算力網(wǎng)絡(luò)可以感知應(yīng)用所需算力與存儲資源,通過任務(wù)調(diào)度滿足業(yè)務(wù)需求,多個(gè)組織用戶在多個(gè)計(jì)算中心共享算力和數(shù)據(jù),滿足復(fù)雜應(yīng)用對計(jì)算和數(shù)據(jù)處理的需求。