2023年至2026年,全球在AI系統(tǒng)上的支出將翻一番,顯然,數(shù)據(jù)中心的容量將迅速增加,以滿足需求。
然而,令人驚訝的是,在過去的一年里,許多數(shù)據(jù)中心運營商對新項目踩下了剎車,放緩了投資,倫敦的空置容量在2022-23年間下降了6.3%。
這種違反直覺的趨勢背后是什么原因?要解釋這一點,我們需要了解圍繞AI計算和支持它的基礎(chǔ)設(shè)施的一些問題。
AI如何改變數(shù)據(jù)中心基礎(chǔ)設(shè)施
數(shù)據(jù)中心歷來是圍繞使用CPU的機架構(gòu)建的,以應對傳統(tǒng)的計算工作負載,然而,AI計算轉(zhuǎn)而需要使用GPU驅(qū)動機架,與同等的CPU容量相比,它消耗更多的電力,釋放更多的熱量,占用更多的空間。
在實踐中,這意味著AI計算能力通常需要更多的電源連接或替代冷卻系統(tǒng)。
由于這是嵌入式基礎(chǔ)設(shè)施,它被內(nèi)置到數(shù)據(jù)中心綜合體的結(jié)構(gòu)中——這使得更換它往往代價高昂,如果不是在經(jīng)濟上完全不可能的話。
在實踐中,運營商必須承諾在他們的新數(shù)據(jù)中心中有多少空間專門用于AI和傳統(tǒng)計算之間的“分割”。
如果弄錯了這一點,并過度承諾AI,可能會讓數(shù)據(jù)中心運營商背負著永久未充分利用和無利可圖的負擔。
AI市場還處于初級階段,這加劇了這個問題,Gartner聲稱,它目前正處于炒作周期中夸大預期的頂峰。因此,許多運營商選擇在設(shè)計階段按兵不動,而不是過早承諾在新數(shù)據(jù)中心項目中承擔AI計算的比例。
在設(shè)計階段采取全面的方法
然而,運營商敏銳地意識到,在失去市場份額和競爭優(yōu)勢之前,他們只能冒著推遲投資的風險,但考慮到數(shù)據(jù)中心基礎(chǔ)設(shè)施的許多基本要素正在被實時重寫,這是一項艱巨的任務(wù)。
為了滿足成為先行者的需求,同時抵消風險,運營商需要將他們的數(shù)據(jù)中心設(shè)計為在AI計算時代具有最大的效率和彈性,這需要一種全新的整體設(shè)計方法。
1、讓更多利益相關(guān)者參與進來
無論操作員決定AI和傳統(tǒng)計算之間的確切分離,具有AI計算能力的數(shù)據(jù)中心站點有望比傳統(tǒng)設(shè)施復雜得多。更復雜的往往意味著更多的故障點,特別是在AI計算比傳統(tǒng)計算有更多需求的情況下。
因此,為了保證正常運行時間并降低站點生命周期內(nèi)出現(xiàn)代價高昂的問題的風險,團隊需要在數(shù)據(jù)中心的規(guī)劃階段更加徹底。
特別是,設(shè)計階段應在項目開始時尋求更廣泛的團隊和專業(yè)知識的投入。除了尋求電力和冷卻方面的專業(yè)知識外,設(shè)計人員還應該及早接觸運營、布線和安全團隊,以了解潛在的瓶頸或故障來源。
2、將AI融入數(shù)據(jù)中心運營
由于運營商現(xiàn)在在現(xiàn)場進行AI計算,他們應該利用自己的能力來利用AI來提高運營的新效率。AI在數(shù)據(jù)中心的采用已經(jīng)有很長時間了,這項技術(shù)能夠以極高的精度和質(zhì)量承擔工作流。例如,AI可以在以下方面提供幫助:
溫度和濕度監(jiān)測。
安全系統(tǒng)運營。
用電監(jiān)控和分配。
硬件故障檢測和預測性維護。
通過在數(shù)據(jù)中心生命周期的每個階段主動使用該技術(shù),運營商可以顯著提高其運營的效率和穩(wěn)健性。AI非常適合于幫助應對采用這些新一代數(shù)據(jù)中心新穎而復雜的布局時遇到的新挑戰(zhàn),例如通過故障檢測和預測性維護。
3、避免虛假的節(jié)約
在高峰期,例如在培訓運行期間或在生產(chǎn)中運行企業(yè)級模型時,AI會給數(shù)據(jù)中心帶來更大的負載。在這些期間,AI計算在功耗、冷卻需求和數(shù)據(jù)吞吐量方面往往會大大超出傳統(tǒng)的預期。
在最基本的層面上,這意味著數(shù)據(jù)中心的底層材料面臨更大的壓力。如果這些底層材料或部件質(zhì)量不高,這意味著它們更容易失敗。由于AI計算意味著一個站點的組件和連接數(shù)量急劇增加,這意味著在傳統(tǒng)站點中運行良好的更便宜、更低質(zhì)量的材料可能會使運行AI計算的數(shù)據(jù)中心陷入停頓。
為此,運營商應該避免通過購買質(zhì)量較低的材料來節(jié)省資金,比如不合格的電纜。這樣做可能會帶來虛假的經(jīng)濟風險,因為這些材料更容易失效,需要更頻繁地更換。但是,最有問題的是,不合格的材料和部件的故障往往會導致網(wǎng)站停機或停機,從而影響其盈利能力。
解決基礎(chǔ)設(shè)施難題
盡管AI計算的基礎(chǔ)設(shè)施要求可能是運營商拖延投資的主要原因,但從長遠來看,情況并非如此。
隨著市場不確定性的消除,公司將在數(shù)據(jù)中心的傳統(tǒng)計算和AI計算之間的分裂問題上匯聚到他們的“適中區(qū)域”。
隨著這種情況的發(fā)生,公司將需要確保隨著他們的學習和成熟,他們在網(wǎng)站的運營中擁有一切可能的優(yōu)勢。
這意味著從一開始就進行整體設(shè)計,利用AI本身來發(fā)現(xiàn)他們網(wǎng)站的新效率,并投資于能夠滿足更大的AI計算需求的高質(zhì)量組件。