關(guān)注最新一期全球超級(jí)計(jì)算機(jī)榜單的意義在于未來,而非過去。整整六個(gè)月以來,榜單位次基本沒有多大變化,而即將于本月公布的最新榜單可能最終打破這死水微瀾的半年。驅(qū)動(dòng)這波變化的,當(dāng)然要?dú)w功于云系統(tǒng)和AI系統(tǒng)的涌入。兩股新勢(shì)力正令超算排名逐漸偏離其最初目標(biāo),在高性能計(jì)算(HPC)模擬之外開辟出新的算力廝殺戰(zhàn)場(chǎng)。
但這種轉(zhuǎn)變又在情理之中,甚至可以說是不可避免。畢竟傳統(tǒng)意義上的“高性能計(jì)算”就是用Linpack基準(zhǔn)測(cè)試核查分布式系統(tǒng)的理論算力,但這種簡(jiǎn)單粗暴的方式顯然不足以確切反映各國超算系統(tǒng)在商業(yè)、學(xué)術(shù)和模擬/建模任務(wù)當(dāng)中表現(xiàn)出的相對(duì)性能。
之前我們已經(jīng)多次談到,超算500強(qiáng)榜單上經(jīng)常會(huì)有日常處理電信、Web和托管工作負(fù)載的高性能機(jī)器實(shí)例。而隨著商業(yè)AI系統(tǒng)的興起,構(gòu)建這些機(jī)器的供應(yīng)商以及負(fù)責(zé)托管的企業(yè)/國家自然也深為自己掌握的巨量算力而自豪。表面這種自豪的重要方式,就是在機(jī)器上運(yùn)行高性能Linpack基準(zhǔn)測(cè)試(HPL)。但現(xiàn)實(shí)情況是,這些機(jī)器很少、甚至幾乎不會(huì)運(yùn)行64位浮點(diǎn)數(shù)學(xué)運(yùn)算,就連傳統(tǒng)意義上的HPC負(fù)載都接觸不多。全球范圍內(nèi)存在著成千上萬的超算系統(tǒng),但榜單只有區(qū)區(qū)500個(gè)名額。HPC社區(qū)當(dāng)然希望在榜單中多引入新選手,借此展示整個(gè)生態(tài)的蓬勃活力。
當(dāng)然,從最廣泛的意義上對(duì)全球超算系統(tǒng)進(jìn)行排名也無可厚非。但我們認(rèn)為AI社區(qū)還需要一些門檻更低的選項(xiàng),比如說多測(cè)HPL,這可比AI硬件廠商最喜歡的MLPerf基準(zhǔn)測(cè)試簡(jiǎn)單得多。另外,還應(yīng)當(dāng)對(duì)基準(zhǔn)測(cè)試結(jié)果做更加嚴(yán)格的審核,以證明機(jī)器確實(shí)在運(yùn)行HPC或AI負(fù)載,而不只是將超大規(guī)模服務(wù)商、云供應(yīng)商和電信公司的集群分割出足夠大的一塊,然后粗暴占據(jù)Top500榜單中高達(dá)三分之一的名額。(HPE和聯(lián)想,感謝你們對(duì)HPC做出的卓越貢獻(xiàn),但實(shí)際情況就是如此。當(dāng)然,IBM在2000年左右也有過類似的「霸榜」行為,這里并不是要指責(zé)哪家廠商。)
帶著這樣的思考,讓我們一起來看2023年6月的最新一輪Top500超算榜單。雖然很多人確定中國已經(jīng)建立起了自己的百億億級(jí)系統(tǒng),但其在本次榜單中仍然不見蹤影;Frontier超級(jí)計(jì)算機(jī)的HPL持續(xù)性能為1.19百億億次(exaflops),還是目前全球唯一得到認(rèn)證的百億億級(jí)系統(tǒng)。同樣由美國能源部出資建設(shè)的勞倫斯利弗莫爾國家實(shí)驗(yàn)室El Capitan系統(tǒng)和阿貢國家實(shí)驗(yàn)室的Aurora系統(tǒng),也將在今年晚些時(shí)候加入百億億級(jí)俱樂部。不出意外的話,二者的亮相首秀將是2023年11月的下一次Top500超算排名。
超算系統(tǒng)的性能提升恐怕已經(jīng)跟不上摩爾定律的預(yù)測(cè)了。
位列榜首的Frontier系統(tǒng)來自橡樹嶺國家實(shí)驗(yàn)室,是一套由4000多個(gè)節(jié)點(diǎn)組成的集群,采用定制版“Trento”AMD Epyc CPU和4個(gè)AMD“Aldebaran”Instinct MI250X GPU加速器,通過HPE的Slingshot 11以太網(wǎng)實(shí)現(xiàn)互連。第二名則是采用富士通A64FX高度矢量化Arm CPU和Tofu D互連系統(tǒng)的“Fugaku”超級(jí)計(jì)算機(jī)。二者的64位浮點(diǎn)運(yùn)算理論峰值性能分別為1.68百億億次和537.2千萬億次(petaflops)。Fukago比Frontier年長(zhǎng)兩歲、發(fā)熱量更大,但64位運(yùn)算的性能只有后者的三分之一強(qiáng),耗能更高導(dǎo)致其單位計(jì)算成本相對(duì)更差。作為Fugaku及其身前K超級(jí)計(jì)算機(jī)的所在地,日本RIKEN實(shí)驗(yàn)室掌握著相當(dāng)全面的超算系統(tǒng)陣容,在Graph500測(cè)試和HPCG等高強(qiáng)度工作負(fù)載上都把持著最佳能效的桂冠。
芬蘭科學(xué)計(jì)算中心(CSC Finland)的Lumi系統(tǒng)在本次榜單上位列第三,依靠的就是去年11月升級(jí)后獲得的309.1千萬億次持續(xù)性能。與Frontier一樣,Lumi系統(tǒng)也是基于HPE架構(gòu)的Cray EX235a超算,同門師兄弟還有即將亮相的奪冠大熱El Capitan和Aurora。El Capitan將采用Instinct MI300-A的“Antares”混合CPU-GPU計(jì)算引擎,該引擎在單一封裝內(nèi)塞進(jìn)了2個(gè)“Genoa”Epyc小芯片外加6個(gè)GPU小芯片。Aurora則擁有2個(gè)英特爾“Sapphire Rapids”至強(qiáng)jSP節(jié)點(diǎn),各節(jié)點(diǎn)交叉耦合至6個(gè)“Ponte Vecchio”Max GPU加速器,CPU與GPU之間使用Xe互連進(jìn)行對(duì)接,再輔以Slingshot 11連接節(jié)點(diǎn)。從目前的情況看,HPE顯然特別擅長(zhǎng)在準(zhǔn)百億億級(jí)和百億億級(jí)超算中使用Slingshot 11連通各CPU和GPU節(jié)點(diǎn)。根據(jù)之前的推測(cè),Lumi系統(tǒng)的GPU部分算力應(yīng)該擴(kuò)展到了550千萬億次的峰值,但目前還不清楚論斷是否準(zhǔn)確。芬蘭科學(xué)計(jì)算中心只提到,Lumi的GPU部分在Linpack上的持續(xù)峰值性能可達(dá)到375千萬億次。
來自意大利Cineca超算中心的Leonardo系統(tǒng)由Atos(現(xiàn)更名為Eviden)負(fù)責(zé)建造,并于去年11月首次上榜。雖然通過升級(jí)將設(shè)備規(guī)模提升了25%,但Leonardo目前在Top500榜單中的排名仍在第四。升級(jí)后Leonardo的峰值性能提升19.1%來到304.5千萬億次,而持續(xù)Linpack性能則提升36.6%達(dá)到238.7千萬億次。
Top500的前十名沒有任何變化,我們也將繼續(xù)期待看到更多新的系統(tǒng)和技術(shù)發(fā)展趨勢(shì)。
趨勢(shì)和花絮
下面咱們聊聊云計(jì)算陣營。微軟Azure提供7個(gè)永久(可能是虛擬)集群,負(fù)責(zé)運(yùn)行真正的客戶HPC工作負(fù)載。這些集群也進(jìn)入了本輪Top500榜單。這一點(diǎn)非常重要,其中排名第11的Explorer-WUS3系統(tǒng)由48核Epyc 7V12處理器和AMD MI250X GPU組成,服務(wù)器節(jié)點(diǎn)采用英偉達(dá)100 Gb/秒HDR InfiniBand互連,其峰值Linpack性能接近87千萬億次,持續(xù)性能則接近54千萬億次。由此可知,其計(jì)算效率為62%,跟我們?cè)贕PU加速計(jì)算系統(tǒng)中常見的65%到70%效率基本持平。而且很明顯,Azure云實(shí)例還要配合Hyper-V管理程序運(yùn)行,所以必然額外消耗一點(diǎn)性能(一切云平臺(tái)上的任何管理程序都必然額外消耗性能)。Voyager-EUS2集群自2021年夏季起正式運(yùn)行,并在當(dāng)年11月的榜單中位列第十。但其持續(xù)30千萬億次的性能很快跌至榜單第16位。微軟的四個(gè)Pioneer集群繼續(xù)以16.6千萬億次的峰值性能位列40多名;而采用英特爾至強(qiáng)SP CPU加英偉達(dá)V100 GPU的HyperCluster設(shè)備最初于2019年11月進(jìn)入榜單,目前仍以2.67千萬億次的持續(xù)Linpack峰值性能位列榜單第289位。
微軟的所有HPC集群目前在64位基準(zhǔn)測(cè)試中的峰值性能在229千萬億次,持續(xù)運(yùn)行性能則為153千萬億次,跟橡樹嶺的“Summit”超級(jí)計(jì)算機(jī)處于同一水平。我們很好奇這7個(gè)多云HPC集群到底幫微軟賺了多少錢,目前有沒有收回成本。但唯一可以肯定的,就是全球還沒有哪個(gè)國家實(shí)驗(yàn)室的集群能真正創(chuàng)造收入,即使把科研產(chǎn)出算上也不行。如果再加上俄羅斯Yandex的兩個(gè)集群和美國亞馬遜云科技Descartes Labs的一個(gè)集群,那么6月Top500榜單中全部10個(gè)云實(shí)例共對(duì)應(yīng)294.1千萬億次峰值性能,在全榜所有超算64位浮點(diǎn)算力總值7.83百億億次中占比3.8%。
雖然看起來比例不高,但請(qǐng)注意:這份Top500榜單只采集主動(dòng)提交上來的超算系統(tǒng)信息。其他一切已知和未知的HPC設(shè)備,無論屬不屬于云基礎(chǔ)設(shè)施,都不會(huì)被計(jì)入進(jìn)來。這也是我們長(zhǎng)久以來最為不滿的點(diǎn):我們需要一套完整的數(shù)據(jù)庫,包含對(duì)所了解的一切超算設(shè)備及其測(cè)試性能的全面記錄。如若不然,這樣的榜單反而可能扭曲我們對(duì)于現(xiàn)實(shí)的認(rèn)知。(請(qǐng)千萬別誤會(huì),Top500超算榜首提供的數(shù)據(jù)也很有價(jià)值,包括其中的HPCG、Graph500、Green500及其他測(cè)試基準(zhǔn)。)
我們只是認(rèn)為HPC集群的云實(shí)例其實(shí)更多,其中相當(dāng)一部分屬于云內(nèi)部設(shè)施,且生命周期在三到四年之間。
說到這里,我還想再提點(diǎn)意見。Top500榜單會(huì)告訴我們一臺(tái)機(jī)器排在多少名,每隔半年其成績(jī)有何變化,但卻不會(huì)直接顯示各位選手在榜單上待了多久。對(duì)于傳統(tǒng)超算系統(tǒng)來說,這倒不是個(gè)大問題,查詢一下非常方便。但云計(jì)算集群就不同了,我們很想知道它們會(huì)不會(huì)被更快淘汰,至少跟傳統(tǒng)超算相比在生命周期上有何異同。最近一段時(shí)間,各大云服務(wù)商正在將基礎(chǔ)設(shè)施的使用壽命由三年延長(zhǎng)到四年、五年甚至是六年——我們強(qiáng)烈懷疑超級(jí)計(jì)算機(jī)的工作周期也在延長(zhǎng),不再一味追求每年定期推出的最新、最強(qiáng)計(jì)算引擎。
下面,咱們聊聊在HPC領(lǐng)域重新崛起的AMD和他們的CPU/GPU成果。
在2023年6月榜單上的184位GPU加速選手中,有11位搭載了AMD GPU,167位配備英偉達(dá)GPU,另外6位配備其他加速器(例如英特爾Knights協(xié)處理器)。AMD在GPU加速系統(tǒng)中的份額為5.9%,英偉達(dá)則為90.8%,看來天秤已經(jīng)徹底傾斜了。但如果具體審視系統(tǒng)中GPU流式多處理器的數(shù)量,則AMD的份額為30.3%,英偉達(dá)為53.2%——這是因?yàn)锳MD重回GPU賽道的時(shí)間還不長(zhǎng),但目前已經(jīng)在184位GPU加速選手中占得總體Linpack持續(xù)性能份額的49.2%,而英偉達(dá)GPU的總和性能反而只有48.6%。
短短幾年間恢復(fù)到這樣的水準(zhǔn)無疑令人驚嘆,也引得英偉達(dá)用Grace-Hopper和Grace-Grace計(jì)算引擎施以反擊——前者為CPU-GPU混合引擎,后者則是雙CPU密耦合封裝。
現(xiàn)在我們?cè)倏纯碩op500榜單中的CPU們。以下圖表按時(shí)間順序記錄了每一代CPU和各家廠商在榜單中的核心數(shù)量:
首先需要注意的是,Top500榜單中各超算系統(tǒng)的總核心數(shù)量已接近4000萬,而且過去兩年間一直在迅猛增加。目前AMD的核心份額約在三分之一,而且自2020年來保持著穩(wěn)步提升。但如果深入研究數(shù)據(jù)并計(jì)算各代CPU核心的性能占比,則AMD在目前這份榜單中的比例僅為24.2%,核心數(shù)量占比為35.4%,而各核心帶來的持續(xù)Linpack性能份額為51.1%。這些數(shù)據(jù)均來自Top500數(shù)據(jù)庫的子列表生成器,但似乎同時(shí)計(jì)入了CPU和GPU核心的數(shù)量和對(duì)應(yīng)性能。不太清楚具體要怎么把純CPU系統(tǒng)剝離出來單獨(dú)比較。
在我們看來,如果AMD能在Top500超算榜單的CPU數(shù)量上占比超過三分之一,那么這些CPU所對(duì)應(yīng)的性能很可能是榜單總量的40%或者更高一點(diǎn)。自2000年代中后期Opteron達(dá)到頂峰以來,AMD在HPC領(lǐng)域從未取得過此等成功。而這一次,AMD不僅要在CPU市場(chǎng)上正面對(duì)抗英特爾,還打算在GPU領(lǐng)域跟英偉達(dá)一較高下。
最后,Top500超算榜單的守門性能水平為L(zhǎng)inpack 1.87千萬億次;要沖擊前100(也就是真正具備HPC承載能力的高容量超算的正式門檻)則為6.32千萬億次。
Top500榜單目前的總算力為5.24百億億次,比去年11月增長(zhǎng)了7.8%,較上年同期的4.4百億億次增長(zhǎng)了19.1%。