AI的進(jìn)一步發(fā)展，或?qū)⒏淖兂?jí)計(jì)算機(jī)排名格局？

沃卡惠
行業(yè)資訊
2023-05-26 09:23:27
572

關(guān)注最新一期全球超級(jí)計(jì)算機(jī)榜單的意義在于未來，而非過去。整整六個(gè)月以來，榜單位次基本沒有多大變化，而即將于本月公布的最新榜單可能最終打破這死水微瀾的半年。驅(qū)動(dòng)這波變化的，當(dāng)然要?dú)w功于云系統(tǒng)和AI系統(tǒng)的涌入。兩股新勢(shì)力正令超算排名逐漸偏離其最初目標(biāo)，在高性能計(jì)算（HPC）模擬之外開辟出新的算力廝殺戰(zhàn)場(chǎng)。

但這種轉(zhuǎn)變又在情理之中，甚至可以說是不可避免。畢竟傳統(tǒng)意義上的“高性能計(jì)算”就是用Linpack基準(zhǔn)測(cè)試核查分布式系統(tǒng)的理論算力，但這種簡(jiǎn)單粗暴的方式顯然不足以確切反映各國超算系統(tǒng)在商業(yè)、學(xué)術(shù)和模擬/建模任務(wù)當(dāng)中表現(xiàn)出的相對(duì)性能。

之前我們已經(jīng)多次談到，超算500強(qiáng)榜單上經(jīng)常會(huì)有日常處理電信、Web和托管工作負(fù)載的高性能機(jī)器實(shí)例。而隨著商業(yè)AI系統(tǒng)的興起，構(gòu)建這些機(jī)器的供應(yīng)商以及負(fù)責(zé)托管的企業(yè)/國家自然也深為自己掌握的巨量算力而自豪。表面這種自豪的重要方式，就是在機(jī)器上運(yùn)行高性能Linpack基準(zhǔn)測(cè)試（HPL）。但現(xiàn)實(shí)情況是，這些機(jī)器很少、甚至幾乎不會(huì)運(yùn)行64位浮點(diǎn)數(shù)學(xué)運(yùn)算，就連傳統(tǒng)意義上的HPC負(fù)載都接觸不多。全球范圍內(nèi)存在著成千上萬的超算系統(tǒng)，但榜單只有區(qū)區(qū)500個(gè)名額。HPC社區(qū)當(dāng)然希望在榜單中多引入新選手，借此展示整個(gè)生態(tài)的蓬勃活力。

當(dāng)然，從最廣泛的意義上對(duì)全球超算系統(tǒng)進(jìn)行排名也無可厚非。但我們認(rèn)為AI社區(qū)還需要一些門檻更低的選項(xiàng)，比如說多測(cè)HPL，這可比AI硬件廠商最喜歡的MLPerf基準(zhǔn)測(cè)試簡(jiǎn)單得多。另外，還應(yīng)當(dāng)對(duì)基準(zhǔn)測(cè)試結(jié)果做更加嚴(yán)格的審核，以證明機(jī)器確實(shí)在運(yùn)行HPC或AI負(fù)載，而不只是將超大規(guī)模服務(wù)商、云供應(yīng)商和電信公司的集群分割出足夠大的一塊，然后粗暴占據(jù)Top500榜單中高達(dá)三分之一的名額。（HPE和聯(lián)想，感謝你們對(duì)HPC做出的卓越貢獻(xiàn)，但實(shí)際情況就是如此。當(dāng)然，IBM在2000年左右也有過類似的「霸榜」行為，這里并不是要指責(zé)哪家廠商。）

帶著這樣的思考，讓我們一起來看2023年6月的最新一輪Top500超算榜單。雖然很多人確定中國已經(jīng)建立起了自己的百億億級(jí)系統(tǒng)，但其在本次榜單中仍然不見蹤影；Frontier超級(jí)計(jì)算機(jī)的HPL持續(xù)性能為1.19百億億次（exaflops），還是目前全球唯一得到認(rèn)證的百億億級(jí)系統(tǒng)。同樣由美國能源部出資建設(shè)的勞倫斯利弗莫爾國家實(shí)驗(yàn)室El Capitan系統(tǒng)和阿貢國家實(shí)驗(yàn)室的Aurora系統(tǒng)，也將在今年晚些時(shí)候加入百億億級(jí)俱樂部。不出意外的話，二者的亮相首秀將是2023年11月的下一次Top500超算排名。

超算系統(tǒng)的性能提升恐怕已經(jīng)跟不上摩爾定律的預(yù)測(cè)了。

位列榜首的Frontier系統(tǒng)來自橡樹嶺國家實(shí)驗(yàn)室，是一套由4000多個(gè)節(jié)點(diǎn)組成的集群，采用定制版“Trento”AMD Epyc CPU和4個(gè)AMD“Aldebaran”Instinct MI250X GPU加速器，通過HPE的Slingshot 11以太網(wǎng)實(shí)現(xiàn)互連。第二名則是采用富士通A64FX高度矢量化Arm CPU和Tofu D互連系統(tǒng)的“Fugaku”超級(jí)計(jì)算機(jī)。二者的64位浮點(diǎn)運(yùn)算理論峰值性能分別為1.68百億億次和537.2千萬億次（petaflops）。Fukago比Frontier年長(zhǎng)兩歲、發(fā)熱量更大，但64位運(yùn)算的性能只有后者的三分之一強(qiáng)，耗能更高導(dǎo)致其單位計(jì)算成本相對(duì)更差。作為Fugaku及其身前K超級(jí)計(jì)算機(jī)的所在地，日本RIKEN實(shí)驗(yàn)室掌握著相當(dāng)全面的超算系統(tǒng)陣容，在Graph500測(cè)試和HPCG等高強(qiáng)度工作負(fù)載上都把持著最佳能效的桂冠。

芬蘭科學(xué)計(jì)算中心（CSC Finland）的Lumi系統(tǒng)在本次榜單上位列第三，依靠的就是去年11月升級(jí)后獲得的309.1千萬億次持續(xù)性能。與Frontier一樣，Lumi系統(tǒng)也是基于HPE架構(gòu)的Cray EX235a超算，同門師兄弟還有即將亮相的奪冠大熱El Capitan和Aurora。El Capitan將采用Instinct MI300-A的“Antares”混合CPU-GPU計(jì)算引擎，該引擎在單一封裝內(nèi)塞進(jìn)了2個(gè)“Genoa”Epyc小芯片外加6個(gè)GPU小芯片。Aurora則擁有2個(gè)英特爾“Sapphire Rapids”至強(qiáng)jSP節(jié)點(diǎn)，各節(jié)點(diǎn)交叉耦合至6個(gè)“Ponte Vecchio”Max GPU加速器，CPU與GPU之間使用Xe互連進(jìn)行對(duì)接，再輔以Slingshot 11連接節(jié)點(diǎn)。從目前的情況看，HPE顯然特別擅長(zhǎng)在準(zhǔn)百億億級(jí)和百億億級(jí)超算中使用Slingshot 11連通各CPU和GPU節(jié)點(diǎn)。根據(jù)之前的推測(cè)，Lumi系統(tǒng)的GPU部分算力應(yīng)該擴(kuò)展到了550千萬億次的峰值，但目前還不清楚論斷是否準(zhǔn)確。芬蘭科學(xué)計(jì)算中心只提到，Lumi的GPU部分在Linpack上的持續(xù)峰值性能可達(dá)到375千萬億次。

來自意大利Cineca超算中心的Leonardo系統(tǒng)由Atos（現(xiàn)更名為Eviden）負(fù)責(zé)建造，并于去年11月首次上榜。雖然通過升級(jí)將設(shè)備規(guī)模提升了25%，但Leonardo目前在Top500榜單中的排名仍在第四。升級(jí)后Leonardo的峰值性能提升19.1%來到304.5千萬億次，而持續(xù)Linpack性能則提升36.6%達(dá)到238.7千萬億次。

Top500的前十名沒有任何變化，我們也將繼續(xù)期待看到更多新的系統(tǒng)和技術(shù)發(fā)展趨勢(shì)。

趨勢(shì)和花絮

下面咱們聊聊云計(jì)算陣營。微軟Azure提供7個(gè)永久（可能是虛擬）集群，負(fù)責(zé)運(yùn)行真正的客戶HPC工作負(fù)載。這些集群也進(jìn)入了本輪Top500榜單。這一點(diǎn)非常重要，其中排名第11的Explorer-WUS3系統(tǒng)由48核Epyc 7V12處理器和AMD MI250X GPU組成，服務(wù)器節(jié)點(diǎn)采用英偉達(dá)100 Gb/秒HDR InfiniBand互連，其峰值Linpack性能接近87千萬億次，持續(xù)性能則接近54千萬億次。由此可知，其計(jì)算效率為62%，跟我們?cè)贕PU加速計(jì)算系統(tǒng)中常見的65%到70%效率基本持平。而且很明顯，Azure云實(shí)例還要配合Hyper-V管理程序運(yùn)行，所以必然額外消耗一點(diǎn)性能（一切云平臺(tái)上的任何管理程序都必然額外消耗性能）。Voyager-EUS2集群自2021年夏季起正式運(yùn)行，并在當(dāng)年11月的榜單中位列第十。但其持續(xù)30千萬億次的性能很快跌至榜單第16位。微軟的四個(gè)Pioneer集群繼續(xù)以16.6千萬億次的峰值性能位列40多名；而采用英特爾至強(qiáng)SP CPU加英偉達(dá)V100 GPU的HyperCluster設(shè)備最初于2019年11月進(jìn)入榜單，目前仍以2.67千萬億次的持續(xù)Linpack峰值性能位列榜單第289位。

微軟的所有HPC集群目前在64位基準(zhǔn)測(cè)試中的峰值性能在229千萬億次，持續(xù)運(yùn)行性能則為153千萬億次，跟橡樹嶺的“Summit”超級(jí)計(jì)算機(jī)處于同一水平。我們很好奇這7個(gè)多云HPC集群到底幫微軟賺了多少錢，目前有沒有收回成本。但唯一可以肯定的，就是全球還沒有哪個(gè)國家實(shí)驗(yàn)室的集群能真正創(chuàng)造收入，即使把科研產(chǎn)出算上也不行。如果再加上俄羅斯Yandex的兩個(gè)集群和美國亞馬遜云科技Descartes Labs的一個(gè)集群，那么6月Top500榜單中全部10個(gè)云實(shí)例共對(duì)應(yīng)294.1千萬億次峰值性能，在全榜所有超算64位浮點(diǎn)算力總值7.83百億億次中占比3.8%。

雖然看起來比例不高，但請(qǐng)注意：這份Top500榜單只采集主動(dòng)提交上來的超算系統(tǒng)信息。其他一切已知和未知的HPC設(shè)備，無論屬不屬于云基礎(chǔ)設(shè)施，都不會(huì)被計(jì)入進(jìn)來。這也是我們長(zhǎng)久以來最為不滿的點(diǎn)：我們需要一套完整的數(shù)據(jù)庫，包含對(duì)所了解的一切超算設(shè)備及其測(cè)試性能的全面記錄。如若不然，這樣的榜單反而可能扭曲我們對(duì)于現(xiàn)實(shí)的認(rèn)知。（請(qǐng)千萬別誤會(huì)，Top500超算榜首提供的數(shù)據(jù)也很有價(jià)值，包括其中的HPCG、Graph500、Green500及其他測(cè)試基準(zhǔn)。）

我們只是認(rèn)為HPC集群的云實(shí)例其實(shí)更多，其中相當(dāng)一部分屬于云內(nèi)部設(shè)施，且生命周期在三到四年之間。

說到這里，我還想再提點(diǎn)意見。Top500榜單會(huì)告訴我們一臺(tái)機(jī)器排在多少名，每隔半年其成績(jī)有何變化，但卻不會(huì)直接顯示各位選手在榜單上待了多久。對(duì)于傳統(tǒng)超算系統(tǒng)來說，這倒不是個(gè)大問題，查詢一下非常方便。但云計(jì)算集群就不同了，我們很想知道它們會(huì)不會(huì)被更快淘汰，至少跟傳統(tǒng)超算相比在生命周期上有何異同。最近一段時(shí)間，各大云服務(wù)商正在將基礎(chǔ)設(shè)施的使用壽命由三年延長(zhǎng)到四年、五年甚至是六年——我們強(qiáng)烈懷疑超級(jí)計(jì)算機(jī)的工作周期也在延長(zhǎng)，不再一味追求每年定期推出的最新、最強(qiáng)計(jì)算引擎。

下面，咱們聊聊在HPC領(lǐng)域重新崛起的AMD和他們的CPU/GPU成果。

在2023年6月榜單上的184位GPU加速選手中，有11位搭載了AMD GPU，167位配備英偉達(dá)GPU，另外6位配備其他加速器（例如英特爾Knights協(xié)處理器）。AMD在GPU加速系統(tǒng)中的份額為5.9%，英偉達(dá)則為90.8%，看來天秤已經(jīng)徹底傾斜了。但如果具體審視系統(tǒng)中GPU流式多處理器的數(shù)量，則AMD的份額為30.3%，英偉達(dá)為53.2%——這是因?yàn)锳MD重回GPU賽道的時(shí)間還不長(zhǎng)，但目前已經(jīng)在184位GPU加速選手中占得總體Linpack持續(xù)性能份額的49.2%，而英偉達(dá)GPU的總和性能反而只有48.6%。

短短幾年間恢復(fù)到這樣的水準(zhǔn)無疑令人驚嘆，也引得英偉達(dá)用Grace-Hopper和Grace-Grace計(jì)算引擎施以反擊——前者為CPU-GPU混合引擎，后者則是雙CPU密耦合封裝。

現(xiàn)在我們?cè)倏纯碩op500榜單中的CPU們。以下圖表按時(shí)間順序記錄了每一代CPU和各家廠商在榜單中的核心數(shù)量：

首先需要注意的是，Top500榜單中各超算系統(tǒng)的總核心數(shù)量已接近4000萬，而且過去兩年間一直在迅猛增加。目前AMD的核心份額約在三分之一，而且自2020年來保持著穩(wěn)步提升。但如果深入研究數(shù)據(jù)并計(jì)算各代CPU核心的性能占比，則AMD在目前這份榜單中的比例僅為24.2%，核心數(shù)量占比為35.4%，而各核心帶來的持續(xù)Linpack性能份額為51.1%。這些數(shù)據(jù)均來自Top500數(shù)據(jù)庫的子列表生成器，但似乎同時(shí)計(jì)入了CPU和GPU核心的數(shù)量和對(duì)應(yīng)性能。不太清楚具體要怎么把純CPU系統(tǒng)剝離出來單獨(dú)比較。

在我們看來，如果AMD能在Top500超算榜單的CPU數(shù)量上占比超過三分之一，那么這些CPU所對(duì)應(yīng)的性能很可能是榜單總量的40%或者更高一點(diǎn)。自2000年代中后期Opteron達(dá)到頂峰以來，AMD在HPC領(lǐng)域從未取得過此等成功。而這一次，AMD不僅要在CPU市場(chǎng)上正面對(duì)抗英特爾，還打算在GPU領(lǐng)域跟英偉達(dá)一較高下。

最后，Top500超算榜單的守門性能水平為L(zhǎng)inpack 1.87千萬億次；要沖擊前100（也就是真正具備HPC承載能力的高容量超算的正式門檻）則為6.32千萬億次。

Top500榜單目前的總算力為5.24百億億次，比去年11月增長(zhǎng)了7.8%，較上年同期的4.4百億億次增長(zhǎng)了19.1%。

上一篇：工業(yè)機(jī)器人發(fā)展趨勢(shì)

下一篇：IDC：2023年亞太地區(qū)三分之二的組織正在探索或已投資生成性AI技術(shù)