英特爾宣布,已經(jīng)建造了世界上最大的神經(jīng)形態(tài)系統(tǒng),代號(hào)為Hala Point,這一大規(guī)模神經(jīng)形態(tài)系統(tǒng)最初部署在桑迪亞國家實(shí)驗(yàn)室,采用英特爾的Loihi 2處理器,旨在支持未來以大腦啟發(fā)的AI研究,并解決當(dāng)前AI在效率和可持續(xù)性方面的挑戰(zhàn)。Hala Point對(duì)英特爾第一代大規(guī)模研究系統(tǒng)Pohoiki Springs進(jìn)行了架構(gòu)改進(jìn),神經(jīng)元容量提高了十倍以上,性能提升了多達(dá)十二倍。
英特爾實(shí)驗(yàn)室神經(jīng)形態(tài)計(jì)算實(shí)驗(yàn)室主任Mike Davies表示:“當(dāng)今AI模型的計(jì)算成本正以不可持續(xù)的速度增長。因此,我們開發(fā)了Hala Point,它結(jié)合了深度學(xué)習(xí)效率與新穎的大腦啟發(fā)式學(xué)習(xí)和優(yōu)化能力。我們希望Hala Point的研究能夠推動(dòng)大規(guī)模AI技術(shù)的效率和適應(yīng)性。”
Hala Point是第一個(gè)在主流AI工作負(fù)載上展示最先進(jìn)計(jì)算效率的大規(guī)模神經(jīng)形態(tài)系統(tǒng)。性能測(cè)試顯示,它能支持高達(dá)20千萬億次(20 petaops)運(yùn)算能力,當(dāng)執(zhí)行常規(guī)深度神經(jīng)網(wǎng)絡(luò)時(shí),效率超過每瓦特15萬億次8比特運(yùn)算(TOPS/W),這一性能不僅媲美,甚至超過了基于圖形處理單元(GPU)和中央處理單元(CPU)構(gòu)建的架構(gòu)。Hala Point的獨(dú)特能力未來可實(shí)現(xiàn)AI應(yīng)用的實(shí)時(shí)連續(xù)學(xué)習(xí),例如科學(xué)和工程問題解決、物流、智慧城市基礎(chǔ)設(shè)施管理、大型語言模型(LLMs)及AI代理。
如何使用:桑迪亞國家實(shí)驗(yàn)室的研究人員計(jì)劃利用Hala Point進(jìn)行先進(jìn)的大腦規(guī)模計(jì)算研究。該機(jī)構(gòu)將專注于解決設(shè)備物理學(xué)、計(jì)算機(jī)架構(gòu)、計(jì)算機(jī)科學(xué)和信息學(xué)領(lǐng)域的科學(xué)計(jì)算問題。
桑迪亞國家實(shí)驗(yàn)室的Hala Point團(tuán)隊(duì)負(fù)責(zé)人Craig Vineyard表示:“與Hala Point合作提升了我們桑迪亞團(tuán)隊(duì)解決計(jì)算和科學(xué)建模問題的能力。利用這種規(guī)模的系統(tǒng)進(jìn)行研究將使我們能夠跟上AI在從商業(yè)到國防再到基礎(chǔ)科學(xué)等領(lǐng)域的發(fā)展。”
目前,Hala Point是一個(gè)研究原型,將推動(dòng)未來商業(yè)系統(tǒng)的能力發(fā)展。英特爾預(yù)計(jì),此類經(jīng)驗(yàn)教訓(xùn)將帶來實(shí)際進(jìn)展,例如使大型語言模型(LLMs)能夠持續(xù)從新數(shù)據(jù)中學(xué)習(xí)。這樣的進(jìn)展有望顯著減輕普遍部署AI的不可持續(xù)的訓(xùn)練負(fù)擔(dān)。
為什么這很重要:近期將深度學(xué)習(xí)模型擴(kuò)展到數(shù)萬億參數(shù)的趨勢(shì)揭示了AI面臨的巨大可持續(xù)性挑戰(zhàn),并突顯了在硬件架構(gòu)的最底層進(jìn)行創(chuàng)新的必要性。神經(jīng)形態(tài)計(jì)算是一種全新的方法,它借鑒了神經(jīng)科學(xué)的見解,將存儲(chǔ)和計(jì)算與高度精細(xì)的并行性結(jié)合起來,以最小化數(shù)據(jù)移動(dòng)。在本月的國際聲學(xué)、語音和信號(hào)處理會(huì)議(ICASSP)上發(fā)布的結(jié)果中,Loihi 2在效率、速度和適應(yīng)性方面展示了數(shù)量級(jí)的增益,這些增益適用于新興的小規(guī)模邊緣工作負(fù)載。
Hala Point在其前身Pohoiki Springs的基礎(chǔ)上進(jìn)行了許多改進(jìn),現(xiàn)在將神經(jīng)形態(tài)性能和效率提升帶到了主流的傳統(tǒng)深度學(xué)習(xí)模型中,特別是那些處理實(shí)時(shí)工作負(fù)載如視頻、語音和無線通信的模型。例如,愛立信研究院正在利用Loihi 2優(yōu)化電信基礎(chǔ)設(shè)施效率,這一點(diǎn)在今年的世界移動(dòng)通信大會(huì)上得到了強(qiáng)調(diào)。
關(guān)于Hala Point:基于Loihi 2神經(jīng)形態(tài)處理器構(gòu)建的Hala Point,采用了啟發(fā)于大腦的計(jì)算原理,例如異步的、基于事件的脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)、集成化的內(nèi)存與計(jì)算以及稀疏且持續(xù)變化的連接,以實(shí)現(xiàn)能耗和性能的數(shù)量級(jí)提升。神經(jīng)元之間直接通信,而非通過內(nèi)存,從而減少了整體功耗。
Hala Point集成了1152個(gè)在Intel 4工藝節(jié)點(diǎn)生產(chǎn)的Loihi 2處理器,安裝在一個(gè)六機(jī)架單元數(shù)據(jù)中心機(jī)柜中,其大小相當(dāng)于一個(gè)微波爐。該系統(tǒng)支持多達(dá)11.5億個(gè)神經(jīng)元和1280億個(gè)突觸,分布在140,544個(gè)神經(jīng)形態(tài)處理核心上,最大功耗為2600瓦。它還包括2300多個(gè)嵌入式x86處理器,用于輔助計(jì)算。
Hala Point將處理、內(nèi)存和通信通道集成在一個(gè)高度并行化的結(jié)構(gòu)中,提供總共16PB/s的內(nèi)存帶寬、3.5PB/s的核間通信帶寬和5TB/s的芯片間通信帶寬。該系統(tǒng)能夠每秒處理超過380萬億次8位突觸運(yùn)算和超過240萬億次神經(jīng)元操作。
應(yīng)用于生物啟發(fā)的脈沖神經(jīng)網(wǎng)絡(luò)模型,該系統(tǒng)可以以人腦速度的20倍執(zhí)行其全部11.5億神經(jīng)元的容量,并在較低容量下達(dá)到高達(dá)200倍的速度。雖然Hala Point并非旨在進(jìn)行神經(jīng)科學(xué)建模,但其神經(jīng)元容量大致相當(dāng)于一只貓頭鷹的大腦或一只卷尾猴的大腦皮層。
基于Loihi的系統(tǒng)能夠在能耗低100倍的同時(shí),比傳統(tǒng)的CPU和GPU架構(gòu)快50倍進(jìn)行AI推理和解決優(yōu)化問題。通過利用最高10:1的稀疏連接和事件驅(qū)動(dòng)活動(dòng),Hala Point的初步結(jié)果顯示,該系統(tǒng)能夠在不需要將輸入數(shù)據(jù)批處理(GPU常用的一種優(yōu)化,會(huì)顯著延遲實(shí)時(shí)到達(dá)的數(shù)據(jù)處理,如攝像機(jī)視頻)的情況下,達(dá)到高達(dá)15 TOPS/W的深度神經(jīng)網(wǎng)絡(luò)效率。雖然還在研究階段,未來能持續(xù)學(xué)習(xí)的神經(jīng)形態(tài)大型語言模型(LLMs)可能通過消除定期使用日益增長的數(shù)據(jù)集重新訓(xùn)練的需求,節(jié)省千兆瓦時(shí)的能源。
接下來:將Hala Point交付給桑迪亞國家實(shí)驗(yàn)室標(biāo)志著Intel計(jì)劃與其研究合作伙伴共享的一系列新型大規(guī)模神經(jīng)形態(tài)研究系統(tǒng)的首次部署。進(jìn)一步的開發(fā)將使神經(jīng)形態(tài)計(jì)算應(yīng)用克服限制AI能力在真實(shí)世界實(shí)時(shí)部署的功耗和延遲約束。
與全球包括頂尖學(xué)術(shù)團(tuán)體、政府實(shí)驗(yàn)室、研究機(jī)構(gòu)和公司在內(nèi)的200多個(gè)Intel神經(jīng)形態(tài)研究社區(qū)(INRC)成員一道,Intel正努力推動(dòng)以大腦為靈感的AI的邊界,并在未來幾年內(nèi)將這項(xiàng)技術(shù)從研究原型推進(jìn)至行業(yè)領(lǐng)先的商業(yè)產(chǎn)品。