生成式人工智能有潛力改變行業(yè)并產(chǎn)生難以估量的投資回報(bào)率,但前提是首席信息官和其他IT領(lǐng)導(dǎo)者了解一些基本要素。
生成式人工智能吸引了所有人的注意力,這有著充分理由。但是,從潛力到盈利并非沒(méi)有風(fēng)險(xiǎn),例如,假設(shè)部署主流企業(yè)IT基礎(chǔ)設(shè)施的既定流程將在復(fù)雜的人工智能超級(jí)集群的新時(shí)代發(fā)揮作用。
堅(jiān)實(shí)的技術(shù)基礎(chǔ)設(shè)施一直是必不可少的。盡管如此,想要確保人工智能實(shí)現(xiàn)其承諾的首席信息官們需要更好地了解大規(guī)模設(shè)計(jì)、部署和管理這一基礎(chǔ)組件所需的條件,其中包括:
1.基礎(chǔ)設(shè)施需求
基于人工智能的環(huán)境相對(duì)較新,嘗試將傳統(tǒng)的企業(yè)計(jì)算設(shè)計(jì)和架構(gòu)與高性能處理器、低延遲網(wǎng)絡(luò)和調(diào)度器驅(qū)動(dòng)的工作負(fù)載環(huán)境結(jié)合起來(lái)會(huì)帶來(lái)一系列新的挑戰(zhàn)。物理數(shù)據(jù)中心設(shè)計(jì)是基礎(chǔ)的,不正確配置系統(tǒng)的無(wú)聲、長(zhǎng)尾影響可能意味著啟動(dòng)基于不正確的電源、冷卻和網(wǎng)絡(luò)元素的“錯(cuò)誤啟動(dòng)”部署。
2.性能優(yōu)化
其次是好的設(shè)計(jì)是復(fù)雜的,低延遲的GPU網(wǎng)絡(luò)結(jié)構(gòu)的影響。這些系統(tǒng)需要精確的配置,雖然未調(diào)優(yōu)的系統(tǒng)仍能正常工作,但團(tuán)隊(duì)對(duì)人工智能工作負(fù)載的低性能水平一無(wú)所知,最終導(dǎo)致大量錯(cuò)失投資回報(bào)率。
Penguin/SGH全球營(yíng)銷副總裁Mark Seamans將其比作一級(jí)方程式賽車。他說(shuō):“一個(gè)配置不當(dāng)?shù)南到y(tǒng)可能看起來(lái)就像一輛F1賽車,但只有當(dāng)你把其他五輛車放在賽道上時(shí),你才會(huì)意識(shí)到競(jìng)爭(zhēng)對(duì)手正在超越。確保你在設(shè)計(jì)、制造和部署過(guò)程中都遵循一套規(guī)范的標(biāo)準(zhǔn),這意味著即使你是賽道上唯一的車手,你也能達(dá)到F1賽車的全速。”
3.可擴(kuò)展性、靈活性和可靠性
當(dāng)考慮人工智能基礎(chǔ)設(shè)施及其構(gòu)建塊的性質(zhì)時(shí),精度對(duì)于有效處理不同的人工智能工作負(fù)載變得更加重要。這就是適應(yīng)不斷變化的計(jì)算需求的可擴(kuò)展性和靈活性。但是,正如馬克所指出的,“在團(tuán)隊(duì)進(jìn)行安全、軟件和固件更新時(shí),或者在增加新的人工智能節(jié)點(diǎn)以擴(kuò)大集群容量的情況下,這也與穩(wěn)定性有關(guān)。如果構(gòu)建模塊不是最優(yōu)的,未來(lái)的變化可能會(huì)破壞系統(tǒng)的穩(wěn)定。”
4.數(shù)據(jù)管理
組織習(xí)慣于這樣的環(huán)境:如果一臺(tái)服務(wù)器宕機(jī),其他服務(wù)器可以接管負(fù)載。然而,人工智能系統(tǒng)并不以同樣的方式運(yùn)行。錯(cuò)誤配置的網(wǎng)絡(luò)、節(jié)點(diǎn)故障,甚至單個(gè)GPU的丟失,都可能扼殺可能已經(jīng)運(yùn)行了數(shù)周的作業(yè)——讓用戶感到沮喪,并為負(fù)擔(dān)沉重的IT團(tuán)隊(duì)增加工作量。
Mark說(shuō):“Penguin公司為提高集群性能和可靠性開(kāi)發(fā)了許多創(chuàng)新——包括一個(gè)隔離未決GPU故障的解決方案,我們可以撤離這些節(jié)點(diǎn),在生產(chǎn)配置之外對(duì)其進(jìn)行分類,修復(fù)問(wèn)題,然后重新配置并將其作為健康節(jié)點(diǎn)放回集群。”
5.成本的考慮
成本始終是一個(gè)考慮因素,但與人工智能工作負(fù)載相關(guān)的影響更大??紤]一個(gè)有1000個(gè)節(jié)點(diǎn)的系統(tǒng),每個(gè)節(jié)點(diǎn)由10根網(wǎng)線和多個(gè)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)連接。硬件采購(gòu)、電力和冷卻的大量能源消耗以及維護(hù)成本如果不能與部署時(shí)間表和性能要求相平衡,就會(huì)超出預(yù)算限制。有了這些價(jià)值數(shù)百萬(wàn)美元的人工智能配置,將系統(tǒng)投入生產(chǎn)的延遲會(huì)帶來(lái)大量不必要的折舊成本和錯(cuò)失的投資回報(bào)率。
來(lái)自經(jīng)驗(yàn)豐富的AI基礎(chǔ)設(shè)施合作伙伴的證明點(diǎn)
超過(guò)25年的高性能計(jì)算經(jīng)驗(yàn)和超過(guò)7年的大規(guī)模部署人工智能基礎(chǔ)設(shè)施,使企鵝解決方案成為人工智能平臺(tái)的首選。企鵝已經(jīng)部署了5萬(wàn)多塊GPU,像Meta公司這樣的客戶依賴于他們的專業(yè)知識(shí),Penguin公司已經(jīng)準(zhǔn)備好成為值得信賴的合作伙伴,幫助每一位客戶走向未來(lái)。