在過去兩年里,我更多地參與了使用大型語言模型(LLM)而非傳統(tǒng)系統(tǒng)的生成式人工智能項目。我開始懷念無服務器云計算。它們的應用范圍從增強會話式人工智能到提供跨行業(yè)的復雜分析解決方案,以及其他許多功能。許多企業(yè)在云平臺上部署這些模型,因為有現(xiàn)成的公共云提供商生態(tài)系統(tǒng),這是阻力最小的途徑。然而,這樣做的成本并不便宜。
云還提供了其他許多好處,如可擴展性、效率和高級計算能力(按需GPU)。LLM在公共云平臺上的部署過程有一些鮮為人知的秘密,這些秘密可能會對成功與否產生重大影響。也許是因為能夠處理LLM的人工智能專家并不多,也因為我們做這方面的應用時間不長,所以我們的知識存在很多空白。
接下來,讓我們來探討一下在云上部署LLM的三個鮮為人知的“秘密”,這些秘密甚至可能連您的人工智能工程師都不知道。
管理成本效率和可擴展性
使用云平臺部署LLM的主要吸引力之一是能夠根據(jù)需要擴展資源。我們不需要成為優(yōu)秀的容量規(guī)劃者,因為云平臺擁有我們可以通過點擊鼠標或自動分配的資源。
但是,我們可能即將犯與第一次使用云計算時同樣的錯誤。在擴展的同時管理成本并非一項任何人都能輕松掌握的技能。因為云服務通常根據(jù)所消耗的計算資源收費;消耗的越多,付出的就越多??紤]到GPU的成本更高(并且消耗更多的能量),這是公共云提供商關注的核心LLM問題。
為此,請確保您使用了成本管理工具,包括云平臺提供的工具和可靠的第三方成本管理和監(jiān)控參與者提供的工具。同時,您可以通過實現(xiàn)自動擴展和調度,選擇合適的實例類型,或者使用可搶占的實例來優(yōu)化成本。另外,請記住持續(xù)監(jiān)控部署,以便根據(jù)使用情況調整資源,而不是僅僅使用預測的負載。這意味著要不惜一切代價避免過度配置。
多租戶環(huán)境中的數(shù)據(jù)隱私
部署LLM通常涉及處理大量數(shù)據(jù)和訓練過的知識模型,其中可能包含敏感或專有數(shù)據(jù)。使用公共云的風險在于,您有在相同物理硬件上運行的以處理實例形式存在的“鄰居”。因為公共云確實存在這樣的風險:在存儲和處理數(shù)據(jù)時,公共云數(shù)據(jù)中心中運行在相同物理硬件上的另一個虛擬機可能會以某種方式訪問數(shù)據(jù)。
所有多租戶系統(tǒng)都存在這種風險,甚至規(guī)模越小的云提供商——比如許多只在一個國家運營的云提供商——就越有可能出現(xiàn)這個問題。您需要緩解這一風險。
秘訣在于選擇符合嚴格安全標準的云提供商,這些標準可以證明其具備靜態(tài)和傳輸中的加密、身份和訪問管理(IAM)以及隔離策略。當然,最好實現(xiàn)安全策略和安全技術堆棧,以降低在云上使用LLM的多租戶風險。
處理有狀態(tài)(stateful)模型部署
LLM大多是有狀態(tài)的,這意味著它們維護從一個交互到下一個交互的信息。這個屬性提供了一個新的好處:在持續(xù)學習場景中不斷提高效率。然而,在云環(huán)境中管理這些模型的有狀態(tài)屬性是很棘手的一件事,因為在云環(huán)境中,實例可能是臨時的或設計為無狀態(tài)的。
支持有狀態(tài)部署的編排工具(如Kubernetes)很有幫助。它們可以利用LLM的持久存儲選項,并被配置為跨會話維護和操作它們的狀態(tài)。您將需要它來支持LLM的連續(xù)性和性能。
隨著生成式人工智能的爆炸式增長,在云平臺上部署LLM已成定勢。我擔心的是,我們會在此過程中錯過一些很容易解決的問題,從而犯下巨大的、代價高昂的錯誤,而這些錯誤大多是可以避免的。