如何突破大語(yǔ)言模型的最大瓶頸

沃卡惠
行業(yè)資訊
2024-03-07 10:20:57
215

OpenAI的GPT-4和Anthropic的Claude 2等大語(yǔ)言模型（LLM）已經(jīng)憑借其生成人類級(jí)文本的功能激發(fā)了公眾的想象力。企業(yè)也同樣熱情高漲，許多企業(yè)在探索如何利用LLM改進(jìn)產(chǎn)品和服務(wù)。然而，一大瓶頸嚴(yán)重制約了最先進(jìn)的LLM在生產(chǎn)環(huán)境中的采用，那就是速率限制。有一些方法可以突破這種速率限制，但如果沒(méi)有計(jì)算資源方面的改進(jìn)，真正的進(jìn)步可能不會(huì)到來(lái)。

如何突破大語(yǔ)言模型的最大瓶頸

承擔(dān)成本

公共LLM API允許用戶訪問(wèn)OpenAI和Anthropic等公司的模型，對(duì)每分鐘可以處理的token（文本單位）的數(shù)量、每分鐘的請(qǐng)求數(shù)量以及每天的請(qǐng)求數(shù)量施加了嚴(yán)格的限制。

對(duì)OpenAI GPT-4的API調(diào)用目前限制為每分鐘3個(gè)請(qǐng)求（RPM）、每天200個(gè)請(qǐng)求，以及每分鐘最多10000個(gè)token（TPM）。最高檔允許10000 RPM和300000 TPM的限制。

針對(duì)每分鐘需要處理數(shù)百萬(wàn)個(gè)token的大型生產(chǎn)級(jí)應(yīng)用程序，這種速率限制使得企業(yè)使用最先進(jìn)的LLM實(shí)際上行不通。請(qǐng)求不斷增多，需要幾分鐘乃至幾小時(shí)，無(wú)法進(jìn)行任何實(shí)時(shí)處理。

大多數(shù)企業(yè)仍在竭力安全有效地大規(guī)模采用LLM。但是即使它們解決了數(shù)據(jù)敏感性和內(nèi)部流程方面的挑戰(zhàn)，速率限制也成為一個(gè)頑固的障礙。隨著產(chǎn)品使用和數(shù)據(jù)的積累，圍繞LLM開發(fā)產(chǎn)品的初創(chuàng)公司很快就會(huì)遇到瓶頸，但擁有龐大用戶群的大企業(yè)受到的限制最大。如果沒(méi)有特殊的訪問(wèn)機(jī)制，它們的應(yīng)用程序根本無(wú)法運(yùn)行。

該怎么辦？

規(guī)避速率限制

一條路子是完全繞過(guò)速率限制技術(shù)。比如說(shuō)，有些特定用途的生成式AI模型沒(méi)有LLM瓶頸。總部位于英國(guó)牛津的初創(chuàng)公司Diffblue依賴沒(méi)有速率限制的強(qiáng)化學(xué)習(xí)技術(shù)。它在一件事上做得非常好，非常有效，可能覆蓋數(shù)百萬(wàn)行代碼。它自主創(chuàng)建Java單元測(cè)試的速度是開發(fā)人員的250倍，編譯速度是開發(fā)人員的10倍。

由Diffblue Cover編寫的單元測(cè)試使您能夠快速了解復(fù)雜的應(yīng)用程序，從而使大企業(yè)和初創(chuàng)公司都能夠滿懷信心地進(jìn)行創(chuàng)新，這對(duì)于將遺留應(yīng)用程序遷移到云端是理想選擇。它還可以自主地編寫新代碼、改進(jìn)現(xiàn)有代碼、加速CI/CD管道，在不需要人工審查的情況下深入洞察與變更相關(guān)的風(fēng)險(xiǎn)。這不賴。

當(dāng)然，一些公司不得不依賴LLM。它們又有什么選擇？

增加計(jì)算資源

一種選擇就是請(qǐng)求提高公司的速率限制。到目前為止這個(gè)做法不錯(cuò)，但潛在的問(wèn)題是，許多LLM提供商實(shí)際上沒(méi)有額外的能力好提供。這是問(wèn)題的癥結(jié)所在。GPU可用性取決于來(lái)自臺(tái)積電等代工廠的硅圓片總數(shù)。占主導(dǎo)地位的GPU制造商英偉達(dá)無(wú)法采購(gòu)足夠的芯片來(lái)滿足AI工作負(fù)載帶來(lái)的爆炸式需求，大規(guī)模推理需要成千上萬(wàn)個(gè)GPU組合在一起。

增加GPU供應(yīng)量的最直接方法是建造新的半導(dǎo)體制造工廠，即所謂的晶圓廠。但是一座新的晶圓廠造價(jià)高達(dá)200億美元，需要數(shù)年才能建成。英特爾、三星代工、臺(tái)積電、德州儀器等主要芯片制造商正在美國(guó)建設(shè)新的半導(dǎo)體生產(chǎn)設(shè)施。眼下，所有人只能等待。

因此，利用GPT-4的實(shí)際生產(chǎn)部署很少。真正部署GPT-4的環(huán)境范圍有限，它們使用LLM作為輔助功能，而不是作為核心產(chǎn)品組件。大多數(shù)公司仍在評(píng)估試點(diǎn)和概念驗(yàn)證。在考慮速率限制之前，本身就需要將LLM集成到企業(yè)工作流程中。

尋找答案

GPU制約限制了GPT-4的處理能力，這促使許多公司使用其他生成式AI模型。比如說(shuō)，AWS擁有自己的專門用于訓(xùn)練和推理的芯片（一旦訓(xùn)練好就運(yùn)行模型），從而為客戶提供了更大的靈活性。重要的是，并不是每個(gè)問(wèn)題都需要最強(qiáng)大、最昂貴的計(jì)算資源。AWS提供了一系列更便宜、更容易調(diào)優(yōu)的模型，比如Titan Light。一些公司在探索替代方案，比如對(duì)Meta的Llama 2等開源模型進(jìn)行微調(diào)。針對(duì)涉及檢索增強(qiáng)生成（RAG）、需要將上下文附加到提示并生成響應(yīng)的簡(jiǎn)單用例，功能較弱的模型就足夠了。

另一些技術(shù)也有所幫助，比如跨多個(gè)具有較高限制的舊LLM并行處理請(qǐng)求、數(shù)據(jù)分塊和模型蒸餾。有幾種技術(shù)可以降低推理的成本、提高速度。量化降低了模型中權(quán)重的精度，權(quán)重通常是32位浮點(diǎn)數(shù)。這不是一種新方法。比如說(shuō)，谷歌的推理硬件張量處理單元（TPU）只適用于權(quán)重被量化為8位整數(shù)的模型。該模型失去了一些準(zhǔn)確性，但變得小巧得多，運(yùn)行起來(lái)更快。

一種名為“稀疏模型”的新流行技術(shù)可以降低訓(xùn)練和推理的成本，耗費(fèi)的人力比模型蒸餾更少。LLM好比是許多較小語(yǔ)言模型的集合。比如說(shuō)，當(dāng)您用法語(yǔ)向GPT-4詢問(wèn)問(wèn)題時(shí)，只需要使用模型的法語(yǔ)處理部分，稀疏模型就利用了這個(gè)特點(diǎn)。

您可以做稀疏訓(xùn)練，只需要訓(xùn)練模型的法語(yǔ)子集，也可以做稀疏推理，只運(yùn)行模型的法語(yǔ)部分。與量化一起使用時(shí)，這可以從LLM中提取更小的專用模型，這種模型可以在CPU而不是GPU上運(yùn)行。GPT-4之所以出名，是由于它是一個(gè)通用文本生成器，而不是更狹窄、更特定的模型。

在硬件方面，專門針對(duì)AI工作負(fù)載的新處理器架構(gòu)有望提高效率。Cerebras已經(jīng)研制了一種巨大的晶圓級(jí)引擎，針對(duì)機(jī)器學(xué)習(xí)進(jìn)行了優(yōu)化，而Manticore正在改造制造商丟棄的“廢棄”GPU芯片，以提供實(shí)用的芯片。

最終，最大的成效將來(lái)自需要更少計(jì)算的下一代LLM。結(jié)合經(jīng)過(guò)優(yōu)化的硬件，未來(lái)的LLM可以突破目前的速率限制障礙。目前，眾多渴望的公司競(jìng)相要求利用LLM的功能，生態(tài)系統(tǒng)不堪重負(fù)。那些希望在AI領(lǐng)域開辟新道路的人可能需要等到GPU供應(yīng)進(jìn)一步趨緩之后。具有諷刺意味的是，這些限制可能恰恰有助于撇除圍繞生成式AI的一些泡沫炒作，讓這個(gè)行業(yè)有時(shí)間適應(yīng)積極的模式，以便高效經(jīng)濟(jì)地使用它。

上一篇：LoRaWAN和NB-IoT有什么區(qū)別？

下一篇：AI正在以五種方式改變數(shù)據(jù)中心