您可以在不使用互聯(lián)網(wǎng)的情況下,利用智能手機上LLM 的強大功能,最大限度地加強隱私和控制。
大語言模型(LLM)需要大量的計算資源,這些資源通常局限于功能強大的服務器。然而,新一代的緊湊模型讓您可以直接在智能手機上運行這些強大的語言模型。有意思的是,您不需要互聯(lián)網(wǎng)就可以在智能手機上使用LLM。
下面這六種開源LLM經(jīng)訓練和優(yōu)化后,可以在智能手機上使用。
Gemma 2B:谷歌針對移動語言任務的緊湊型高性能LLM。
Phi-2:微軟的小型模型比規(guī)模大25倍的大型模型表現(xiàn)得還好。
Falcon-RW- 1B:面向資源受限的移動設備的高效1B參數(shù)模型。
StableLM-3B:Stability AI兼顧性能和效率的模型,用于處理手機上的各種語言任務。
TinyLlama:緊湊版Llama模型,在手機上提供出色的結(jié)果。
LLaMA-2-7B:Meta功能強大的7B模型,用于處理高端智能手機上的高級任務。
1. Gemma 2B
谷歌的Gemma 2B是一種緊湊型語言模型,盡管小巧,卻提供了出色的性能。它利用多查詢注意力機制,有助于減少推理期間對內(nèi)存帶寬的需求。
這尤其有利于內(nèi)存帶寬通常有限的設備端場景。僅用20億個參數(shù),Gemma 2B在語言理解、推理和安全等方面的學術(shù)基準測試上取得了出色的成績。
在18項基于文本的任務中,它在11項上的表現(xiàn)勝過大小相似的開放模型。
2. Phi-2
Phi-2有27億個參數(shù),在某些基準測試中,其性能比大25倍的模型更勝一籌。它擅長處理涉及常識推理、語言理解和邏輯推理的任務。
Phi-2可以量化到更低的位寬,比如4位或3位精度,從而將模型大小顯著縮小到1.17GB-1.48 GB,以便在內(nèi)存和計算資源有限的移動設備上高效運行。
Phi-2的主要優(yōu)點之一是它能夠執(zhí)行常識推理。該模型已使用龐大的互聯(lián)網(wǎng)數(shù)據(jù)語料庫進行了訓練,因而能夠理解并推理日常概念和關(guān)系。
3. Falcon-RW-1B
Falcon-RW-1B是Falcon語言模型系列的一部分,以高效和性能出名。RW代表“精煉的Web”,表示篩選的訓練數(shù)據(jù)集注重質(zhì)量而非數(shù)量。
Falcon-RW-1B的架構(gòu)改編自GPT-3,但結(jié)合了ALiBi(具有線性偏差的注意力)和FlashAttention等技術(shù)來提高計算效率。這些優(yōu)化機制使得Falcon-RW-1B非常適合在智能手機等資源受限的設備上進行設備端推理。
Falcon-RW-1B-Chat模型旨在為Falcon-RW-1B-Instruct-OpenOrca模型增加會話功能,以提高用戶參與度、擴大使用范圍,并為智能手機等資源受限的環(huán)境提供可訪問性。
4. StableLM-3B
StableLM-3B由Stability AI開發(fā),有30億個參數(shù)的模型,兼顧了性能和效率。StableLM-3B最大的優(yōu)點在于,盡管使用較少的token進行訓練,但在一些基準測試中,其表現(xiàn)勝過使用70億個參數(shù)進行訓練的模型。
StableLM-3B可以量化到更低的位寬,如4位精度,將模型大大顯著縮小到3.6 GB左右,使其可以在智能手機上高效運行。有用戶提到,StableLM-3B的性能超過了Stable自己的7B StableLM-Base-Alpha-v2。
5. TinyLlama
TinyLlama利用FlashAttention和RoPE位置嵌入等優(yōu)化機制來提高計算效率,同時保持強大的性能。它與Llama架構(gòu)兼容,可以整合到基于Llama的現(xiàn)有移動應用程序中,基本上不需要改動。
TinyLlama可以量化到更低的位寬,比如4位或5位精度,將模型大小顯著縮小到550MB-637 MB左右。一位用戶在分享使用TinyLlama方面的經(jīng)驗時提到,在華碩ROG之類的中端手機上,TinyLlama每秒可以生成6-7個token。
6. LLaMA-2-7B
LLaMA-2-7B模型量化到4位寬和16位激活,使其適用于智能手機上的設備端部署。這種量化將模型大小縮小到3.6GB,從而可以在內(nèi)存充足的移動設備上加載和運行。
移動端的LLaMA-2-7B模型需要設備至少有6GB內(nèi)存。在推理過程中,三星Galaxy S23 Ultra上的峰值內(nèi)存使用量在316MB到4785MB。這表明,雖然該模型可以在6GB以上內(nèi)存的設備上運行,但擁有更大的內(nèi)存可以獲得更好的性能,并降低內(nèi)存不足錯誤的風險。
雖然LLaMA-2-7B模型需要設備有足夠的內(nèi)存,其速度可能無法與基于云的模型相匹配,但它為希望創(chuàng)建直接在智能手機上運行的基于語言的智能功能的開發(fā)人員提供了一個誘人的選擇。