ChatGPT取得了巨大的成功,在短短一個(gè)月內(nèi)就獲得了1億用戶,并激發(fā)了企業(yè)和專業(yè)人士對(duì)如何在他們的組織中利用這一工具的興趣和好奇心。
但LLM究竟是什么,它們?nèi)绾问鼓愕钠髽I(yè)受益?它只是一種炒作,還是會(huì)長(zhǎng)期存在?
在這篇文章中我們將討論上面這個(gè)問(wèn)題并嘗試解答為什么LLM對(duì)企業(yè)來(lái)說(shuō)是一項(xiàng)偉大的投資,或者不是。是大炮打蚊子 還是 物盡其用?這就要看何時(shí)以及如何有效和高效地使用這個(gè)大模型了。
訓(xùn)練
LLM的訓(xùn)練是非常昂貴……但是這并不意味著每次要使用LLM完成特定任務(wù)時(shí)都要訓(xùn)練它,也不意味著你根本就不需要訓(xùn)練它。有很多方法可以利用LLM的現(xiàn)有知識(shí)和技能,無(wú)需從頭開(kāi)始訓(xùn)練。
LLM能夠根據(jù)單詞和短語(yǔ)相互跟隨的概率生成文本。也可以通過(guò)讓它“根據(jù)上下文閱讀”來(lái)“模仿”這種行為。這就好比給某人一本書,然后讓他們?cè)跁姓业剿麄冋J(rèn)為可能有X問(wèn)題答案的那一章。一旦讀者找到這一章,他們就會(huì)閱讀,然后試圖向你解釋他們剛剛讀到的內(nèi)容。
這需要某種程度上對(duì)他進(jìn)行提示,這也就是我們常說(shuō)的prompt。網(wǎng)上有很多關(guān)于關(guān)于提示教程,提示工程以及如何為L(zhǎng)LM生成良好的提示。所以當(dāng)你試圖得到上下文答案時(shí),LLM可以很好的工作。但不要指望機(jī)器知道一切,因?yàn)樗鼈兩瞄L(zhǎng)的是放置文字,而不是闡述事實(shí)。
只有當(dāng)你想讓機(jī)器像專業(yè)人士一樣說(shuō)話時(shí),你才需要重新訓(xùn)練它。
業(yè)務(wù)專業(yè)術(shù)語(yǔ)
所有組織和企業(yè)都有自己的行話和特定于其領(lǐng)域的技術(shù)術(shù)語(yǔ)。例如,Jam可以指甜甜的Smucker草莓果凍,但也可以指非正式播放的音樂(lè)。
這意味著不是每個(gè)人都能很容易地理解特定業(yè)務(wù)使用的語(yǔ)言,除非他們熟悉其詞匯和概念。所以對(duì)于不熟悉該領(lǐng)域的潛在客戶或合作伙伴來(lái)說(shuō)可能是一個(gè)障礙。使用llm可以將技術(shù)語(yǔ)言翻譯成更自然和可訪問(wèn)的語(yǔ)言。
LLM可以根據(jù)所需的風(fēng)格和細(xì)節(jié)水平,使用提更簡(jiǎn)單的單詞或示例來(lái)幫助解釋復(fù)雜術(shù)語(yǔ)或概念的含義,這可以使信息對(duì)任何人都更具吸引力和可理解性。
知識(shí)圖譜是在圖結(jié)構(gòu)中組織信息的一種方式,其中實(shí)體及其關(guān)系表示為節(jié)點(diǎn)和邊。這使得存儲(chǔ)和訪問(wèn)信息比使用傳統(tǒng)文本格式更容易。知識(shí)圖譜可以獨(dú)立于任何大型語(yǔ)言模型(llm)構(gòu)建,并且知識(shí)圖譜也可以從llm的功能中受益。
要?jiǎng)?chuàng)建知識(shí)圖譜,需要從數(shù)據(jù)源(如pdf)中提取實(shí)體和關(guān)系,并將它們插入圖數(shù)據(jù)庫(kù)中。llm可以幫助完成這項(xiàng)任務(wù),通過(guò)生成代碼將數(shù)據(jù)插入到數(shù)據(jù)庫(kù)中。
llm還可以幫助使用自然語(yǔ)言查詢知識(shí)圖譜,以簡(jiǎn)單易懂的方式解釋結(jié)果。通過(guò)這種方式,用戶可以使用文本與數(shù)據(jù)進(jìn)行交互,并從知識(shí)圖中獲得事實(shí)和相關(guān)的答案。
LLM可以從提供的上下文中使用更簡(jiǎn)單的單詞或示例來(lái)幫助解釋復(fù)雜術(shù)語(yǔ)或概念的含義
敏感數(shù)據(jù)
還記得三星的問(wèn)題吧,工程師的一些機(jī)密源代碼被意外上傳到ChatGPT,
你一直覺(jué)得,這種風(fēng)險(xiǎn)僅適用于使用OpenAI網(wǎng)站上的免費(fèi)ChatGPT界面。其實(shí)任何被稱為“免費(fèi)”的東西都可能以某種方式獲得投資回報(bào)。比如使用你的信息來(lái)改進(jìn)模型。一個(gè)稍微好一些的選擇是通過(guò)API使用付費(fèi)LLM服務(wù),該服務(wù)不會(huì)使用任何敏感數(shù)據(jù)進(jìn)行再訓(xùn)練。
顯示現(xiàn)在就好很多了,有許多替代ChatGPT的方法。比如Falcon、Llama、Palm或其他性能與ChatGPT相似甚至更好的模型。我們還可以根據(jù)自己的具體需求定制自己的模型或解決方案。
圖片
通過(guò)托管自己的LLM,可以確保它僅用于預(yù)期目的,并且可以在將來(lái)需要時(shí)對(duì)其進(jìn)行重新訓(xùn)練。還可以探索通過(guò)使用這些模型生成的數(shù)據(jù),以改進(jìn)您的業(yè)務(wù)。例如,查看向模型提出的最重要的問(wèn)題,可以創(chuàng)建更好的業(yè)務(wù)解決方案并從中獲利。
有了開(kāi)源的基礎(chǔ)模型,我們可以搭建自己的LLM,并且隨時(shí)調(diào)整訓(xùn)練。
部分還是全部
這里我們以推薦系統(tǒng)為例:
推薦系統(tǒng)是一種基于某些標(biāo)準(zhǔn)推薦項(xiàng)目或操作的系統(tǒng)。例如,Spotify使用你的收聽(tīng)歷史和偏好來(lái)為你創(chuàng)建個(gè)性化的播放列表。你可以把它想象成根據(jù)其他人的喜好推薦音樂(lè),這可能與你的喜好相匹配。
LLM也可以做到這一點(diǎn),通過(guò)嵌入來(lái)衡量?jī)蓚€(gè)信息片段之間的相似性或差異性,比如一個(gè)問(wèn)題和一個(gè)答案。但是如果我們只把LLM簡(jiǎn)化到這個(gè)程度(只生成嵌入),那么推薦系統(tǒng)不是要更簡(jiǎn)單嗎,而且推薦系統(tǒng)能夠得到更準(zhǔn)確的結(jié)果,需要的資源還更少。
那我們?yōu)槭裁匆肔LM來(lái)做這個(gè)呢?
找到對(duì)任何給定問(wèn)題的最準(zhǔn)確的回答,然后解釋為什么它是一個(gè)好的匹配,這是推薦引擎無(wú)法做到的。嵌入不僅可以對(duì)文本做同樣的事情,還可以對(duì)任何來(lái)源做同樣的事情;從音頻到圖像。推薦系統(tǒng)需要額外的組件來(lái)處理和標(biāo)記這些類型的信息。
所以這是一種種特殊情況,我們的推薦需要音頻你和圖像嗎?所以在使用前需要評(píng)估要解決的問(wèn)題否需要LLM所能提供的所有功能,或者是否可以用更傳統(tǒng)的方式解決問(wèn)題。(其實(shí)上面的音頻和圖像只要增加幾個(gè)模型就可以了,投入遠(yuǎn)遠(yuǎn)要比使用LLM低很多)
如果只用了LLM的一少部分功能,那么肯定有比他更好的更傳統(tǒng)的解決方案
總結(jié)
LLM不僅僅是一種炒作,它們其實(shí)是一種強(qiáng)大而通用的技術(shù),可以實(shí)現(xiàn)業(yè)務(wù)目標(biāo)并提高客戶滿意度。但是LLM并不是靈丹妙藥,使用時(shí)尤其需要需要仔細(xì)規(guī)劃、評(píng)估和優(yōu)化,以確保其有效性和效率。
如果你打算以正確的方式將llm整合到業(yè)務(wù)中,記住:
專業(yè)的人做專業(yè)的事