生成式AI是人類一種人工智能技術(shù),可以生成各種類型的內(nèi)容,包括文本、圖像、音頻和合成數(shù)據(jù)。那么什么是人工智能?人工智能和機器學(xué)習(xí)之間的區(qū)別是什么?
人工智能是一門學(xué)科,是計算機科學(xué)的一個分支,研究智能代理的創(chuàng)建,這些智能代理是可以推理、學(xué)習(xí)和自主行動的系統(tǒng)。
從本質(zhì)上講,人工智能與構(gòu)建像人類一樣思考和行動的機器的理論和方法有關(guān)。在這個學(xué)科中,機器學(xué)習(xí)ML,它是人工智能的一個領(lǐng)域。它是根據(jù)輸入數(shù)據(jù)訓(xùn)練模型的程序或系統(tǒng),經(jīng)過訓(xùn)練的模型可以從新的或從未見過的數(shù)據(jù)中做出有用的預(yù)測,這些數(shù)據(jù)來自于訓(xùn)練模型的統(tǒng)一數(shù)據(jù)。
機器學(xué)習(xí)賦予計算機無需顯示編程即可學(xué)習(xí)的能力。最常見的兩類機器學(xué)習(xí)模型是無監(jiān)督和監(jiān)督ML模型。兩者之間的主要區(qū)別在于,對于監(jiān)督模型,我們有標(biāo)簽,標(biāo)記數(shù)據(jù)是帶有名稱、類型或數(shù)字等標(biāo)簽的數(shù)據(jù),無監(jiān)督數(shù)據(jù)是沒有標(biāo)記的數(shù)據(jù)。
該圖是監(jiān)督模型可能嘗試解決問題的事例。
例如,假設(shè)您是一家餐館的老板,你有賬單金額的歷史數(shù)據(jù),根據(jù)訂單類型,不同的人給了多少小費,根據(jù)訂單類是取貨還是送貨給了多少不同的人。在監(jiān)督學(xué)習(xí)中,模型從過去的事例中學(xué)習(xí),以預(yù)測未來的值。因此這里的模型根據(jù)訂單是取貨還是送貨,使用總賬單金額來預(yù)測未來的消費金額。
這是無監(jiān)督模型可能試圖解決問題事例,在這里要查看任期和收入,然后將員工分組獲集群,看看是否有人在快速通道上。無監(jiān)督的問題都是關(guān)于查看原始數(shù)據(jù),并查看他是否自然分組,讓我們更深入一點以圖形方式展示。
上面這些概念是理解生成式AI的基礎(chǔ)。
在監(jiān)督學(xué)習(xí)中,測試數(shù)據(jù)值被輸入到模型中,該模型輸出預(yù)測,并將該預(yù)測與用于訓(xùn)練模型的訓(xùn)練數(shù)據(jù)進行比較。
如果預(yù)測的測試數(shù)據(jù)值和實際訓(xùn)練數(shù)據(jù)值相距甚遠,則稱為錯誤,且該模型會嘗試減少此錯誤,直到預(yù)測值和實際值更接近為止。
我們已經(jīng)探討了人工智能和機器學(xué)習(xí)、監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間的區(qū)別。那么,讓我們簡要探討一下深度學(xué)習(xí)的知識。
雖然機器學(xué)習(xí)是一個包含許多不同技術(shù)的廣泛領(lǐng)域,但深度學(xué)習(xí)是一種使用人工神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí),允許他們處理比機器學(xué)習(xí)更復(fù)雜的模式。
人工神經(jīng)網(wǎng)絡(luò)的靈感來自于人腦,它們有許多相互連接的節(jié)點或神經(jīng)元組成,這些節(jié)點或神經(jīng)元可以通過處理數(shù)據(jù)和做出預(yù)測來學(xué)習(xí)執(zhí)行任務(wù)。
深度學(xué)習(xí)模型通常具有多層神經(jīng)元。這使他們能夠?qū)W習(xí)比傳統(tǒng)機器學(xué)習(xí)模型更復(fù)雜的模式。神經(jīng)網(wǎng)絡(luò)可以使用標(biāo)記和未標(biāo)記的數(shù)據(jù),這稱為半監(jiān)督學(xué)習(xí)。在半監(jiān)督學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)在少量標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)上進行訓(xùn)練。標(biāo)記數(shù)據(jù)有助于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)任務(wù)的基本概念。而未標(biāo)記的數(shù)據(jù)有助于神經(jīng)網(wǎng)絡(luò)泛化到新的例子。
在這個人工智能學(xué)科中的地位,這意味著使用人工神經(jīng)網(wǎng)絡(luò),可以用監(jiān)督、非監(jiān)督和半監(jiān)督方法處理標(biāo)記和未標(biāo)記數(shù)據(jù)。大型語言模型也是深度學(xué)習(xí)的一個子集,深度學(xué)習(xí)模型或者一般意義上的機器學(xué)習(xí)模型。
深度學(xué)習(xí)可以分為判別式和生成式兩種。判別模型是一種用于分類或預(yù)測數(shù)據(jù)點標(biāo)簽的模型。判別模型通常在標(biāo)記數(shù)據(jù)點的數(shù)據(jù)集上進行訓(xùn)練。他們學(xué)習(xí)數(shù)據(jù)點的特征和標(biāo)簽之間的關(guān)系,一旦訓(xùn)練了判別模型,它就可以用來預(yù)測新數(shù)據(jù)點的標(biāo)簽。而生成模型根據(jù)現(xiàn)有數(shù)據(jù)的學(xué)習(xí)概率分布生成新的數(shù)據(jù)實例,因此生成模型產(chǎn)出新的內(nèi)容。
生成模型可以輸出新的數(shù)據(jù)實例,而判別模型可以區(qū)分不同類型的數(shù)據(jù)實例。
該圖顯示了一個傳統(tǒng)的機器學(xué)習(xí)模型,區(qū)別在于數(shù)據(jù)和標(biāo)簽之間的關(guān)系 ,或者你想要預(yù)測的內(nèi)容。底部圖片顯示了一個生成式AI模型,嘗試學(xué)習(xí)內(nèi)容模式,以便生成輸出新內(nèi)容。
當(dāng)輸出外標(biāo)簽是數(shù)字或概率時為非生成式AI,例如垃圾郵件、非垃圾郵件。當(dāng)輸出是自然語言為生成式AI,例如語音、文本、圖像視頻。
模型輸出是所有輸入的函數(shù),如果Y是數(shù)字,如預(yù)測的銷售額,則它不是GenAI。如果Y是一個句子,就像定義銷售一樣。它是生成性的,因為問題會引發(fā)文本響應(yīng)。他的反應(yīng)將基于該模型已經(jīng)訓(xùn)練過的所有海量大數(shù)據(jù)。
總而言之,傳統(tǒng)的、經(jīng)典的有監(jiān)督和無監(jiān)督學(xué)習(xí)過程,采用訓(xùn)練代碼和標(biāo)簽數(shù)據(jù)來構(gòu)建模型。根據(jù)用例或問題,模型可以為你提供預(yù)測,它可以對某些東西進行分類或聚集,使用此勢力展示生成該過程的穩(wěn)健程度。
GenAI過程可以獲取所有數(shù)據(jù)類型的訓(xùn)練代碼、標(biāo)簽數(shù)據(jù)和未標(biāo)簽數(shù)據(jù),構(gòu)建基礎(chǔ)模型,然后基礎(chǔ)模型可以生成新內(nèi)容。例如文本、代碼、圖像、音頻、視頻等。
從傳統(tǒng)編程到神經(jīng)網(wǎng)絡(luò),再到生成模型, 我們已經(jīng)走了很長一段路。在傳統(tǒng)的編程中,我們過去不得不編碼區(qū)分貓的規(guī)則。類型是動物,腿有4條,耳朵有2個,毛皮是有的等等。
在神經(jīng)網(wǎng)絡(luò)的浪潮中,我們可以給網(wǎng)絡(luò)提供貓和狗的圖片。并詢問這是一只貓。他會預(yù)測出一只貓。在生成式AI浪潮中,我們作為用戶,可以生成我們自己的內(nèi)容。
無論是文本、圖像、音頻、視頻等等,例如Python語言模型或?qū)υ拺?yīng)用程序語言模型等模型。從互聯(lián)網(wǎng)上的多個來源獲取非常大的數(shù)據(jù)。構(gòu)建可以簡單的通過提問來使用的基礎(chǔ)語言模型。所以,當(dāng)你問他什么是貓時,他可以告訴你他所了解的關(guān)于貓的一切。
現(xiàn)在我們來定義,什么是生成式人工智能?
GenAI是一種人工智能,它根據(jù)從現(xiàn)有內(nèi)容中學(xué)到的知識來創(chuàng)建新內(nèi)容,從現(xiàn)有內(nèi)容中學(xué)習(xí)的過程稱為訓(xùn)練。并在給出提示時創(chuàng)建統(tǒng)計模型,使用該模型來預(yù)測預(yù)期的響應(yīng)可能是什么,并生成新的內(nèi)容。
從本質(zhì)上講,它學(xué)習(xí)數(shù)據(jù)的底層結(jié)構(gòu)內(nèi)容,然后可生成與訓(xùn)練數(shù)據(jù)相似的新樣本。如之前所述,生成語言模型可以利用他從展示的事例中學(xué)到的知識,并根據(jù)該信息創(chuàng)建全新的東西。
大型語言模型是一種生成式人工智能,因為他們以自然發(fā)音的語言形式生成新穎的文本組合,生成圖像模型,將圖像作為輸入,并可以輸出文本、另一幅圖像或視頻。例如,在輸出文本下,你可以獲得視覺問答,而在輸出圖像下生成圖像補全,并在輸出視頻下生成動畫。
生成語言模型,以文本作為輸入,可以輸出更多的文本、圖像、音頻或決策。例如,在輸出文本下生成問答,并在輸出圖像下生成視頻。
我們已經(jīng)說過,生成語言模型通過訓(xùn)練數(shù)據(jù)了解模式和語言,然后給定一些文本,他們會預(yù)測接下來會發(fā)生什么。
生成語言模型是模式匹配系統(tǒng),他們根據(jù)您提供的數(shù)據(jù)了解模式。根據(jù)他從訓(xùn)練數(shù)據(jù)中學(xué)到的東西,他提供了如何完成這句話的預(yù)測。它接受了大量文本數(shù)據(jù)的訓(xùn)練,能夠針對各種提示和問題進行交流,并生成像人類的文本。
在transformer中,Hallucin是由模型生成的單詞或短語,通常是無意義的或語法錯誤的?;糜X可能由多種因素引起,包括模型沒有在足夠的數(shù)據(jù)上訓(xùn)練,或者模型是在嘈雜或骯臟的數(shù)據(jù)上訓(xùn)練的,又或者沒有給模型足夠的上下文,還存在,沒有給模型足夠的約束。
他們還可以使模型更有可能生成不正確或誤導(dǎo)性的信息,例如雜TPT3.5有時可能生成的信息未必正確。提示詞是作為輸入提供給大型語言模型的一小段文本。并且它可以用于多種方式控制模型的輸出。
提示設(shè)計是創(chuàng)建提示的過程,該提示將從大型語言模型生成所需的輸出內(nèi)容。如之前所述,LLM在很大程度上取決于你輸入的訓(xùn)練數(shù)據(jù)。他分析輸入數(shù)據(jù)的模式和結(jié)構(gòu),從而進行學(xué)習(xí)。但是通過訪問基于瀏覽器的提示,用戶可以生成自己的內(nèi)容。
我們已經(jīng)展示了基于數(shù)據(jù)的輸入類型的路線圖,以下是相關(guān)的模型類型。
文本到文本模型。采用自然語言輸入并生成文本輸出。這些模型被訓(xùn)練學(xué)習(xí)文本之間的映射。例如,從一種語言到另一種語言的翻譯。
文本到圖像模型。因為文本到圖像模型是在大量圖像上訓(xùn)練的。每個圖像都帶有簡短的文本描述。擴散是用于實現(xiàn)此目的的一種方法。
文本到視頻和文本到3D。文本到視頻模型只在文本輸入生成視頻內(nèi)容,輸入文本可以是從單個句子到完整腳本的任何內(nèi)容。輸出是與輸入文本相對應(yīng)的視頻類似的文本到3D模型生成對應(yīng)于用戶文本描述的三位對象。例如,這可以用于游戲或其他3D世界。
文本到任務(wù)模型。經(jīng)過訓(xùn)練,可以根據(jù)文本輸入執(zhí)行定義的任務(wù)或操作。此任務(wù)可以是廣泛的采取操作。例如回答問題、執(zhí)行搜索、進行預(yù)測或采取某種操作,也可以訓(xùn)練文本到任務(wù)模型來指導(dǎo)外B問或通過可以更改文檔。
基礎(chǔ)模型是在大量數(shù)據(jù)上進行預(yù)訓(xùn)練的大型AI模型。目的在適應(yīng)或微調(diào)各種下游任務(wù),例如情感分析、圖像、字幕和對象識別。
基礎(chǔ)模型有可能徹底改變許多行業(yè),包括醫(yī)療保健、金融和客戶服務(wù)等,它們可用于檢測預(yù)測,并提供個性化的客戶支持。OpenAI提供了一個包含基礎(chǔ)的模型源語言,基礎(chǔ)模型包括用于聊天和文本的。
視覺基礎(chǔ)模型包括穩(wěn)定擴散,可以有效的從文本描述生成包質(zhì)量圖像。假設(shè)你有一個案例,需要收集有關(guān)客戶對您的產(chǎn)品或服務(wù)的感受。
生成式AI Studio,在開發(fā)者來看,讓您無需編寫任何代碼即能輕松設(shè)計和構(gòu)建應(yīng)用程序。它有一個可視化編輯器,可以輕松創(chuàng)建和編輯應(yīng)用程序內(nèi)容。還有一個內(nèi)置的搜索引擎,允許用戶在應(yīng)用程序內(nèi)搜索信息。
還有一個對話式人工智能引擎,可以幫助用戶使用自然語言與應(yīng)用程序進行交互。您可以創(chuàng)建自己的數(shù)字助理、自定義搜索引擎、知識庫、培訓(xùn)應(yīng)用程序等等。
模型部署工具可幫助開發(fā)人員使用多種不同的部署選項,將在模型部署到生產(chǎn)環(huán)境中。而模型監(jiān)控工具幫助開發(fā)人員使用儀表板和許多不同的度量來監(jiān)控ML模型在生產(chǎn)中的性能。
如果把生成式AI應(yīng)用開發(fā)看作一個復(fù)雜拼圖的組裝,其需要的數(shù)據(jù)科學(xué)、機器學(xué)習(xí)、編程等每一項技術(shù)能力就相當(dāng)于拼圖的每一塊。
沒有技術(shù)積累的企業(yè)理解這些拼圖塊本身就已經(jīng)是很困難的事,將它們組合在一起就變成了一項更為艱巨的任務(wù)。但如果有服務(wù)方能給這些技術(shù)能力薄弱的傳統(tǒng)企業(yè)提供一些預(yù)拼好的拼圖部分,這些傳統(tǒng)企業(yè)就能夠更容易、更快速地完成整幅拼圖。
從國內(nèi)市場真實的情況來看,生成式AI的發(fā)展既不像當(dāng)初追風(fēng)口的從業(yè)者預(yù)估的那樣樂觀,也沒有唱衰者形容的那么悲觀。
企業(yè)用戶追求應(yīng)用的穩(wěn)健性、經(jīng)濟性、安全性和可用性,這和大語言模型等生成式AI在訓(xùn)練過程中不惜花費高昂算力成本達成更高的能力是完全不同的路徑。
這背后一個核心的問題是,在想象空間更大的企業(yè)級生成式AI領(lǐng)域,最重要的不是大模型能力有多強,而是如何能夠從基礎(chǔ)模型演變成各個領(lǐng)域中的具體應(yīng)用,從而賦能整個經(jīng)濟社會的發(fā)展。