現(xiàn)在,AI系統(tǒng)的預(yù)測準(zhǔn)確率達(dá)到甚至超過了人群。
在不斷發(fā)展的人工智能(AI)領(lǐng)域,語言模型已取得了重大進(jìn)展,實(shí)現(xiàn)了曾經(jīng)被認(rèn)為人類認(rèn)知才能實(shí)現(xiàn)的非凡成就。比如說,Anthropic新的Claude 3語言模型似乎能夠意識到它被測試或被評估,這為AI領(lǐng)域原本惹人矚目的進(jìn)步另外增添了一層復(fù)雜性。
這個進(jìn)展特別值得注意的一個新領(lǐng)域是預(yù)測領(lǐng)域——對未來事件做出準(zhǔn)確預(yù)測的能力。
我們在這篇博文中將深入研究一篇突破性的研究論文(https://arxiv.org/pdf/2402.19379.pdf),探究大語言模型(LLM)的預(yù)測能力,并將它們與人群預(yù)測這個參照標(biāo)準(zhǔn)進(jìn)行比較。這項研究由倫敦政治經(jīng)濟(jì)學(xué)院、麻省理工學(xué)院和賓夕法尼亞大學(xué)的研究人員共同進(jìn)行,研究結(jié)果刷新了我們對AI能力的理解,并揭示了LLM在現(xiàn)實(shí)場景中與人類專業(yè)知識相媲美的潛力。
背景介紹
預(yù)測是指基于過去和現(xiàn)在的數(shù)據(jù)、趨勢和模式對未來事件做出預(yù)測,它在經(jīng)濟(jì)、政治、技術(shù)和科學(xué)等領(lǐng)域發(fā)揮著至關(guān)重要的作用。準(zhǔn)確的預(yù)測有助于更好的決策、資源分配和風(fēng)險管理。
傳統(tǒng)上,最可靠的預(yù)測方法是“群體智慧”效應(yīng),即利用一群不同的個體的集體知識。1907年,英國著名人類學(xué)家Francis Galton對這一現(xiàn)象進(jìn)行了著名的論證,當(dāng)時他觀察到,一群人在縣集市上猜測的中位數(shù)準(zhǔn)確地預(yù)測了一頭牛的體重。從那以后,眾多研究已證實(shí),將大量不同預(yù)測者的預(yù)測值匯總起來,可以得出非常準(zhǔn)確的結(jié)果。
然而,依靠人群進(jìn)行預(yù)測存在幾個局限性:
成本和時間:召集一群足夠龐大且多樣化的熟練預(yù)測者費(fèi)錢又費(fèi)時。
偏見和相關(guān)性:人類判斷容易受到各種認(rèn)知偏見的影響,個人預(yù)測之間的相關(guān)性可能會削弱群體的集體準(zhǔn)確性。
可擴(kuò)展性:組織和管理大規(guī)模的人類預(yù)測比賽操辦起來很復(fù)雜,很難擴(kuò)展。
AI預(yù)測的前景
近些年來,AI的快速發(fā)展(尤其是在自然語言處理領(lǐng)域)已經(jīng)引出了使用機(jī)器智能進(jìn)行預(yù)測的誘人前景。像GPT-3、GPT-4和Claude 3這樣的LLM在理解和生成類似人類的文本方面表現(xiàn)出了非凡的能力(Claude 3現(xiàn)在甚至知道它在接受測試),這促使研究人員調(diào)查LLM對未來事件做出準(zhǔn)確預(yù)測的潛力。
然而之前的研究表明,與人群預(yù)測相比,各個LLM的表現(xiàn)常常不佳。比如說,Schoenegger和Park在2023年發(fā)現(xiàn),盡管GPT-4擁有出眾的語言技能,但其表現(xiàn)不如一個簡單的無信息衡量基準(zhǔn),即預(yù)測所有二元問題的50%概率。
硅群體智慧
然而在這篇新論文中,Schoenegger等人假設(shè),要釋放LLM的預(yù)測潛力,關(guān)鍵可能在于匯總來自多個不同模型的預(yù)測,這相當(dāng)于一種機(jī)器“群體智慧”效應(yīng)。為了測驗(yàn)這個想法,他們進(jìn)行了兩項研究:
研究1:LLM并聯(lián)vs.人群
在第一項研究中,研究人員從12個不同的LLM那里收集了多達(dá)31個二元問題的預(yù)測,這些問題來自預(yù)測平臺Metaculus上的一項實(shí)時預(yù)測比賽,925名人類預(yù)測者也參與了為期3個月的比賽。LLM涵蓋廣泛的體系結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)集和微調(diào)方法,包括來自O(shè)penAI、Anthropic、谷歌、Meta等公司的模型。
圖1. 測試的模型
針對每個問題,研究人員使用標(biāo)準(zhǔn)化的提示對每個LLM詢問三次,提示包括問題背景、解答標(biāo)準(zhǔn)以及作為“超級預(yù)測者”的應(yīng)答說明。然后,他們算出了12個LLM中所有非缺失預(yù)測的中位數(shù),以獲得“LLM群體”預(yù)測。
圖2. LLM并聯(lián)機(jī)制概況圖
結(jié)果是驚人的:LLM群體在所有問題上的預(yù)測都達(dá)到了50%的無信息基準(zhǔn)(p = 0.026),并且在統(tǒng)計上與人群的準(zhǔn)確率沒有區(qū)別(p = 0.850)。探索性等效測試進(jìn)一步表明,LLM和人群在中等效應(yīng)大小范圍內(nèi)不相上下。
研究2:利用人類認(rèn)知輸出改進(jìn)LLM預(yù)測
圖3. 第二項預(yù)測干預(yù)提示
第二項研究調(diào)查了是否可以通過為LLM提供人群的中位數(shù)預(yù)測作為附加信息,進(jìn)一步提高其預(yù)測精度。研究人員專注于兩個最先進(jìn)的模型:GPT-4和Claude 2,并采用了模型內(nèi)設(shè)計,每個模型都進(jìn)行了初步預(yù)測,然后在接收人群中位數(shù)后進(jìn)行了更新預(yù)測。
兩個模型在接收人類人群信息后都顯示出準(zhǔn)確性有了顯著提高,GPT-4的平均Brier評分(衡量預(yù)測誤差的指標(biāo))從0.17降至0.14 (p = 0.003),Claude 2則從0.22降至0.15(p < 0.001)。當(dāng)人群中位數(shù)處于初始范圍內(nèi)時,這些模型也適當(dāng)?shù)乜s小了其預(yù)測區(qū)間,顯示了以合理的方式整合額外信息的能力。
圖4. 接收人類預(yù)測前后,GPT-4(左)和Claude 2(右)的LLM預(yù)測。顏色區(qū)分首次預(yù)測高于、低于或介于人類中位數(shù)預(yù)測的20個百分點(diǎn)。高亮顯示的變化和間隔是該組內(nèi)相應(yīng)的中位數(shù)預(yù)測。”
然而探索性分析顯示,僅僅將最初的機(jī)器預(yù)測與人類中位數(shù)相平均,可以得到甚至比模型的更新預(yù)測更高的準(zhǔn)確率。這表明,雖然LLM可能受益于人類認(rèn)知輸出,但其推理能力可能還沒有達(dá)到整合這類信息的最佳調(diào)校水平。
影響和限制
這里的研究發(fā)現(xiàn)對預(yù)測和AI-人類協(xié)作的未來具有重要意義:
可擴(kuò)展且經(jīng)濟(jì)有效的預(yù)測:通過利用“硅群體智慧”,組織可以比單獨(dú)依賴人群更快速、更廉價地獲得高質(zhì)量的預(yù)測。這可以使數(shù)據(jù)驅(qū)動的決策在各個領(lǐng)域更容易獲得。
人類和AI的互補(bǔ)優(yōu)勢:雖然LLM并聯(lián)可能與人群準(zhǔn)確性相當(dāng),但這項研究也表明,人類認(rèn)知輸出可以進(jìn)一步改善機(jī)器預(yù)測。這凸顯了人類專家和AI系統(tǒng)在預(yù)測任務(wù)方面協(xié)同合作的潛力(這與另一項研究多少有點(diǎn)矛盾;另一項研究發(fā)現(xiàn),AI在診斷疑難疾病方面的表現(xiàn)優(yōu)于人類醫(yī)生,無論AI醫(yī)生的參與程度如何)。
促進(jìn)AI推理能力:該研究提供了LLM參與復(fù)雜推理(或至少看起來是推理)和信息整合的能力的證據(jù),盡管還有進(jìn)一步優(yōu)化的空間。隨著模型不斷改進(jìn),我們可能會看到它們在預(yù)測性能方面取得更大的進(jìn)步。
然而,有必要承認(rèn)這項研究的局限性和注意事項:
該研究致力于短期(3個月)二元預(yù)測。需要做更多的工作來評估LLM在長期預(yù)測和更復(fù)雜類型的問題上的表現(xiàn)。
LLM表現(xiàn)出了一種默認(rèn)偏差,即使在經(jīng)驗(yàn)基礎(chǔ)率接近均等的情況下,它們也往往預(yù)測概率> 50%。它們還顯示出了整體校準(zhǔn)欠佳,表明需要進(jìn)一步的改進(jìn)。
隨著LLM的訓(xùn)練數(shù)據(jù)變得越來越過時,如果沒有定期更新以跟上不斷變化的實(shí)際環(huán)境,預(yù)測準(zhǔn)確性可能會隨之下降。
結(jié)語
盡管存在這些局限性,這項研究還是意義重大,表明AI系統(tǒng)在某些預(yù)測領(lǐng)域具有匹配甚至超越人群集體智慧的潛力。通過利用“硅群體智慧”,我們可以讓高質(zhì)量的、數(shù)據(jù)驅(qū)動的預(yù)測比以往任何時候更具可擴(kuò)展性、更普及。
當(dāng)然,LLM并不能完全取代人類判斷,人類專家在解釋、結(jié)合上下文處理和根據(jù)機(jī)器預(yù)測采取行動方面將始終扮演至關(guān)重要的角色。但隨著AI能力不斷提升,越來越明顯的是,未來的預(yù)測將是人類智能和機(jī)器智能之間密切合作和協(xié)同作用的結(jié)果。
有些人重視對我們所居住的復(fù)雜世界做出準(zhǔn)確、及時和可操作的預(yù)測,硅群體時代即將到來,這對他們來說確實(shí)是令人興奮的前景。隨著研究人員不斷突破AI預(yù)測方面的極限,本人一定會替讀者密切關(guān)注這方面。