從非結(jié)構(gòu)化文本中提取有價(jià)值的見(jiàn)解是金融行業(yè)的關(guān)鍵應(yīng)用。然而,這項(xiàng)任務(wù)往往超出了簡(jiǎn)單的數(shù)據(jù)提取,需要高級(jí)推理能力。
一個(gè)典型的例子是確定信貸協(xié)議中的到期日,這通常涉及破譯一個(gè)復(fù)雜的指令,如“到期日應(yīng)在生效日期三周年之前的最后一個(gè)工作日”。這種級(jí)別的復(fù)雜推理對(duì)大型語(yǔ)言模型(LLM)提出了挑戰(zhàn)。它需要結(jié)合外部知識(shí),如假日日歷,以準(zhǔn)確地解釋和使用給定的指示。集成知識(shí)圖是一種很有前途的解決方案,具有幾個(gè)關(guān)鍵優(yōu)勢(shì)。
Transformer的出現(xiàn)徹底改變了文本矢量化,實(shí)現(xiàn)了前所未有的精度。這些嵌入封裝了深刻的語(yǔ)義含義,超越了以前的方法,這就是為什么大型語(yǔ)言模型(LLM)在生成文本方面如此出色的原因。
LLM進(jìn)一步展示了推理能力,盡管有局限性:他們推理的深度往往會(huì)迅速下降。然而,將知識(shí)圖與這些向量嵌入相結(jié)合可以顯著提高推理能力。這種協(xié)同利用嵌入的固有語(yǔ)義豐富性,將推理能力提升到無(wú)與倫比的高度,標(biāo)志著人工智能的重大進(jìn)步。
在金融領(lǐng)域,LLM主要通過(guò)檢索增強(qiáng)生成(RAG)來(lái)使用,這種方法將新的、訓(xùn)練后的知識(shí)注入LLM。這個(gè)過(guò)程包括對(duì)文本數(shù)據(jù)進(jìn)行編碼,為有效檢索建立索引,對(duì)查詢進(jìn)行編碼,并使用類似的算法獲取相關(guān)段落。然后將這些檢索到的段落與查詢一起使用,作為L(zhǎng)LM生成響應(yīng)的基礎(chǔ)。
這種方法大大擴(kuò)展了LLM的知識(shí)基礎(chǔ),使其對(duì)財(cái)務(wù)分析和決策非常寶貴。雖然檢索增強(qiáng)生成標(biāo)志著重大的進(jìn)步,但它也有局限性。
一個(gè)關(guān)鍵的缺點(diǎn)在于通道向量可能無(wú)法完全掌握查詢的語(yǔ)義意圖,從而導(dǎo)致忽略了重要的上下文。出現(xiàn)這種疏忽的原因是,嵌入可能無(wú)法捕捉到理解查詢的全部范圍所必需的某些推斷連接。
此外,將復(fù)雜的段落濃縮成單個(gè)向量可能會(huì)導(dǎo)致細(xì)微差別的喪失,模糊了分布在句子中的關(guān)鍵細(xì)節(jié)。
還有就是匹配過(guò)程單獨(dú)處理每個(gè)段落,缺乏可以連接不同事實(shí)的聯(lián)合分析機(jī)制。這種缺失阻礙了模型從多個(gè)來(lái)源聚合信息的能力,而聚合信息對(duì)于生成來(lái)自不同上下文信息達(dá)成全面而準(zhǔn)確的響應(yīng)通常是必需的。
改進(jìn)檢索增強(qiáng)生成框架的努力有很多,從優(yōu)化塊大小到使用父塊檢索器、假設(shè)問(wèn)題嵌入和查詢重寫。雖然這些策略提供了改進(jìn),但它們不會(huì)導(dǎo)致革命性的結(jié)果變化。另一種方法是通過(guò)擴(kuò)展上下文窗口來(lái)繞過(guò)檢索增強(qiáng)生成,就像Google Gemini躍升到100萬(wàn)個(gè)令牌容量一樣。然而,這帶來(lái)了新的挑戰(zhàn),包括在擴(kuò)展的背景下不一致的焦點(diǎn)和大量的信息,通常是數(shù)千倍的成本增加。
將知識(shí)圖與密集向量結(jié)合起來(lái)是最有希望的解決方案。雖然嵌入有效地將不同長(zhǎng)度的文本壓縮為固定維向量,從而能夠識(shí)別語(yǔ)義相似的短語(yǔ),但它們有時(shí)無(wú)法區(qū)分關(guān)鍵的細(xì)微差別。例如,“來(lái)自銀行的現(xiàn)金和到期”和“現(xiàn)金和現(xiàn)金等價(jià)物”產(chǎn)生幾乎相同的向量,這表明相似性忽略了實(shí)質(zhì)性差異。后者包括有息實(shí)體,如“資產(chǎn)支持證券”或“貨幣市場(chǎng)基金”,而“銀行到期”指的是無(wú)息存款。
知識(shí)圖能捕獲概念之間復(fù)雜的相互關(guān)系。這培養(yǎng)了更深層次的上下文洞察力,通過(guò)概念之間的聯(lián)系強(qiáng)調(diào)了額外的獨(dú)特特征。例如,美國(guó)公認(rèn)會(huì)計(jì)準(zhǔn)則知識(shí)圖譜清楚地將“現(xiàn)金和現(xiàn)金等價(jià)物”、“銀行計(jì)息存款”和“銀行到期”的總和定義為“現(xiàn)金和現(xiàn)金等價(jià)物”。
通過(guò)整合這些詳細(xì)的上下文線索和關(guān)系,知識(shí)圖顯著提高了LLM的推理能力。它們可以在單個(gè)圖中實(shí)現(xiàn)更精確的多級(jí)推理,并促進(jìn)跨多個(gè)圖的聯(lián)合推理。