我們已經(jīng)看到了很多驚人的進(jìn)展。在一瞬間數(shù)以千億計(jì)的計(jì)算能力幫助下,最新的人工智能技術(shù)能夠以人類水平的準(zhǔn)確性理解某些類型的文本。然而,當(dāng)目標(biāo)文本屬于一長段對話時(shí),系統(tǒng)面臨的挑戰(zhàn)就變得更加艱巨,因?yàn)樗枰紤]對話上下文來解釋用戶的意思并決定該如何回應(yīng)。不過,像臉書的BlenderBot 2.0這樣的聊天機(jī)器人似乎預(yù)示著人類與人工智能的互動(dòng)會(huì)流暢自然許多。
但問題在于:我們給這些對話式人工智能機(jī)器人增加的復(fù)雜性越多,就越難滿足我們對實(shí)時(shí)響應(yīng)能力的期望。BlenderBot 2.0就是一個(gè)完美的例子。因?yàn)樗黄屏薆lenderBot 1.0的許多關(guān)鍵局限(包括缺乏長期記憶),所以2.0版本比它的前輩要復(fù)雜得多。因此,要讓幕后起作用的機(jī)器學(xué)習(xí)響應(yīng)速度更快就更難了。
對話式人工智能和聊天機(jī)器人的速度限制要實(shí)現(xiàn)自然流暢的對話是沒有什么秘密可言的。它需要一個(gè)讓人頭疼的龐大機(jī)器學(xué)習(xí)模型網(wǎng)絡(luò),為了確定下一步應(yīng)該回答什么內(nèi)容,網(wǎng)絡(luò)中每一個(gè)模型都要解決一小塊難題。一個(gè)模型可能會(huì)考慮用戶的位置,另一個(gè)模型會(huì)考慮到互動(dòng)的歷史,還有一個(gè)模型需要考慮到過去類似回應(yīng)引起的反饋——每個(gè)模型都會(huì)給系統(tǒng)增加以毫秒計(jì)的寶貴延遲。
換句話說,對話式人工智能的真正限制是我們的耐心。
“依賴地獄”的深度我們對人工智能的期望在學(xué)術(shù)背景下完全是另一碼事。在學(xué)術(shù)背景下,我們?yōu)榱私Y(jié)果可以等待幾個(gè)小時(shí)甚至幾天;而在現(xiàn)實(shí)環(huán)境中,我們要求系統(tǒng)立即做出反應(yīng)。特別是對于對話式人工智能機(jī)器人來說,每一項(xiàng)潛在的改進(jìn)都必須考慮到降低延遲的目標(biāo)來進(jìn)行權(quán)衡。
這種延遲是所謂的“關(guān)鍵路徑“的產(chǎn)物,關(guān)鍵路徑是指:從輸入(用戶的信息)到輸出(機(jī)器人的反應(yīng))所需的最短機(jī)器學(xué)習(xí)模型鏈條序列。這是一個(gè)來自項(xiàng)目管理的古老概念,但在試圖避免不必要的步驟這方面,它對今天的機(jī)器學(xué)習(xí)網(wǎng)絡(luò)來說是非常重要的。
那么,你該如何找到關(guān)鍵路徑呢?這一切都?xì)w結(jié)為依賴關(guān)系,長期以來,這一直是常規(guī)軟件開發(fā)領(lǐng)域的一個(gè)決定性問題。對于任何一種由很多部分相互連接而成的軟件架構(gòu)來說,改進(jìn)其中某一個(gè)應(yīng)用程序都可能迫使工程師更新整個(gè)系統(tǒng)。但有時(shí),對應(yīng)用A來說至關(guān)重要的更新卻與應(yīng)用B、C和D不兼容。
這就是所謂的“依賴地獄“。如果不去特別關(guān)注細(xì)節(jié)的話,機(jī)器學(xué)習(xí)的依賴關(guān)系會(huì)讓我們面對的地獄更加深邃黑暗。
正常的軟件依賴項(xiàng)是基于API的,它傳達(dá)了一個(gè)特定應(yīng)用程序的簡單、離散的狀態(tài),例如電子表格中的一個(gè)單元格從紅色變?yōu)榫G色。API允許工程師在某種程度上獨(dú)立開發(fā)每個(gè)應(yīng)用程序,同時(shí)讓它們保持在同一頁面上。但對于機(jī)器學(xué)習(xí)的依賴項(xiàng)來說,工程師則要處理抽象的概率分布才行,這意味著我們很難搞清楚一個(gè)模型的變化應(yīng)該如何影響更大范圍的機(jī)器學(xué)習(xí)網(wǎng)絡(luò)。只有掌握了這些模型之間的細(xì)微關(guān)系,我們才能讓對話式人工智能成為現(xiàn)實(shí)——更不用說實(shí)時(shí)體驗(yàn)了。
通過跳過步驟來節(jié)省時(shí)間為了充分了解對話式人工智能的依賴關(guān)系,你需要將機(jī)器學(xué)習(xí)與人類的直覺相結(jié)合在一起。
舉個(gè)例子,我們的一個(gè)對話式人工智能機(jī)器人旨在回應(yīng)員工的各種請求,比如說他們想要一個(gè)PowerPoint許可證,或是對PTO政策有疑問。事實(shí)證明,即使是看起來很簡單的問題也會(huì)把你帶入依賴地獄的深處。PTO問題的答案可能深藏在員工手冊的第53頁,而且對于加拿大的銷售人員和西班牙的工程師來說可能還是不一樣的。此外你還要忽略很多不相關(guān)的細(xì)節(jié)(比如員工的夏威夷度假計(jì)劃),所以你有幾十個(gè)專門的機(jī)器學(xué)習(xí)模型,它們還必須作為一個(gè)整體來運(yùn)作。
訣竅在于確定哪些模型——也就是關(guān)鍵路徑中的哪些步驟——是解決每個(gè)問題所必需的。第一步是自然語言理解,或NLU,其目標(biāo)是將非結(jié)構(gòu)化文本轉(zhuǎn)化為機(jī)器可操作的信息。我們的NLU是一個(gè)由許多機(jī)器學(xué)習(xí)模型組成的管道,可以糾正錯(cuò)別字、識(shí)別關(guān)鍵實(shí)體、從噪音中分離出信號(hào)、弄清用戶的意圖,等等。有了這些信息,我們就可以開始在下游篩選出不必要的模型。
這意味著在分析公司現(xiàn)有的實(shí)際解決方案之前,預(yù)測出目標(biāo)問題有哪些有益解決方案。一名要求使用PowerPoint的員工可能會(huì)用到軟件許可或申請表格,但他們幾乎肯定不想要新辦公室的地圖。只要能充分利用來自NLU流程的信息,我們就可以通過所謂的“預(yù)觸發(fā)“系統(tǒng),預(yù)測哪些模型需要激活,哪些模型需要繞過。
鑒于這一過程中所涉及的概率分布的抽象性質(zhì),我們的預(yù)觸發(fā)系統(tǒng)既依賴于機(jī)器學(xué)習(xí)的輸入,也依賴于人類專家基于直覺制定的規(guī)則。歸根結(jié)底,把時(shí)間花在有意義的地方既是一門藝術(shù),也是一門科學(xué)。
為對話式AI機(jī)器人的進(jìn)步留出空間沒有人知道對話式人工智能在十年后會(huì)是什么樣子。然而我們所知道的是,我們現(xiàn)在需要優(yōu)化我們的聊天機(jī)器人,為未來的進(jìn)步留出空間。如果我們想獲得像人類對話一樣的體驗(yàn),我們就必須考慮整個(gè)系統(tǒng)的延遲,不能毫不顧忌地增加越來越多的復(fù)雜性。
與科幻小說相反,我們在人工智能領(lǐng)域看到的“突破“都是對現(xiàn)有模型和技術(shù)的許多小的、漸進(jìn)式改進(jìn)累加起來的產(chǎn)物。優(yōu)化對話式人工智能的工作并不是為了影視作品里那種效果,成果也很難在一夜之間就爆發(fā)。但是,正是這些年的不懈努力——而不是幾次天才般的思想火花——讓聊天機(jī)器人能夠?qū)崟r(shí)理解我們的意圖并幫助我們。