人工智能歷來在兩個(gè)有點(diǎn)矛盾的陣營之間來回?fù)u擺。一派是以Noam Chomsky、Marvin Minsky、Seymour Papert及其他許多人為代表的這種想法:認(rèn)知智能本質(zhì)上是算法;有一套基本的規(guī)則成為語言的基礎(chǔ),進(jìn)而成為智能的基礎(chǔ)。另一派是Donald Hebb、Frank Rosenblatt、Wesley Clarke、Henry Kelly、Arthur Bryson Jr.及其他一些人,他們大多默默無聞,逐漸形成了梯度下降、遺傳算法、反向傳播及神經(jīng)網(wǎng)絡(luò)的其他部分。
這兩個(gè)陣營之間的競(jìng)爭(zhēng)非常激烈;曾經(jīng)一度,在Minsky和Papert對(duì)Rosenblatt的感知器(早期神經(jīng)模型之一)進(jìn)行相當(dāng)苛嚴(yán)的分析后,爭(zhēng)論似乎很大程度上在算法方法的方向上已經(jīng)偃旗息鼓了。事后看來,雙方面臨的一個(gè)主要障礙(也是讓人工智能研究陷入十多年寒冬期的障礙)是,雙方都低估了其中任何一種模式真正取得成果所需要的計(jì)算能力(計(jì)算能力增加21個(gè)數(shù)量級(jí));再過50年,計(jì)算機(jī)和網(wǎng)絡(luò)才會(huì)達(dá)到這兩種技術(shù)中的任何一種切實(shí)可行的程度。
結(jié)果證明,雙方實(shí)際上在某些方面是對(duì)的,而在另一些方面是錯(cuò)的。神經(jīng)網(wǎng)絡(luò)(和機(jī)器學(xué)習(xí))處理在1964年被視為很關(guān)鍵的許多問題方面變得非常有效:圖像識(shí)別、自動(dòng)分類、自然語言處理和系統(tǒng)建模等其他方面。尤其是分類功能邁出了一大步,特別是考慮到大量?jī)?nèi)容(從 Twitter帖子到電影)從中受益。
與此同時(shí),Minsky和Papert關(guān)于感知器的論點(diǎn)在當(dāng)前關(guān)于機(jī)器學(xué)習(xí)的爭(zhēng)論中得到了回響——可發(fā)現(xiàn)性和可驗(yàn)證性都證明是兩個(gè)非常難以解決的問題。如果無法確定為何某個(gè)特定解決方案正確,這意味著存在未適當(dāng)建模的重要的隱藏變量,并且不知道這些變量的限制——存在不連續(xù)性和奇異性的地方,將模型應(yīng)用于除其自己的訓(xùn)練數(shù)據(jù)之外的任何內(nèi)容時(shí),就會(huì)遇到問題。
此外,您將開發(fā)邏輯(有時(shí)是社會(huì))結(jié)構(gòu)中的人工干預(yù)這個(gè)問題換成了查找和篩選大量數(shù)據(jù)這個(gè)常常費(fèi)時(shí)又費(fèi)力的操作;可以說,后一種操作實(shí)際上就是前一種操作的變體,大概效率較低。
另一方面,算法方面的情況不一定好得多。事實(shí)上,算法方法有兩個(gè)方面:分析和語義。分析方法目前被認(rèn)為是一門數(shù)據(jù)科學(xué),使用統(tǒng)計(jì)分析(或隨機(jī)法)來確定分布和概率??梢哉f,隨機(jī)法的優(yōu)勢(shì)在于,針對(duì)足夠龐大的數(shù)據(jù)集,它可以用來確定特定事件發(fā)生的可能性,精確度在一定的誤差范圍內(nèi)。然而,隨機(jī)法正從傳統(tǒng)的統(tǒng)計(jì)分析轉(zhuǎn)而使用貝葉斯網(wǎng)絡(luò),其中可以借助圖分析來分析單個(gè)變量(特征)。
另一方面,語義是利用連接斷言的網(wǎng)絡(luò)圖,以及對(duì)斷言本身進(jìn)行額外斷言(通過建模)的能力,這個(gè)過程名為具體化(reification)。語義非常適合更傳統(tǒng)的建模方法,這正是由于傳統(tǒng)的(關(guān)系)建模是語義模型的一個(gè)封閉子集,同時(shí)又提供文檔對(duì)象建模語言(DOM)中固有的功能,XML或JSON就是佐證。
重要的是,貝葉斯網(wǎng)絡(luò)可以呈現(xiàn)為具有具體化的語義圖,決策樹也是如此。的確,SPARQL查詢?cè)诿總€(gè)重要的方面都與決策樹同構(gòu),因?yàn)闆Q策樹中的每個(gè)節(jié)點(diǎn)實(shí)際上都是基于存在特定模式或約束的兩個(gè)數(shù)據(jù)集的交集(提示:您想要構(gòu)建合規(guī)測(cè)試系統(tǒng)?使用SPARQL!)。
軟件發(fā)展史充斥著純粹主義者和實(shí)用主義者。純粹主義者在他們自己的特定工具和語言方面標(biāo)明了立場(chǎng):C++與Java、命令式與聲明式、SQL與NoSQL、Perl與......等等。實(shí)用主義者通常試圖找到一個(gè)中間立場(chǎng),精挑細(xì)選最好的,對(duì)爭(zhēng)論的種種喧囂置之不理。大多數(shù)純粹主義者最終漸漸變成了實(shí)用主義者,但由于大多數(shù)程序員往往多年后成為項(xiàng)目管理員,因此這種學(xué)習(xí)的實(shí)際影響微乎其微。
眼下,由于神經(jīng)網(wǎng)絡(luò)、貝葉斯和語義這三個(gè)方面的最新一代比較新,人們有一種強(qiáng)烈的傾向,希望將自己選擇的工具視為適用于所有潛在情況的優(yōu)秀工具。然而,我認(rèn)為這些最終都是圖或處理圖的工具,我相信這種底層的共性將帶來更廣泛的大統(tǒng)一。比如說:
機(jī)器學(xué)習(xí)管道是分類器。如果中間分類器的標(biāo)簽對(duì)應(yīng)于某個(gè)特定的本體,那么一旦對(duì)某個(gè)特定實(shí)體進(jìn)行了分類,該實(shí)體的語義表示就可以分配給相關(guān)的模式、形狀、類或規(guī)則。
機(jī)器學(xué)習(xí)系統(tǒng)不是索引,而是正如我的孩子們所說,它是索引相鄰(非常像圖的短語)。本質(zhì)上,您所做的是在未知類型的實(shí)例與關(guān)聯(lián)的一個(gè)或多個(gè)類之間創(chuàng)建映射。多個(gè)類在這里很重要,因?yàn)轭愔皇且粋€(gè)標(biāo)記的模式而已,而繼承表明了兩個(gè)這樣的模式之間的共同特征。該映射有時(shí)也稱為反向查詢,原因在于您不是檢索滿足查詢的所有項(xiàng),而是實(shí)質(zhì)上檢索查詢用于其中一個(gè)項(xiàng)的(命名)模式。
可以在SPARQL中創(chuàng)建分類器(老實(shí)講比較簡(jiǎn)單)。這是由于SPARQL本質(zhì)上是尋找是否存在三重模式:不僅僅尋找屬性存在,還尋找常常是二級(jí)和三級(jí)的關(guān)系。SHACL是一種RDF模式語言,可以被認(rèn)為是一種基于特定的SHACL構(gòu)件(及其他部分)生成SPARQL的工具,那些模式可能非常微妙。
與之相仿,我認(rèn)為圖分析最終將變得與關(guān)系數(shù)據(jù)分析一樣重要,或者甚至更重要,主要是由于圖使人們極容易為任何類型的隨機(jī)過程添加多層抽象和可發(fā)現(xiàn)性,從而解決當(dāng)今機(jī)器學(xué)習(xí)工具所面臨的許多相同問題。
這個(gè)過程反過來也是可行的。SPARQL可以與入站流一起用來創(chuàng)建一個(gè)圖,用于為機(jī)器語言服務(wù)構(gòu)建訓(xùn)練數(shù)據(jù)。由于這種訓(xùn)練數(shù)據(jù)已經(jīng)在現(xiàn)有本體的上下文中被標(biāo)記和識(shí)別,這種過程的好處是因而生成的分類器已經(jīng)擁有可解釋性必需的所有部分:數(shù)據(jù)來源及注釋、已確立的標(biāo)識(shí)符、事件時(shí)間戳及更多。
另一個(gè)重要的一點(diǎn)是,SPARQL能夠改變它所處理的圖。一旦您合并允許直接在 SPARQL調(diào)用本身內(nèi)處理外部?jī)?nèi)容的服務(wù)調(diào)用,推理(基于現(xiàn)有斷言中發(fā)現(xiàn)的模式來創(chuàng)建新斷言)變得尤為重要。SPARQL的下一個(gè)主要階段之一將是它能夠檢索、處理和生成JSON, 作為中間核心對(duì)象(軟件供應(yīng)商請(qǐng)注意)或作為RDF的來源。
這意味著未來版本的SPARQL不再需要將表格數(shù)據(jù)存儲(chǔ)為RDF,而是可以將其存儲(chǔ)為 JSON,然后利用該JSON(及相關(guān)的分析功能)來創(chuàng)建復(fù)雜得多的推理,而占用的處理資源要少得多。針對(duì)類似的操作,不妨看一下XProc XML管道處理語言,就會(huì)意識(shí)到XSLT/XQuery 管道與RDF/SPARQL/SHACL管道之間的差異基本上是表層的。
這最后一點(diǎn)非常重要,因?yàn)檎缱钚乱淮拿艚?DevOPS/機(jī)器學(xué)習(xí)運(yùn)營模式所示,管道和轉(zhuǎn)換是未來。如果能夠處理鏈?zhǔn)睫D(zhuǎn)換(尤其是那種轉(zhuǎn)換中的特定管道根據(jù)上下文來加以確定,而不是事先設(shè)定),這樣的管道開始顯得越來越像有機(jī)的認(rèn)知過程。
原文標(biāo)題:Where Semantics and Machine Learning Converge,作者:Kurt A Cagle