隨著幾乎所有垂直行業(yè)都走向數(shù)字化,人們常說(shuō)“數(shù)據(jù)就是新石油”。然而,人們往往沒(méi)有足夠重視的是,石油在經(jīng)過(guò)精煉并以柴油、汽油、天然氣或航空燃料等所需形式存在之前,不適合驅(qū)動(dòng)我們的機(jī)器,非結(jié)構(gòu)化數(shù)據(jù)的情況幾乎相同。
據(jù)估計(jì),非結(jié)構(gòu)化數(shù)據(jù)約占全球組織生成和存儲(chǔ)的數(shù)據(jù)的80%。隨著數(shù)據(jù)量的增長(zhǎng),企業(yè)面臨著多種挑戰(zhàn),特別是需要安全地存儲(chǔ)數(shù)據(jù)并大規(guī)模、快速地從中獲得可操作的見(jiàn)解。如今,從文本文檔、圖像、音頻和視頻文件等各種非結(jié)構(gòu)化來(lái)源中提取相關(guān)數(shù)據(jù),然后將其標(biāo)準(zhǔn)化以創(chuàng)建報(bào)告和輸入,最后將發(fā)現(xiàn)結(jié)果納入操作流程的過(guò)程說(shuō)起來(lái)容易做起來(lái)難。
據(jù)估計(jì),金融服務(wù)業(yè)等行業(yè)的數(shù)據(jù)生成正在加速增長(zhǎng)。到2025年,全球企業(yè)預(yù)計(jì)將生成175ZB(1ZB=1萬(wàn)億GB)的數(shù)據(jù),如前所述,其中約80%將是非結(jié)構(gòu)化的。對(duì)于大多數(shù)當(dāng)代企業(yè)來(lái)說(shuō),將這些數(shù)據(jù)轉(zhuǎn)化為有意義的商業(yè)智能是一項(xiàng)艱巨的任務(wù)。
處理非結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)方法速度緩慢、容易出錯(cuò)且成本高昂。由于非結(jié)構(gòu)化數(shù)據(jù)的不斷流入,始終存在人為錯(cuò)誤、疏忽和疲勞的風(fēng)險(xiǎn),即使是最有經(jīng)驗(yàn)的人員也會(huì)不知所措。光學(xué)字符識(shí)別(OCR)工具可以在一定程度上幫助數(shù)據(jù)數(shù)字化,但無(wú)法為其添加上下文。
即使在采用機(jī)器人流程自動(dòng)化(RPA)的企業(yè)中,雖然它可能能夠通過(guò)從源中獲取數(shù)據(jù)并將其添加到數(shù)據(jù)庫(kù)來(lái)編譯數(shù)據(jù),但它無(wú)法執(zhí)行格式更改、數(shù)據(jù)結(jié)構(gòu)或任何其他任務(wù)將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化的可操作的見(jiàn)解,可以幫助企業(yè)轉(zhuǎn)變客戶體驗(yàn),促進(jìn)卓越?jīng)Q策,推動(dòng)創(chuàng)新和產(chǎn)品開(kāi)發(fā),降低風(fēng)險(xiǎn),節(jié)省成本,并為企業(yè)提供競(jìng)爭(zhēng)優(yōu)勢(shì)。這就是為什么用人工智能釋放非結(jié)構(gòu)化數(shù)據(jù)的力量是絕對(duì)必要的。
據(jù)報(bào)告顯示,利用非結(jié)構(gòu)化數(shù)據(jù)的組織可以實(shí)現(xiàn)收入增加10%-20%,成本降低20%-50%。預(yù)計(jì)到2025年,NLP技術(shù)的全球市場(chǎng)將達(dá)到433億美元,這表明對(duì)分析非結(jié)構(gòu)化文本數(shù)據(jù)的需求不斷增長(zhǎng)。
大型科技企業(yè)迅速根據(jù)這些預(yù)測(cè)采取行動(dòng),并制定了旨在解決該問(wèn)題的解決方案。例如,亞馬遜推出了Textract,谷歌推出了Vision、Document、AutoML和NLP等各種API。微軟還在其認(rèn)知服務(wù)套件中啟用了非結(jié)構(gòu)化數(shù)據(jù)處理,IBM也提供了Datacap。毫無(wú)疑問(wèn),所有這些解決方案在處理大量非結(jié)構(gòu)化數(shù)據(jù)、探索它甚至使用它進(jìn)行原型設(shè)計(jì)時(shí)都很好。
然而,這些都是與行業(yè)無(wú)關(guān)的工具,它們通常很難提供充分且準(zhǔn)確的特定領(lǐng)域的見(jiàn)解。由于對(duì)行業(yè)術(shù)語(yǔ)的錯(cuò)誤理解以及對(duì)不同數(shù)據(jù)集之間的復(fù)雜性或共性的理解不正確,可能會(huì)出現(xiàn)錯(cuò)誤。因此,即使意識(shí)到需要利用非結(jié)構(gòu)化數(shù)據(jù),也并不總是可以通過(guò)流行或手動(dòng)驅(qū)動(dòng)的方法來(lái)實(shí)現(xiàn)預(yù)期結(jié)果。
為了利用非結(jié)構(gòu)化數(shù)據(jù)的潛力,企業(yè)需要投資先進(jìn)的數(shù)據(jù)分析工具和技術(shù)。使用由NLP、AI和ML支持的深度學(xué)習(xí)工具可以幫助他們獲得特定領(lǐng)域的見(jiàn)解并識(shí)別通用解決方案無(wú)法實(shí)現(xiàn)的模式。
另一個(gè)更有效的解決方案是與專門(mén)處理非結(jié)構(gòu)化數(shù)據(jù),并擁有廣泛的技術(shù)基礎(chǔ)設(shè)施和人才的服務(wù)提供商合作,以獲取精確的見(jiàn)解。這種方法不僅可以幫助企業(yè)定期獲得更深入的見(jiàn)解,而且無(wú)需在基礎(chǔ)設(shè)施、招聘人員和開(kāi)發(fā)定制工具方面進(jìn)行大量?jī)?nèi)部投資。
結(jié)論
非結(jié)構(gòu)化數(shù)據(jù)對(duì)于任何現(xiàn)代企業(yè)都至關(guān)重要,因?yàn)樗N(yùn)含的見(jiàn)解可以改變業(yè)務(wù)增長(zhǎng)、運(yùn)營(yíng)效率、客戶體驗(yàn)和運(yùn)營(yíng)成本。然而,為了實(shí)現(xiàn)最佳收益,企業(yè)必須審查其數(shù)據(jù)分析和構(gòu)建方法。先進(jìn)的人工智能工具與數(shù)據(jù)流的集成可以在很大程度上簡(jiǎn)化流程。正是這種人工智能優(yōu)先的專業(yè)非結(jié)構(gòu)化數(shù)據(jù)分析方法,將在金融服務(wù)等垂直領(lǐng)域區(qū)分未來(lái)的贏家和輸家!