企業(yè)第一次部署人工智能和構建機器學習項目的時候,往往把重點放在理論上。那么有沒有一種模型,可以提供必要的結果?如果有,我們又該如何構建和訓練這種模型呢?
根據(jù)IDC的數(shù)據(jù)顯示,部署人工智能或者機器學習解決方案平均需要長達9個多月的時間。主要是因為數(shù)據(jù)科學家用來打造這些概念證明的工具,通常不能很好地轉化為生產系統(tǒng)。IDC分析師SriramSubramanian說:“我們將研發(fā)的過程所需的時間稱為‘模型速度’,即從開始到結束需要多長時間。”
企業(yè)可以利用MLOps解決上述問題。MLOps(Machine Learning Operations)是一組最佳實踐、框架和工具,可以幫助企業(yè)管理數(shù)據(jù)、模型、部署、監(jiān)控,以及其他利用理論概念驗證AI系統(tǒng)并使之奏效的方方面面。
Subramanian進一步解釋,“MLOps將模型速度縮短到幾周——有時甚至是幾天,就像使用DevOps加快應用構建的平均時間一樣,這就是為什么你需要MLOps。”企業(yè)通過采用MLOps可以構建更多模型、更快地創(chuàng)新、應對更多的使用場景。“MLOps的價值定位很明確。”
據(jù)IDC預測,到2024年將有60%的企業(yè)使用MLOps來實施他們的機器學習工作流。Subramanian說,當他們對受訪者調查采用人工智能和機器學習的挑戰(zhàn)時,最主要的障礙之一就是缺少MLOps,僅次于成本。
在本文中,我們研究了MLOps是什么,如何演變的,以及企業(yè)組織需要完成和牢記什么,才能充分利用這種新興的人工智能操作方法。
MLOps的演進
幾年前,當Eugenio Zuccarelli首次開始構建機器學習項目的時候,MLOps還只是一組最佳實踐。從那時起,Zuccarelli一直在多家企業(yè)從事人工智能項目,包括醫(yī)療和金融服務領域的企業(yè),他看到,隨著時間的推移MLOps開始發(fā)展到包含了各種工具和平臺。
如今,MLOps為人工智能操作提供了一個相當強大的框架,Zuccarelli說,他現(xiàn)在是CVS Health的創(chuàng)新數(shù)據(jù)科學家,他提到了之前從事的一個項目,該項目旨在創(chuàng)建一個可以預測不良結果的應用,例如再入院或疾病進展。
“我們正在探索數(shù)據(jù)集和模型,并與醫(yī)生進行溝通找出最佳模型所具備的特征。但要使這些模型真正有用,還需要讓用戶真正地用起這些模型。”
這意味著要打造一個可靠的、快速且穩(wěn)定的移動應用,后端有一個通過API連接的機器學習系統(tǒng)。他說:“如果沒有MLOps,我們將無法確保這一點。”
他的團隊使用H2O MLOps平臺和其他工具為模型創(chuàng)建了健康儀表板。“你肯定不希望模型發(fā)生重大變化,也不想引入偏見。健康儀表板讓我們能夠了解系統(tǒng)是否發(fā)生了變化。”
通過使用MLOps平臺還可以對生產系統(tǒng)進行更新。他說:“在不停止應用工作的情況下?lián)Q出文件是非常困難的。而MLOps可以在生產進行中、以系統(tǒng)影響最小的情況下?lián)Q出系統(tǒng)。”
他說,MLOps平臺隨著逐漸成熟將會加速整個模型開發(fā)的過程,因為企業(yè)不必為每個項目都重新發(fā)明框架。數(shù)據(jù)管道管理功能對于人工智能的實施也至關重要。
“如果我們有多個需要相互通信的數(shù)據(jù)源,這時候MLOps就可以發(fā)揮作用了。你希望流入機器學習模型的所有數(shù)據(jù)都是一致的且高質量的。就像那句話說的,垃圾進,垃圾出。如果模型的信息很差,那么預測本身就會很差。”
MLOps的基礎:一個不斷變化中的目標
但不要認為,僅僅因為有那么多可用的平臺和工具,就忽略了MLOps的核心原則。剛開始使用MLOps的企業(yè)應該記住,MLOps的核心是在數(shù)據(jù)科學和數(shù)據(jù)工程之間建立牢固的聯(lián)系。
Zuccarelli說:“為了確保MLOps項目的成功,你需要數(shù)據(jù)工程師和數(shù)據(jù)科學家是在同一個團隊內工作的。”
此外,防止偏見、確保透明度、提供可解釋性以及支持道德平臺所必需的工具,都還在開發(fā)之中,“這方面肯定還需要做很多工作,因為這是一個非常新的領域。”
因此,如果沒有一個完整的交鑰匙型解決方案可供采用,企業(yè)就必須非常了解如何讓MLOps有效地實施人工智能的方方面面。這就意味著,要廣泛地培養(yǎng)專業(yè)技能,技術咨詢公司Insight的人工智能團隊國家實踐經(jīng)理Meagan Gentry這樣表示。
MLOps涵蓋了從數(shù)據(jù)收集、驗證和分析、到管理機器資源和追蹤模型性能的整個范疇,有很多輔助工具是可以部署在本地、云端或者在邊緣的,這些工具有的是開源的,有的是專屬的。
但掌握技術只是其中一個方面,MLOps還借鑒了DevOps的敏捷方法和迭代開發(fā)的原則,Gentry說。此外,和任何敏捷相關的領域一樣,溝通是至關重要的。
“每個角色的溝通都是很重要的,數(shù)據(jù)科學家和數(shù)據(jù)工程師之間的溝通,和DevOps的溝通,以及和整個IT團隊的溝通。”
對于剛起步的公司來說,MLOps可能是令人困惑的,它有很多一般性原則,有幾十家相關廠商,甚至還有非常多的開源工具集。
“這時候會遇到各種陷阱,”Capgemini Americas企業(yè)架構高級經(jīng)理Helen Ristov說。“其中很多都還在開發(fā)中,現(xiàn)在還沒有一套正式的指導方針,就像DevOps一樣,這還是一項新興技術,指導方針和相關政策需要一定時間才能推出。”
Ristov建議,企業(yè)應該從數(shù)據(jù)平臺開始他們的MLOps之旅。“也許他們有數(shù)據(jù)集,但是這些數(shù)據(jù)集是在不同地方的,沒有一個統(tǒng)一的環(huán)境。”
她說,企業(yè)不需要將所有數(shù)據(jù)轉移到一個平臺上,但確實需要一種方法從不同的數(shù)據(jù)源中引入數(shù)據(jù),不同的應用,情況也各不相同。例如,數(shù)據(jù)湖非常適合那些以高頻次進行大量分析、低成本存儲的企業(yè)。MLOps平臺通常有用于構建和管理數(shù)據(jù)管道并跟蹤不同版本的訓練數(shù)據(jù)工具,但這并不是一勞永逸的。然后是模型創(chuàng)建、版本控制、日志記錄、衡量功能集、管理模型本身等其他方面。
“其中涉及大量的編碼工作,”Ristov說,建立一個MLOps平臺可能需要數(shù)月時間,而且在集成方面,平臺供應商還有很多的工作要做。
“這些不同方向還有很大的發(fā)展空間,很多工具還在開發(fā)之中,生態(tài)系統(tǒng)非常龐大,人們只是選擇他們所需的東西。MLOps還處于‘青春期’,大多數(shù)企業(yè)組織仍在尋找最理想的配置。”
MLOps的市場格局
IDC的Subramanian表示,MLOps市場規(guī)模預計將從2020年的1.85億美元增長到2025年約7億美元,但這個市場也有可能被嚴重低估了,因為MLOps產品通常與更大的平臺捆綁在一起。他說,到2025年MLOps市場的真實規(guī)??赡艹^20億美元。
Subramanian說,MLOps廠商供應商往往分為三大類,首先是大型云提供商,例如AWS、Azure和Google Cloud,這種廠商是把MLOps功能作為一項服務提供給客戶。
第二類是機器學習平臺廠商,例如DataRobot、Dataiku、Iguazio等。
“第三類是過去所說的數(shù)據(jù)管理廠商,例如Cloudera、SAS和DataBricks等等。他們的優(yōu)勢在于數(shù)據(jù)管理能力和數(shù)據(jù)操作,然后擴展到機器學習能力,最終延伸到MLOps能力。”
Subramanian說,這三個領域都呈現(xiàn)出爆炸式增長,能讓MLOps廠商脫穎而出的,是他們能否同時支持本地環(huán)境和云部署模型,是否能夠實施可信的、負責任的人工智能,是否即插即用,是否容易擴展,這就是體現(xiàn)差異化的方面。”
根據(jù)IDC最近的一項調查顯示,缺乏實施負責任AI的各種方法,是阻礙人工智能和機器學習普及的三大障礙之一,與缺乏MLOps一起并列第二。造成這種情況很大程度上是因為除了采用MLOps別無他選,Gartner人工智能和機器學習研究分析師Sumit Agarwal這樣表示。
“其他方法都是手動的,所以,真的沒有其他選擇了。如果你想擴展的話,你需要自動化。你需要代碼、數(shù)據(jù)以及模型的可追溯性。”
根據(jù)Gartner最近的一項調查顯示,一個模型從概念驗證到生產所需的平均時間已經(jīng)從9個月縮短到7.3個月。“但是7.3個月時間仍然很長,企業(yè)組織有很多機會利用MLOps。”
MLOps帶來的企業(yè)文化變革
Genpact公司全球分析負責人Amaresh Tripathy表示,實施MLOps還需要以企業(yè)AI團隊的身份掀起一場文化變革。
“數(shù)據(jù)科學家給人們的印象通常是一個瘋狂的科學家,試圖大海撈針。但實際上數(shù)據(jù)科學家是發(fā)現(xiàn)者和探索者,而不是生產小部件的工廠。”企業(yè)經(jīng)常低估自身所需要付出的努力。
“人們能更好地理解工程,對用戶體驗有這樣那樣的要求,但不知道為什么,人們對部署模型卻完全不同。人們會假設所有擅長測試環(huán)境的數(shù)據(jù)科學家自然都會部署這些模型,或者可以派幾個IT員工來部署,這是錯誤的。人們并不了解他們需要什么。”
很多企業(yè)也并不知道MLOps可能會給企業(yè)內部其他方面帶來哪些連鎖反應,因此經(jīng)常導致企業(yè)內部發(fā)生巨大的變化。
“你可以把MLOps放在呼叫中心,平均響應時間實際上會增加,因為簡單的事情交給了機器和人工智能來處理,而交給人類做的事情實際上需要更長的時間,因為這些事情往往更復雜。所以你需要重新考慮這些工作是什么,你需要什么樣的人,這些人應該具備什么樣的技能。”
Tripathy表示,如今,一個企業(yè)組織中只有不到5%的決策是由算法驅動的,但這種情況正在迅速變化。“我們預計未來五年,將有20%到25%的決策是由算法驅動的,我們看到的每一個統(tǒng)計數(shù)據(jù)都表明,我們處于人工智能快速擴展的拐點上。”
他認為,MLOps是關鍵的一個部分。如果沒有MLOps,你就無法始終如一地使用人工智能。MLOps是企業(yè)AI規(guī)模化的催化劑。