近年來,人工智能 (AI) 已成為一種改變游戲規(guī)則的技術(shù),為企業(yè)提供了釋放新見解、簡(jiǎn)化運(yùn)營(yíng)和提供卓越客戶體驗(yàn)的潛力。91.5% 的領(lǐng)先企業(yè)持續(xù)投資于人工智能。由于人工智能作為現(xiàn)代商業(yè)問題的強(qiáng)大解決方案不斷發(fā)展壯大,人工智能開發(fā)生命周期變得越來越復(fù)雜。如今,AI開發(fā)人員面臨著數(shù)個(gè)挑戰(zhàn),包括數(shù)據(jù)質(zhì)量、數(shù)量、選擇正確的架構(gòu)等,這些挑戰(zhàn)必須在整個(gè)AI生命周期中得到解決。
因此,實(shí)現(xiàn)AI優(yōu)勢(shì)需要一種結(jié)構(gòu)化和嚴(yán)格的AI開發(fā)方法,該方法涵蓋從問題定義到模型部署等整個(gè)生命周期。讓我們探索成功的AI開發(fā)生命周期的不同階段,并討論AI開發(fā)人員面臨的各種挑戰(zhàn)。
構(gòu)建成功的AI開發(fā)生命周期的 9 個(gè)階段
開發(fā)和部署AI項(xiàng)目是一個(gè)迭代過程,需要重新審視步驟以獲得最佳結(jié)果。以下是構(gòu)建成功的AI開發(fā)生命周期的九個(gè)階段。
1. 業(yè)務(wù)目標(biāo)用例
AI開發(fā)生命周期的第一步是確定AI可以解決的業(yè)務(wù)目標(biāo)或問題,并制定AI戰(zhàn)略。清楚地了解問題以及人工智能如何提供幫助至關(guān)重要。同樣重要的是,獲得合適的人才和技能對(duì)于開發(fā)有效的人工智能模型至關(guān)重要。
2. 數(shù)據(jù)收集與探索
建立業(yè)務(wù)目標(biāo)后,人工智能生命周期的下一步是收集相關(guān)數(shù)據(jù)。訪問正確的數(shù)據(jù)對(duì)于構(gòu)建成功的AI模型至關(guān)重要。今天有多種技術(shù)可用于數(shù)據(jù)收集,包括眾包、抓取和使用合成數(shù)據(jù)。
合成數(shù)據(jù)是人工生成的信息,在不同場(chǎng)景下都有幫助,例如在現(xiàn)實(shí)世界數(shù)據(jù)稀缺時(shí)訓(xùn)練模型、填補(bǔ)訓(xùn)練數(shù)據(jù)的空白以及加快模型開發(fā)。
收集數(shù)據(jù)后,下一步就是執(zhí)行探索性數(shù)據(jù)分析和可視化。這些技術(shù)有助于了解數(shù)據(jù)中有哪些信息可用,以及為模型訓(xùn)練準(zhǔn)備數(shù)據(jù)需要哪些過程。
3. 數(shù)據(jù)預(yù)處理
完成數(shù)據(jù)收集和探索后,數(shù)據(jù)將進(jìn)入下一階段,即數(shù)據(jù)預(yù)處理,這有助于準(zhǔn)備原始數(shù)據(jù)并使其適用于模型構(gòu)建。這個(gè)階段涉及不同的步驟,包括數(shù)據(jù)清理、規(guī)范化和擴(kuò)充。
數(shù)據(jù)清理——包括識(shí)別和糾正數(shù)據(jù)中的任何錯(cuò)誤或不一致。
數(shù)據(jù)規(guī)范化——涉及將數(shù)據(jù)轉(zhuǎn)換為通用比例。
數(shù)據(jù)增強(qiáng)——涉及通過對(duì)現(xiàn)有數(shù)據(jù)應(yīng)用各種轉(zhuǎn)換來創(chuàng)建新的數(shù)據(jù)樣本。
4.特征工程
特征工程涉及從可用數(shù)據(jù)創(chuàng)建新變量以增強(qiáng)模型的性能。該過程旨在簡(jiǎn)化數(shù)據(jù)轉(zhuǎn)換并提高準(zhǔn)確性,為監(jiān)督和非監(jiān)督學(xué)習(xí)生成特征。
它涉及各種技術(shù),例如通過編碼、規(guī)范化和標(biāo)準(zhǔn)化來處理缺失值、異常值和數(shù)據(jù)轉(zhuǎn)換。
特征工程在AI開發(fā)生命周期中至關(guān)重要,因?yàn)樗兄跒槟P蛣?chuàng)建最佳特征,并使數(shù)據(jù)易于被機(jī)器理解。
5.模型訓(xùn)練
準(zhǔn)備好訓(xùn)練數(shù)據(jù)后,迭代訓(xùn)練AI模型。在此過程中可以測(cè)試不同的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集,并選擇最佳模型并對(duì)其進(jìn)行微調(diào)以實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè)性能。
您可以根據(jù)各種參數(shù)和超參數(shù)評(píng)估訓(xùn)練模型的性能,例如學(xué)習(xí)率、批量大小、隱藏層數(shù)、激活函數(shù)和正則化,這些參數(shù)和超參數(shù)會(huì)進(jìn)行調(diào)整以實(shí)現(xiàn)最佳結(jié)果。
此外,企業(yè)可以從遷移學(xué)習(xí)中受益,遷移學(xué)習(xí)涉及使用預(yù)訓(xùn)練模型來解決不同的問題。這可以節(jié)省大量時(shí)間和資源,無需從頭開始訓(xùn)練模型。
6.模型評(píng)估
一旦開發(fā)和訓(xùn)練了AI模型,模型評(píng)估就是AI開發(fā)生命周期的下一步。這涉及使用適當(dāng)?shù)脑u(píng)估指標(biāo)(例如準(zhǔn)確性、F1 分?jǐn)?shù)、對(duì)數(shù)損失、精確度和召回率)來評(píng)估模型性能,以確定其有效性。
7.模型部署
部署 ML 模型涉及將其集成到生產(chǎn)環(huán)境中以產(chǎn)生對(duì)業(yè)務(wù)決策有用的輸出。不同的部署類型包括批量推理、內(nèi)部部署、基于云的部署和邊緣部署。
批量推理——在一批數(shù)據(jù)集上循環(huán)生成預(yù)測(cè)的過程。
本地部署 ——涉及在組織擁有和維護(hù)的本地硬件基礎(chǔ)設(shè)施上部署模型。
云部署——涉及在第三方云服務(wù)提供商提供的遠(yuǎn)程服務(wù)器和計(jì)算基礎(chǔ)設(shè)施上部署模型。
邊緣部署——涉及在本地或“邊緣”設(shè)備(例如智能手機(jī)、傳感器或物聯(lián)網(wǎng)設(shè)備)上部署和運(yùn)行機(jī)器學(xué)習(xí)模型。
8.模型監(jiān)控
由于數(shù)據(jù)不一致、傾斜和漂移,AI模型性能會(huì)隨著時(shí)間的推移而降低。模型監(jiān)控對(duì)于識(shí)別何時(shí)發(fā)生至關(guān)重要。MLOps(機(jī)器學(xué)習(xí)操作)等主動(dòng)措施優(yōu)化和簡(jiǎn)化機(jī)器學(xué)習(xí)模型在生產(chǎn)中的部署并對(duì)其進(jìn)行維護(hù)。
9.模型維護(hù)
已部署模型的模型維護(hù)對(duì)于確保其持續(xù)的可靠性和精度至關(guān)重要。模型維護(hù)的一種方法是構(gòu)建模型再訓(xùn)練管道。這樣的管道可以使用更新的數(shù)據(jù)自動(dòng)重新訓(xùn)練模型,以確保它保持相關(guān)性和效率。
另一種模型維護(hù)方法是強(qiáng)化學(xué)習(xí),它涉及訓(xùn)練模型以通過提供有關(guān)其決策的反饋來提高其性能。
通過實(shí)施模型維護(hù)技術(shù),組織可以確保其部署的模型保持有效。因此,模型提供了與不斷變化的數(shù)據(jù)趨勢(shì)和條件相一致的準(zhǔn)確預(yù)測(cè)。
開發(fā)人員在AI開發(fā)生命周期中會(huì)面臨哪些挑戰(zhàn)?
隨著AI模型的復(fù)雜性不斷增加,AI開發(fā)人員和數(shù)據(jù)科學(xué)家可能會(huì)在AI開發(fā)生命周期的各個(gè)階段應(yīng)對(duì)不同的挑戰(zhàn)。其中一些在下面給出。
學(xué)習(xí)曲線:對(duì)學(xué)習(xí)新的AI技術(shù)和有效集成它們的持續(xù)需求可能會(huì)分散開發(fā)人員的注意力,使他們無法專注于創(chuàng)建創(chuàng)新應(yīng)用程序的核心優(yōu)勢(shì)。
缺乏面向未來的硬件:這可能會(huì)阻礙開發(fā)人員創(chuàng)建符合其當(dāng)前和未來業(yè)務(wù)需求的創(chuàng)新應(yīng)用程序。
使用復(fù)雜的軟件工具:開發(fā)人員在處理復(fù)雜且不熟悉的工具時(shí)面臨挑戰(zhàn),導(dǎo)致開發(fā)過程變慢,上市時(shí)間增加。
管理大量數(shù)據(jù):AI開發(fā)人員很難獲得處理大量數(shù)據(jù)以及管理存儲(chǔ)和安全性所需的計(jì)算能力。