人工智能技術(shù)正在世界范圍內(nèi)以一種前所未有的速度發(fā)展,大量的AI應(yīng)用在短時(shí)間內(nèi)被構(gòu)建出來(lái),當(dāng)開發(fā)人員正在熱火朝天的追趕進(jìn)度時(shí),測(cè)試人員也需要及時(shí)跟上這個(gè)時(shí)代的步伐。
值得慶幸的是,隨著人工智能的快速進(jìn)步,測(cè)試、自動(dòng)化和質(zhì)量保證 (QA) 的新方法也正在出現(xiàn),為 AI 應(yīng)用程序測(cè)試打開了新的大門。測(cè)試人員該如何在現(xiàn)在與將來(lái)測(cè)試AI和ML應(yīng)用程序?以下是你應(yīng)當(dāng)了解的一些主要方法。
1.數(shù)據(jù)質(zhì)量測(cè)試
數(shù)據(jù)測(cè)試環(huán)節(jié)需要使用基準(zhǔn)來(lái)評(píng)估數(shù)據(jù)的狀態(tài),雖然每家公司的目標(biāo)可能有所不同,但高質(zhì)量的數(shù)據(jù)通常是AI應(yīng)用的最核心要求:
無(wú)誤差:所使用的數(shù)據(jù)沒有結(jié)構(gòu)和格式的任何問題。
合并:數(shù)據(jù)在一個(gè)集中式系統(tǒng)中得到保護(hù),而不是分散在多個(gè)系統(tǒng)中。
唯一性:數(shù)據(jù)不重復(fù)。
實(shí)時(shí)性:信息是及時(shí)和相關(guān)的。
準(zhǔn)確性:提供準(zhǔn)確的信息,幫助應(yīng)用做出明智的決策。
測(cè)試數(shù)據(jù)質(zhì)量意味著通過將企業(yè)信息與既定的已知事實(shí)進(jìn)行比較來(lái)識(shí)別標(biāo)記錯(cuò)誤、過時(shí)或不相關(guān)的數(shù)據(jù)。在此級(jí)別的測(cè)試中,它可以像為數(shù)據(jù)集創(chuàng)建數(shù)據(jù)配置文件一樣簡(jiǎn)單,此過程稱為合成數(shù)據(jù)生成。使用此數(shù)據(jù)集的定義驗(yàn)證,公司可以對(duì)其數(shù)據(jù)是否有效進(jìn)行分類,從而衡量其質(zhì)量。
2.偏差測(cè)試
另一個(gè)越來(lái)越受歡迎的重要測(cè)試是偏差測(cè)試。人工智能系統(tǒng)的偏見在很大程度上取決于它收集的數(shù)據(jù)。
例如,2016年的一份報(bào)告發(fā)現(xiàn)亞馬遜偏向于男性IT申請(qǐng)人。當(dāng)這家電子商務(wù)巨頭訓(xùn)練其人工智能機(jī)器人找到最適合這份工作的候選人時(shí),它使用現(xiàn)有員工的簡(jiǎn)歷作為數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)主要是男性。根據(jù)這些信息,他們的人工智能推測(cè)只有男性候選人才能成為最好的IT員工,但事實(shí)并非如此。
為了避免犯同樣的錯(cuò)誤,你應(yīng)該在將算法推送到網(wǎng)上時(shí)進(jìn)行偏差測(cè)試。
早在 2016 年,偏差測(cè)試只是分析需求以建立對(duì)一組輸入的適當(dāng)響應(yīng)的問題。現(xiàn)在,它沒有那么明確。你需要更多種類和更多選擇。你希望創(chuàng)建多個(gè)測(cè)試用例來(lái)考慮所有可能的變量,而不是使用一個(gè)數(shù)據(jù)集僅生成一個(gè)方案。雖然結(jié)果可能并不總是完美的,但它們?nèi)匀惶峁┝艘环N更好、更公平、更全面的方法來(lái)消除偏見和開發(fā)更具包容性的人工智能應(yīng)用。
3.AI 模型評(píng)估與測(cè)試
AI 模型評(píng)估和測(cè)試可幫助你預(yù)測(cè)分析和評(píng)估的結(jié)果,它涉及三個(gè)步驟:在 AI 測(cè)試的第一階段,收集的數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集包含多達(dá) 75% 的數(shù)據(jù)集,并分配模型權(quán)重和偏差。驗(yàn)證集由訓(xùn)練期間 15% 到 20% 的數(shù)據(jù)組成,以評(píng)估初始準(zhǔn)確性并查看模型如何適應(yīng)、學(xué)習(xí)和微調(diào)超參數(shù)。
在此階段,模型僅考慮驗(yàn)證數(shù)據(jù),但尚未使用它來(lái)學(xué)習(xí)模型的權(quán)重和偏差。測(cè)試集則占整個(gè)數(shù)據(jù)集的 10% 到 15%。這用于最終評(píng)估,作為一個(gè)受控集,沒有偏見。
測(cè)試過程的第二階段是調(diào)整超參數(shù)。在此階段,開發(fā)人員可以控制訓(xùn)練算法的行為,并根據(jù)第一階段的結(jié)果調(diào)整參數(shù)。在人工智能和深度學(xué)習(xí)的背景下,可能的超參數(shù)可能包括學(xué)習(xí)率、卷積核寬度、隱藏單元數(shù)量、正則化技術(shù)等。
最后,執(zhí)行批量規(guī)范化涉及兩種技術(shù):規(guī)范化和標(biāo)準(zhǔn)化,以便在訓(xùn)練準(zhǔn)備期間以相同的比例轉(zhuǎn)換數(shù)據(jù)。一旦AI模型經(jīng)過充分的訓(xùn)練、微調(diào)和標(biāo)準(zhǔn)化,就應(yīng)該通過混淆矩陣、AUC ROC、F1分?jǐn)?shù)和其他精度/準(zhǔn)確度指標(biāo)來(lái)衡量其性能。經(jīng)歷這一嚴(yán)格的過程對(duì)于了解你的算法執(zhí)行的有效性和準(zhǔn)確性至關(guān)重要。
4.安全測(cè)試
測(cè)試你的AI應(yīng)用程序的安全性需要結(jié)合傳統(tǒng)的安全性測(cè)試方法和特定于AI系統(tǒng)的考慮。從以下幾點(diǎn)開始考慮:
確定安全目標(biāo)和風(fēng)險(xiǎn):確定與AI應(yīng)用程序相關(guān)的安全目標(biāo)和潛在風(fēng)險(xiǎn)??紤]數(shù)據(jù)隱私、模型完整性、對(duì)抗性攻擊和對(duì)輸入變化的魯棒性等方面。這一步將有助于形成你的測(cè)試策略。
數(shù)據(jù)安全性:評(píng)估用于訓(xùn)練、驗(yàn)證和推斷的數(shù)據(jù)安全性。評(píng)估數(shù)據(jù)隱私、存儲(chǔ)、處理實(shí)踐和訪問控制。確保敏感數(shù)據(jù)得到適當(dāng)保護(hù),并遵守隱私法規(guī)。
系統(tǒng)架構(gòu)和基礎(chǔ)設(shè)施:分析人工智能應(yīng)用程序的架構(gòu)和基礎(chǔ)設(shè)施??紤]安全性方面,如身份驗(yàn)證、授權(quán)和加密。驗(yàn)證在系統(tǒng)的設(shè)計(jì)和實(shí)施中是否遵循了安全最佳實(shí)踐。
輸入驗(yàn)證和凈化:注意輸入驗(yàn)證和凈化機(jī)制。驗(yàn)證應(yīng)用程序是否正確處理輸入數(shù)據(jù),以防止常見的漏洞,如注入攻擊或緩沖區(qū)溢出。
第三方組件:評(píng)估AI應(yīng)用程序中使用的任何第三方庫(kù)、框架或組件的安全性。確保它們是最新的,沒有已知的漏洞,并且配置正確。
文件和報(bào)告:記錄你的發(fā)現(xiàn)、建議和測(cè)試結(jié)果。創(chuàng)建全面的安全測(cè)試報(bào)告,概述已識(shí)別的漏洞、風(fēng)險(xiǎn)和緩解措施。
5.性能和可擴(kuò)展性測(cè)試
要對(duì)AI應(yīng)用進(jìn)行性能測(cè)試,需要全面了解應(yīng)用的架構(gòu)、組件和數(shù)據(jù)流至關(guān)重要。容量測(cè)試、耐久性測(cè)試和壓力測(cè)試是最重要的性能測(cè)試類型,必須在AI應(yīng)用程序上執(zhí)行,以評(píng)估其性能和可擴(kuò)展性。
這可以通過不同的測(cè)試數(shù)據(jù)來(lái)實(shí)現(xiàn),包括大的和小的測(cè)試數(shù)據(jù)集,因?yàn)榇罅康臏y(cè)試數(shù)據(jù)會(huì)占用更多的計(jì)算資源。此外,硬件資源的并行監(jiān)控有助于設(shè)置正確的配置,以支持人工智能應(yīng)用程序的預(yù)期用戶請(qǐng)求。
6.聊天機(jī)器人測(cè)試
隨著聊天機(jī)器人在人工智能應(yīng)用中越來(lái)越受歡迎,確保這些機(jī)器人向用戶提供的信息是準(zhǔn)確的至關(guān)重要。如果你的企業(yè)使用聊天機(jī)器人的功能,你必須測(cè)試聊天機(jī)器人的功能和非功能組件。
領(lǐng)域測(cè)試:聊天機(jī)器人旨在處理特定的領(lǐng)域或主題。領(lǐng)域測(cè)試包括在與其指定領(lǐng)域相關(guān)場(chǎng)景中徹底測(cè)試聊天機(jī)器人。這確保聊天機(jī)器人理解并準(zhǔn)確響應(yīng)其預(yù)期范圍內(nèi)的查詢。
極限測(cè)試:極限測(cè)試評(píng)估聊天機(jī)器人如何處理不適當(dāng)或意外的用戶輸入。這包括測(cè)試聊天機(jī)器人對(duì)無(wú)效或無(wú)意義問題的反應(yīng),并在聊天機(jī)器人遇到故障或錯(cuò)誤時(shí)識(shí)別結(jié)果。極限測(cè)試有助于發(fā)現(xiàn)潛在的漏洞,并改善錯(cuò)誤處理和用戶體驗(yàn)。
對(duì)話因素:聊天機(jī)器人依靠對(duì)話流來(lái)提供有意義和引人入勝的互動(dòng)。驗(yàn)證不同的對(duì)話流對(duì)于評(píng)估聊天機(jī)器人在各種場(chǎng)景下的響應(yīng)至關(guān)重要。這包括評(píng)估聊天機(jī)器人理解用戶意圖、處理對(duì)話中的多個(gè)回合以及提供相關(guān)和連貫響應(yīng)的能力。評(píng)估對(duì)話因素有助于優(yōu)化聊天機(jī)器人的對(duì)話技能,并增強(qiáng)用戶體驗(yàn)。
7.機(jī)器人測(cè)試
機(jī)器人測(cè)試需要模擬真實(shí)世界的場(chǎng)景,并評(píng)估這些場(chǎng)景中系統(tǒng)或算法的行為?;谀M的行為測(cè)試包括算法調(diào)試、對(duì)象檢測(cè)、響應(yīng)測(cè)試和驗(yàn)證定義的目標(biāo)。
為了確保全面的測(cè)試,你應(yīng)該采用低保真度2D模擬和高保真度3D模擬。前者用于模塊級(jí)行為測(cè)試,后者用于系統(tǒng)級(jí)行為測(cè)試。這允許你在模擬中檢查不同級(jí)別的復(fù)雜性和準(zhǔn)確性。該過程還測(cè)試硬件可用性場(chǎng)景和硬件不可用性場(chǎng)景。這些場(chǎng)景評(píng)估系統(tǒng)或算法在不同硬件條件下的行為和性能,確保在不同環(huán)境下的穩(wěn)健性和適應(yīng)性。
8.優(yōu)先考慮測(cè)試
對(duì)于AI/ML應(yīng)用的測(cè)試與傳統(tǒng)軟件測(cè)試有著很大不同,且存在著一些技術(shù)挑戰(zhàn)。但伴隨著越來(lái)越多AI/ML應(yīng)用的誕生,對(duì)AI/ML應(yīng)用的測(cè)試方法和實(shí)踐也在迅速發(fā)展和逐步完善。
以上便是目前為止對(duì)于AI/ML應(yīng)用的一些有效且合理的測(cè)試方法及思路。如果你的企業(yè)使用或提供人工智能解決方案,你必須優(yōu)先考慮全面的測(cè)試方法,以確保準(zhǔn)確性,安全性和包容性。