AI應(yīng)用如何進(jìn)行測(cè)試？

沃卡惠
行業(yè)資訊
2023-09-05 09:24:01
488

人工智能技術(shù)正在世界范圍內(nèi)以一種前所未有的速度發(fā)展，大量的AI應(yīng)用在短時(shí)間內(nèi)被構(gòu)建出來(lái)，當(dāng)開發(fā)人員正在熱火朝天的追趕進(jìn)度時(shí)，測(cè)試人員也需要及時(shí)跟上這個(gè)時(shí)代的步伐。

值得慶幸的是，隨著人工智能的快速進(jìn)步，測(cè)試、自動(dòng)化和質(zhì)量保證（QA）的新方法也正在出現(xiàn)，為 AI 應(yīng)用程序測(cè)試打開了新的大門。測(cè)試人員該如何在現(xiàn)在與將來(lái)測(cè)試AI和ML應(yīng)用程序？以下是你應(yīng)當(dāng)了解的一些主要方法。

1.數(shù)據(jù)質(zhì)量測(cè)試

數(shù)據(jù)測(cè)試環(huán)節(jié)需要使用基準(zhǔn)來(lái)評(píng)估數(shù)據(jù)的狀態(tài)，雖然每家公司的目標(biāo)可能有所不同，但高質(zhì)量的數(shù)據(jù)通常是AI應(yīng)用的最核心要求：

無(wú)誤差：所使用的數(shù)據(jù)沒有結(jié)構(gòu)和格式的任何問題。

合并：數(shù)據(jù)在一個(gè)集中式系統(tǒng)中得到保護(hù)，而不是分散在多個(gè)系統(tǒng)中。

唯一性：數(shù)據(jù)不重復(fù)。

實(shí)時(shí)性：信息是及時(shí)和相關(guān)的。

準(zhǔn)確性：提供準(zhǔn)確的信息，幫助應(yīng)用做出明智的決策。

測(cè)試數(shù)據(jù)質(zhì)量意味著通過將企業(yè)信息與既定的已知事實(shí)進(jìn)行比較來(lái)識(shí)別標(biāo)記錯(cuò)誤、過時(shí)或不相關(guān)的數(shù)據(jù)。在此級(jí)別的測(cè)試中，它可以像為數(shù)據(jù)集創(chuàng)建數(shù)據(jù)配置文件一樣簡(jiǎn)單，此過程稱為合成數(shù)據(jù)生成。使用此數(shù)據(jù)集的定義驗(yàn)證，公司可以對(duì)其數(shù)據(jù)是否有效進(jìn)行分類，從而衡量其質(zhì)量。

2.偏差測(cè)試

另一個(gè)越來(lái)越受歡迎的重要測(cè)試是偏差測(cè)試。人工智能系統(tǒng)的偏見在很大程度上取決于它收集的數(shù)據(jù)。

例如，2016年的一份報(bào)告發(fā)現(xiàn)亞馬遜偏向于男性IT申請(qǐng)人。當(dāng)這家電子商務(wù)巨頭訓(xùn)練其人工智能機(jī)器人找到最適合這份工作的候選人時(shí)，它使用現(xiàn)有員工的簡(jiǎn)歷作為數(shù)據(jù)庫(kù)，這些數(shù)據(jù)庫(kù)主要是男性。根據(jù)這些信息，他們的人工智能推測(cè)只有男性候選人才能成為最好的IT員工，但事實(shí)并非如此。

為了避免犯同樣的錯(cuò)誤，你應(yīng)該在將算法推送到網(wǎng)上時(shí)進(jìn)行偏差測(cè)試。

早在 2016 年，偏差測(cè)試只是分析需求以建立對(duì)一組輸入的適當(dāng)響應(yīng)的問題。現(xiàn)在，它沒有那么明確。你需要更多種類和更多選擇。你希望創(chuàng)建多個(gè)測(cè)試用例來(lái)考慮所有可能的變量，而不是使用一個(gè)數(shù)據(jù)集僅生成一個(gè)方案。雖然結(jié)果可能并不總是完美的，但它們?nèi)匀惶峁┝艘环N更好、更公平、更全面的方法來(lái)消除偏見和開發(fā)更具包容性的人工智能應(yīng)用。

3.AI 模型評(píng)估與測(cè)試

AI 模型評(píng)估和測(cè)試可幫助你預(yù)測(cè)分析和評(píng)估的結(jié)果，它涉及三個(gè)步驟：在 AI 測(cè)試的第一階段，收集的數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集包含多達(dá) 75% 的數(shù)據(jù)集，并分配模型權(quán)重和偏差。驗(yàn)證集由訓(xùn)練期間 15% 到 20% 的數(shù)據(jù)組成，以評(píng)估初始準(zhǔn)確性并查看模型如何適應(yīng)、學(xué)習(xí)和微調(diào)超參數(shù)。

在此階段，模型僅考慮驗(yàn)證數(shù)據(jù)，但尚未使用它來(lái)學(xué)習(xí)模型的權(quán)重和偏差。測(cè)試集則占整個(gè)數(shù)據(jù)集的 10% 到 15%。這用于最終評(píng)估，作為一個(gè)受控集，沒有偏見。

測(cè)試過程的第二階段是調(diào)整超參數(shù)。在此階段，開發(fā)人員可以控制訓(xùn)練算法的行為，并根據(jù)第一階段的結(jié)果調(diào)整參數(shù)。在人工智能和深度學(xué)習(xí)的背景下，可能的超參數(shù)可能包括學(xué)習(xí)率、卷積核寬度、隱藏單元數(shù)量、正則化技術(shù)等。

最后，執(zhí)行批量規(guī)范化涉及兩種技術(shù)：規(guī)范化和標(biāo)準(zhǔn)化，以便在訓(xùn)練準(zhǔn)備期間以相同的比例轉(zhuǎn)換數(shù)據(jù)。一旦AI模型經(jīng)過充分的訓(xùn)練、微調(diào)和標(biāo)準(zhǔn)化，就應(yīng)該通過混淆矩陣、AUC ROC、F1分?jǐn)?shù)和其他精度/準(zhǔn)確度指標(biāo)來(lái)衡量其性能。經(jīng)歷這一嚴(yán)格的過程對(duì)于了解你的算法執(zhí)行的有效性和準(zhǔn)確性至關(guān)重要。

4.安全測(cè)試

測(cè)試你的AI應(yīng)用程序的安全性需要結(jié)合傳統(tǒng)的安全性測(cè)試方法和特定于AI系統(tǒng)的考慮。從以下幾點(diǎn)開始考慮:

確定安全目標(biāo)和風(fēng)險(xiǎn):確定與AI應(yīng)用程序相關(guān)的安全目標(biāo)和潛在風(fēng)險(xiǎn)?？紤]數(shù)據(jù)隱私、模型完整性、對(duì)抗性攻擊和對(duì)輸入變化的魯棒性等方面。這一步將有助于形成你的測(cè)試策略。

數(shù)據(jù)安全性:評(píng)估用于訓(xùn)練、驗(yàn)證和推斷的數(shù)據(jù)安全性。評(píng)估數(shù)據(jù)隱私、存儲(chǔ)、處理實(shí)踐和訪問控制。確保敏感數(shù)據(jù)得到適當(dāng)保護(hù)，并遵守隱私法規(guī)。

系統(tǒng)架構(gòu)和基礎(chǔ)設(shè)施:分析人工智能應(yīng)用程序的架構(gòu)和基礎(chǔ)設(shè)施?？紤]安全性方面，如身份驗(yàn)證、授權(quán)和加密。驗(yàn)證在系統(tǒng)的設(shè)計(jì)和實(shí)施中是否遵循了安全最佳實(shí)踐。

輸入驗(yàn)證和凈化:注意輸入驗(yàn)證和凈化機(jī)制。驗(yàn)證應(yīng)用程序是否正確處理輸入數(shù)據(jù)，以防止常見的漏洞，如注入攻擊或緩沖區(qū)溢出。

第三方組件:評(píng)估AI應(yīng)用程序中使用的任何第三方庫(kù)、框架或組件的安全性。確保它們是最新的，沒有已知的漏洞，并且配置正確。

文件和報(bào)告:記錄你的發(fā)現(xiàn)、建議和測(cè)試結(jié)果。創(chuàng)建全面的安全測(cè)試報(bào)告，概述已識(shí)別的漏洞、風(fēng)險(xiǎn)和緩解措施。

5.性能和可擴(kuò)展性測(cè)試

要對(duì)AI應(yīng)用進(jìn)行性能測(cè)試，需要全面了解應(yīng)用的架構(gòu)、組件和數(shù)據(jù)流至關(guān)重要。容量測(cè)試、耐久性測(cè)試和壓力測(cè)試是最重要的性能測(cè)試類型，必須在AI應(yīng)用程序上執(zhí)行，以評(píng)估其性能和可擴(kuò)展性。

這可以通過不同的測(cè)試數(shù)據(jù)來(lái)實(shí)現(xiàn)，包括大的和小的測(cè)試數(shù)據(jù)集，因?yàn)榇罅康臏y(cè)試數(shù)據(jù)會(huì)占用更多的計(jì)算資源。此外，硬件資源的并行監(jiān)控有助于設(shè)置正確的配置，以支持人工智能應(yīng)用程序的預(yù)期用戶請(qǐng)求。

6.聊天機(jī)器人測(cè)試

隨著聊天機(jī)器人在人工智能應(yīng)用中越來(lái)越受歡迎，確保這些機(jī)器人向用戶提供的信息是準(zhǔn)確的至關(guān)重要。如果你的企業(yè)使用聊天機(jī)器人的功能，你必須測(cè)試聊天機(jī)器人的功能和非功能組件。

領(lǐng)域測(cè)試:聊天機(jī)器人旨在處理特定的領(lǐng)域或主題。領(lǐng)域測(cè)試包括在與其指定領(lǐng)域相關(guān)場(chǎng)景中徹底測(cè)試聊天機(jī)器人。這確保聊天機(jī)器人理解并準(zhǔn)確響應(yīng)其預(yù)期范圍內(nèi)的查詢。

極限測(cè)試:極限測(cè)試評(píng)估聊天機(jī)器人如何處理不適當(dāng)或意外的用戶輸入。這包括測(cè)試聊天機(jī)器人對(duì)無(wú)效或無(wú)意義問題的反應(yīng)，并在聊天機(jī)器人遇到故障或錯(cuò)誤時(shí)識(shí)別結(jié)果。極限測(cè)試有助于發(fā)現(xiàn)潛在的漏洞，并改善錯(cuò)誤處理和用戶體驗(yàn)。

對(duì)話因素:聊天機(jī)器人依靠對(duì)話流來(lái)提供有意義和引人入勝的互動(dòng)。驗(yàn)證不同的對(duì)話流對(duì)于評(píng)估聊天機(jī)器人在各種場(chǎng)景下的響應(yīng)至關(guān)重要。這包括評(píng)估聊天機(jī)器人理解用戶意圖、處理對(duì)話中的多個(gè)回合以及提供相關(guān)和連貫響應(yīng)的能力。評(píng)估對(duì)話因素有助于優(yōu)化聊天機(jī)器人的對(duì)話技能，并增強(qiáng)用戶體驗(yàn)。

7.機(jī)器人測(cè)試

機(jī)器人測(cè)試需要模擬真實(shí)世界的場(chǎng)景，并評(píng)估這些場(chǎng)景中系統(tǒng)或算法的行為?；谀M的行為測(cè)試包括算法調(diào)試、對(duì)象檢測(cè)、響應(yīng)測(cè)試和驗(yàn)證定義的目標(biāo)。

為了確保全面的測(cè)試，你應(yīng)該采用低保真度2D模擬和高保真度3D模擬。前者用于模塊級(jí)行為測(cè)試，后者用于系統(tǒng)級(jí)行為測(cè)試。這允許你在模擬中檢查不同級(jí)別的復(fù)雜性和準(zhǔn)確性。該過程還測(cè)試硬件可用性場(chǎng)景和硬件不可用性場(chǎng)景。這些場(chǎng)景評(píng)估系統(tǒng)或算法在不同硬件條件下的行為和性能，確保在不同環(huán)境下的穩(wěn)健性和適應(yīng)性。

8.優(yōu)先考慮測(cè)試

對(duì)于AI/ML應(yīng)用的測(cè)試與傳統(tǒng)軟件測(cè)試有著很大不同，且存在著一些技術(shù)挑戰(zhàn)。但伴隨著越來(lái)越多AI/ML應(yīng)用的誕生，對(duì)AI/ML應(yīng)用的測(cè)試方法和實(shí)踐也在迅速發(fā)展和逐步完善。

以上便是目前為止對(duì)于AI/ML應(yīng)用的一些有效且合理的測(cè)試方法及思路。如果你的企業(yè)使用或提供人工智能解決方案，你必須優(yōu)先考慮全面的測(cè)試方法，以確保準(zhǔn)確性，安全性和包容性。

上一篇：人工智能助力衛(wèi)星地圖提升清晰度，展示全球可再生能源項(xiàng)目和森林覆蓋率

下一篇：如何應(yīng)對(duì)醫(yī)療領(lǐng)域的數(shù)字化顛覆和創(chuàng)新