通過理解機器學習算法的功能,工程師可以為他們的應用生成有效的軟傳感器。
軟傳感器(soft sensor),也稱為虛擬傳感器,是一種可以綜合處理數(shù)百個測量數(shù)據(jù)的軟件。想要添加軟傳感器的工廠管理者可能會對使軟傳感器工作的機器學習的范圍感到不知所措。然而,深入了解這個主題會發(fā)現(xiàn),其實大多數(shù)軟傳感器設(shè)計背后都離不開幾種核心算法。
雖然這些模型的選擇、訓練和實施很多時候是數(shù)據(jù)科學家的工作,但工廠管理者和其他運營專家也會希望熟悉它們的功能。
理解軟傳感器
軟傳感器是在軟件環(huán)境中創(chuàng)建的,但可以提供與現(xiàn)實世界中的對應物相同的好處。在某些情況下,軟傳感器可能比真實的傳感器更受歡迎。
因此,運營專家和數(shù)據(jù)科學家應該合作設(shè)計軟傳感器,原因有很多。其中一個原因是對于特定結(jié)果所需的關(guān)鍵參數(shù)進行實時或近實時測量的渴望。這些測量對于提高整體性能至關(guān)重要。
軟傳感器的其他用例包括:
工廠人員短缺。一些過程需要實驗室人員對特定物理或化學屬性的參數(shù)進行取樣或分析。這些可能包括粘度、分子量和組成。當沒有足夠的人員進行測量時,可以使用軟傳感器來估計這些值。
冗余傳感器。在惡劣環(huán)境中,傳感器被污染可能時有發(fā)生。軟傳感器可以提供數(shù)字傳感器的讀數(shù),直到數(shù)字傳感器可以被替換,以保持流程的持續(xù)進行。
額外的傳感器。有時可能需要更多的傳感器,或者某個過程缺乏自己的傳感器。在這些情況下,軟傳感器可以模仿一個擁有所有正確傳感器的相同資產(chǎn)。
機器學習模型的主要類型
機器學習練習遵循一個循環(huán)模式。首先,數(shù)據(jù)被準備和清洗。接下來,數(shù)據(jù)科學家將選擇一個算法作為模型的基礎(chǔ)。然后,數(shù)據(jù)科學家將開始使用未經(jīng)處理或預處理的時間序列和上下文數(shù)據(jù)訓練模型。最后,模型被測試和部署。然后過程再次開始,以改進模型。
一般來說,有兩種主要類型的模型可供選擇:
監(jiān)督模型,需要標記的數(shù)據(jù)集與其它變量進行比較。
無監(jiān)督模型,主要用于描述多個變量之間的關(guān)系。
在這些模型中,監(jiān)督模型是開發(fā)軟傳感器或創(chuàng)建預測標簽的更好選擇。盡管有數(shù)百種監(jiān)督機器學習模型,但只有少數(shù)——來自被稱為回歸算法的類別——對于創(chuàng)建軟傳感器是有用的。以下是每種模型的描述:
線性回歸
這是創(chuàng)建軟傳感器最有用和最簡單的方法之一。然而,某些過程,如測量聚合物的粘度,對于線性回歸來說太復雜了。這個算法生成一個函數(shù),預測目標變量的值。它是作為一組一個或多個變量的線性組合的函數(shù)。當使用一個變量時,它被稱為單變量線性回歸。多個變量賦予它多元線性回歸的名稱。使用這個模型的好處在于其清晰性。很容易確定哪些變量對目標的影響最大。這被稱為特征重要性。
決策樹
理論上,決策樹可以擁有它們需要的任意多的規(guī)則和分支來適應數(shù)據(jù)。它們使用這些規(guī)則來自獨立變量,稱為一組特征。結(jié)果是目標值的分段常量估計。因為它們可以有很多規(guī)則和分支,所以它們可以非常靈活。
另一方面,它們也存在過擬合數(shù)據(jù)的風險。過擬合發(fā)生在模型訓練時間過長時。這使得模型開始適應數(shù)據(jù)集中的噪聲,并開始將其視為正常。欠擬合數(shù)據(jù)也可能發(fā)生。在這種情況下,算法訓練不夠長,因此沒有足夠的數(shù)據(jù)來確定獨立變量可能如何與目標變量相關(guān),或者它們可能對目標變量有什么影響。
過擬合和欠擬合數(shù)據(jù)都會導致模型失敗。模型再也不能處理新數(shù)據(jù),也不能用于軟傳感器。過擬合和欠擬合數(shù)據(jù)的概念不是決策樹模型獨有的。
隨機森林
這本質(zhì)上是一個模型中多個決策樹模型的組合。它提供了更多的靈活性,允許更多的特征,并且給出了更強的預測能力。然而,它也帶來了過擬合數(shù)據(jù)的高風險。
梯度提升
在機器學習中,梯度提升通常被稱為集成模型。像隨機森林一樣,梯度提升結(jié)合了多個決策樹。但它的不同之處在于,它優(yōu)化每棵樹以最小化最后計算的損失函數(shù)。這些模型可以非常有效,但隨著時間的推移,它們變得更難以解釋。
神經(jīng)網(wǎng)絡(luò)
所謂的深度學習是一個神經(jīng)網(wǎng)絡(luò)回歸模型的概念。這個模型接受輸入變量,并在應用于回歸問題時,為目標變量生成一個值。最基本的神經(jīng)網(wǎng)絡(luò)是多層感知器。在這些模型中,只使用單一的神經(jīng)元排列。更常見的是,神經(jīng)網(wǎng)絡(luò)將具有一個輸入層、一個或多個隱藏層(每個都有許多神經(jīng)元)和一個輸出層來獲取值。
隱藏層中每個神經(jīng)元內(nèi)的加權(quán)輸入值被相加,并通過激活函數(shù)(如Sigmoid函數(shù))傳遞。這個函數(shù)使模型非線性。一旦函數(shù)通過模型,它就到達包含單個神經(jīng)元的輸出層。在訓練模型時,確定最適合特征和目標值的權(quán)重和偏差。
協(xié)作設(shè)計
對于那些新手來說,一個常見的誤解是會有一個正確的模型適合所有特定的需求。事實并非如此。選擇一個模型而不是另一個,其實是一個復雜的決策,部分基于數(shù)據(jù)科學家的經(jīng)驗。
此外,這些監(jiān)督回歸模型不會每次都產(chǎn)生相同的結(jié)果。因此,不存在“最佳”模型,但有些模型可能更適合某些情況。
任何機器學習練習中的數(shù)據(jù)科學家和運營專家之間的合作都始于對涉及的參數(shù)、目標使用、開發(fā)和部署方法的相互理解。