物聯(lián)網,即“萬物相連的互聯(lián)網”,是互聯(lián)網基礎上的延伸和擴展的網絡,將各種信息傳感設備與互聯(lián)網結合起來而形成的一個巨大網絡,實現(xiàn)在任何時間、任何地點,人、機、物的互聯(lián)互通。
當前物聯(lián)網進展中,從技術發(fā)展趨勢呈現(xiàn)出智能化的特征,從管理應用發(fā)展趨勢呈現(xiàn)標準化的特征。伴隨著物聯(lián)網的應用場景的拓展,會對企業(yè)的自動化、信息化進程產生重要的影響。在物聯(lián)網的應用必然會產生海量數(shù)據,那么我們該如何有效的處理這些海量數(shù)據呢?
什么是數(shù)據處理?
為了理解物聯(lián)網傳感器收集的大量數(shù)據,我們需要對其進行處理。換句話說,數(shù)據處理是對數(shù)據的采集、存儲、檢索、加工、變換和傳輸,目的是將原始數(shù)據轉換為有用的信息。其中,數(shù)據是數(shù)字、符號、字母和各種文字的集合。數(shù)據處理的輸出的是信息,并能以不同的形式呈現(xiàn),例如純文本文件、圖表、電子表格或圖像。
數(shù)據處理過程通常遵循一個由三個基本階段組成的循環(huán):輸入、處理和輸出。
輸入:輸入是數(shù)據處理周期的第一階段,這是一個將收集到的數(shù)據轉換成機器可讀形式以便計算機處理的階段。
處理:在處理階段,計算機將原始數(shù)據轉換成信息。轉換是通過使用不同的數(shù)據操作技術來執(zhí)行的。
輸出:這是處理后的數(shù)據轉換成人類可讀形式并作為有用信息呈現(xiàn)給最終用戶的階段。
那么,數(shù)據處理是如何工作的呢?
數(shù)據處理的方法
物聯(lián)網的大規(guī)模應用會產生海量的數(shù)據,為了減輕系統(tǒng)的負荷,可以對數(shù)據的分級處理和降維處理。分級處理可以有效的減輕系統(tǒng)的負荷;降維處理可以有效的壓縮數(shù)據量,是處理一些數(shù)據必須進行的步驟,并且已在大規(guī)模的圖像處理算法中得到應用。
數(shù)據的分級處理
從信息處理的角度,物聯(lián)網可以分為三個層次:
1.底層是局部區(qū)域的協(xié)同感知。多個同類或異類的傳感器辦同感知被測目標,獲得立體的豐富的感知數(shù)據,通過局部區(qū)域的信息處理和融合,能夠獲得高精度的、可靠的感知信息;2.第二層是傳輸過程中的數(shù)據處理。包括面向無線傳輸網絡狀態(tài)的感知信息的進一步聚合和融合處理,自適應傳輸鏈路狀態(tài)的應用層編碼和傳送協(xié)議優(yōu)化,以及數(shù)據的安全傳輸處理,使得海量信息能夠高效的、可靠和安全的傳輸;3.第三層是應用支撐層上的基于各類物聯(lián)網應用的共性支撐、服務決策、協(xié)調控制等。物聯(lián)網的信息是超大規(guī)模的海量信息,需要利用感知信息具有的時間和空間的關聯(lián)特性,實現(xiàn)不同空間區(qū)域上的多粒度的分級存儲和檢索,提高資源利用率和信息獲取效率。提出一種基于多級數(shù)據處理的嵌人式中間件系統(tǒng)的解決方案,系統(tǒng)集合了數(shù)據過濾、數(shù)據聚合和數(shù)據處理等功能,可在一定程度上提高大型應用系統(tǒng)的整體效率。
數(shù)據的降維處理
隨著信息技術的發(fā)展,特別是物聯(lián)網技術的應用,人們將會不分時間和地點,可以方便的獲得大量的信息,人們獲得的數(shù)據量將以指數(shù)形式快速增長。這些數(shù)據具有快速更新、數(shù)據維數(shù)更高、非結構化等特點。
目前人們對這些數(shù)據的處理還沒有形成相應的有效方法,傳統(tǒng)的數(shù)據分析方法在處理這些數(shù)據集合時,往往效果并不好,甚至在某些情況下失效。蘊含在數(shù)據中的知識和規(guī)律我們無法得知,將會導致數(shù)據災難問題。因此,人們就迫切希望去認識和探索這些數(shù)據之間的奧秘。而如何能有效的利用這些高維數(shù)據是人們面臨的基本問題。
在很多情況下,我們可以首先將數(shù)據的維數(shù)將到一個合理的大小,同時盡可能多的保留原始的信息,然后再將降維處理后的數(shù)據送入信息處理系統(tǒng)。這樣的做法是非常有用的。而降維算法也是一些機器學習、數(shù)據挖掘方法的組成部分。對數(shù)據降維處理,結合一些具體的業(yè)務需求,是一個行之有效對海量數(shù)據進行處理的方法。
降維算法主要分為線性降維算法和非線性降維算法。降維的實質就是尋找投影變換:從高維空間到低維空間變換。現(xiàn)在有一種最小量嵌入算法,在保持局部等距和角度不變的約束條件下,就能很好的揭示數(shù)據內在的流形結構。
數(shù)據處理的注意事項
既然我們已經知道了數(shù)據的分級和降維處理,那么在物聯(lián)網中涉及到這些問題時,有注意事項需要我們了解:
期望的輸出
即使數(shù)據處理周期從輸入階段開始,我們也應該首先考慮想要的輸出。換句話說,我們對什么樣的信息感興趣?一個示例是,在機器的溫度超過閾值時接收警報。
數(shù)據的存儲
一旦我們弄清楚想要的輸出是什么,我們就必須找到一種方法來獲得它。傳感器收集的數(shù)據必須以適當?shù)男问酱鎯?,以便將其轉換為我們正在尋找的信息。
例如,當機器運行時,我們可以定期(例如每10分鐘)接收數(shù)據。我們可能希望利用這些數(shù)據來計算自上次維護以來機器已經運行了多少小時。我們還可以檢測這些數(shù)據中的趨勢,并對何時達到特定的小時數(shù)進行預估(如果使用量保持在相同的水平)。
由于傳感器收集的數(shù)據量可能很大,我們應該購買可擴展的云服務來存儲數(shù)據。此外,我們還應該制定一個數(shù)據保留政策,以便定時清理不必要的數(shù)據。我們擁有的數(shù)據越多,保存的時間越長,存儲數(shù)據的成本就越高。另一方面,更少的數(shù)據意味著更少的見解和歷史參考。因此,我們必須在成本和想要存儲的數(shù)據量之間進行優(yōu)先級排序和平衡。
更新頻率
在執(zhí)行數(shù)據處理之前,重要的是要確定更新頻率和資源消耗(如計算能力、功率)之間的良性平衡。“良性平衡”完全取決于物聯(lián)網用例。
在某些用例中,必須立即知道收集的數(shù)據是如何影響輸出的,然而,這需要實時的數(shù)據處理,這可能非常消耗資源。在其他一些用例中,收集到的數(shù)據,每天處理一次就足夠了。
小結
在物聯(lián)網數(shù)據處理方面,我們正處于一個充滿挑戰(zhàn)的時刻,這個時刻充滿了機遇,也充滿了風險。通過收集、處理和分析物聯(lián)網數(shù)據,消費者和組織可以獲得有價值的見解,幫助他們成長并對未來做出更好的決策。