世界充滿了數據——由人和計算機生成的圖像、視頻、電子表格、音頻和文本充斥著互聯網,將我們淹沒在信息的海洋中。
傳統(tǒng)上,人類分析數據以做出更明智的決策,并設法調整系統(tǒng)以控制數據模式的變化。然而,隨著傳入信息量的增加,我們理解它的能力下降,給我們帶來了以下挑戰(zhàn):
我們如何使用所有這些數據以自動而非手動的方式推導意義?
這正是機器學習發(fā)揮作用的地方。本文將介紹:
機器學習為我們提供了分析和處理數據以做出準確預測的工具和算法。
這些預測是由機器從一組稱為“訓練數據”的數據中學習模式做出的,它們可以推動進一步的技術發(fā)展,從而改善人們的生活。
一、什么是機器學習
機器學習是一個概念,它允許計算機自動從示例和經驗中學習,并在沒有明確編程的情況下模仿人類的決策。
機器學習是人工智能的一個分支,使用算法和統(tǒng)計技術從數據中學習并從中得出模式和隱藏的見解。
現在,讓我們更深入地探索機器學習的來龍去脈。
二、機器學習算法的關鍵要素
機器學習中有數以萬計的算法,可以根據學習風格或所解決問題的性質進行分組。但每個機器學習算法都包含以下關鍵組件:
以上是機器學習算法的四個組成部分的詳細分類。
機器學習系統(tǒng)的功能
描述性:系統(tǒng)收集歷史數據,對其進行組織,然后以易于理解的方式呈現。
主要重點是掌握企業(yè)中已經發(fā)生的事情,而不是從其發(fā)現中得出推論或預測。描述性分析使用簡單的數學和統(tǒng)計工具,例如算術、平均值和百分比,而不是預測性和規(guī)范性分析所需的復雜計算。
預測性:描述性分析側重于分析歷史數據并從中得出推論,而預測性分析側重于預測和理解未來可能發(fā)生的事情。
通過查看歷史數據來分析過去的數據模式和趨勢可以預測未來可能發(fā)生的事情。
規(guī)范性:描述性分析告訴我們過去發(fā)生了什么,而預測性分析告訴我們通過從過去學習未來可能發(fā)生的事情。但是,一旦我們對可能發(fā)生的事情有了洞察力,應該做什么呢?
這就是規(guī)范性分析。它幫助系統(tǒng)使用過去的知識對一個人可以采取的行動提出多項建議。規(guī)范性分析可以模擬場景并提供實現預期結果的途徑。
三、機器學習是如何工作的
ML算法的學習可以分為三個主要部分。
決策過程
機器學習模型旨在從數據中學習模式并應用這些知識進行預測。問題是:模型如何進行預測?
這個過程非?;A——從輸入數據(標記或未標記)中找到模式并應用它來得出結果。
誤差函數
機器學習模型旨在將自己做出的預測與基本事實進行比較。目標是了解它是否在朝著正確的方向學習。這決定了模型的準確性,并暗示了我們如何改進模型的訓練。
模型優(yōu)化過程
該模型的最終目標是改進預測,這意味著減少已知結果與相應模型估計之間的差異。
該模型需要通過不斷更新權重來更好地適應訓練數據樣本。該算法循環(huán)工作,評估和優(yōu)化結果,更新權重,直到獲得關于模型準確性的最大值。
機器學習方法的類型
機器學習主要包括四種類型。
1.監(jiān)督機器學習
在監(jiān)督學習中,顧名思義,機器在指導下學習。
這是通過向計算機提供一組標記數據來完成的,以使機器了解輸入的內容以及輸出應該是什么。在這里,人類充當向導,為模型提供帶標簽的訓練數據(輸入-輸出對),機器從中學習模式。
一旦從以前的數據集中學習了輸入和輸出之間的關系,機器就可以輕松地預測新數據的輸出值。
我們可以在哪里使用監(jiān)督學習?
答案是:在我們知道在輸入數據中查看什么以及我們想要什么作為輸出的情況下。
監(jiān)督學習問題的主要類型包括回歸和分類問題。
2. 無監(jiān)督機器學習
無監(jiān)督學習的工作方式與監(jiān)督學習的工作方式恰恰相反。
它使用未標記的數據——機器必須理解數據,找到隱藏的模式并做出相應的預測。
在這里,機器在獨立地從數據中推導出隱藏模式后為我們提供新發(fā)現,而無需人工指定要尋找的內容。
無監(jiān)督學習問題的主要類型包括聚類和關聯規(guī)則分析。
3.強化學習
強化學習涉及一個代理,該代理通過執(zhí)行操作來學習在環(huán)境中的行為。
根據這些行動的結果,它會提供反饋并調整其未來的路線——對于每一個好的動作,代理都會得到積極的反饋,而對于每一個壞的動作,代理都會得到負面的反饋或懲罰。
強化學習在沒有任何標記數據的情況下進行學習。由于沒有標記數據,代理只能根據自己的經驗進行學習。
4.半監(jiān)督學習
半監(jiān)督是監(jiān)督和無監(jiān)督學習之間的狀態(tài)。
它從每個學習中獲取積極的方面,即它使用較小的標記數據集來指導分類,并從較大的未標記數據集中執(zhí)行無監(jiān)督特征提取。
使用半監(jiān)督學習的主要優(yōu)點是它能夠在沒有足夠的標記數據來訓練模型時解決問題,或者當數據根本無法標記時因為人類不知道要在其中尋找什么。
四、6個真實世界的機器學習應用
如今,機器學習幾乎是所有科技公司的核心,包括谷歌或 Youtube 搜索引擎等企業(yè)。
下面,匯總了一些您可能熟悉的機器學習在現實生活中的應用示例:
自動駕駛汽車
車輛在道路上會遇到各種各樣的情況。
為了讓自動駕駛汽車比人類表現更好,它們需要學習并適應不斷變化的路況和其他車輛的行為。
自動駕駛汽車從傳感器和攝像頭收集周圍環(huán)境的數據,然后對其進行解釋并做出相應的反應。它使用監(jiān)督學習識別周圍物體,使用無監(jiān)督學習識別其他車輛的模式,并最終在強化算法的幫助下采取相應的行動。
圖像分析和物體檢測
圖像分析用于從圖像中提取不同的信息。
它在檢查制造缺陷、分析智能城市的汽車交通或像谷歌鏡頭這樣的視覺搜索引擎等領域得到應用。
主要思想是使用深度學習技術從圖像中提取特征,然后將這些特征應用于對象檢測。
客戶服務聊天機器人
如今,公司使用 AI 聊天機器人來提供客戶支持和銷售的情況非常普遍。AI 聊天機器人通過提供 24/7 支持幫助企業(yè)處理大量客戶查詢,從而降低支持成本并帶來額外收入和滿意的客戶。
AI 機器人技術使用自然語言處理 (NLP) 來處理文本、提取查詢關鍵字并做出相應響應。
醫(yī)學成像和診斷
事實是這樣的:醫(yī)學影像數據既是最豐富的信息來源,也是最復雜的信息來源之一。
手動分析數以千計的醫(yī)學圖像是一項乏味的工作,并且浪費病理學家可以更有效地利用的寶貴時間。
但這不僅僅是節(jié)省時間——肉眼可能看不到偽影或結節(jié)等小特征,從而導致疾病診斷延遲和錯誤預測。這就是為什么使用涉及神經網絡的深度學習技術(可用于從圖像中提取特征)具有如此大的潛力。
欺詐識別
隨著電子商務領域的擴張,我們可以觀察到在線交易數量的增加和可用支付方式的多樣化。不幸的是,有些人利用了這種情況。當今世界的欺詐者非常熟練,可以非常迅速地采用新技術。
這就是為什么我們需要一個能夠分析數據模式、做出準確預測并響應在線網絡安全威脅(如虛假登錄嘗試或網絡釣魚攻擊)的系統(tǒng)。
例如,根據您過去購買的地點或您在線的時間,防欺詐系統(tǒng)可以發(fā)現購買是否合法。同樣,他們可以檢測是否有人試圖在網上或電話中冒充您。
推薦算法
推薦算法的這種相關性基于對歷史數據的研究,并取決于幾個因素,包括用戶偏好和興趣。
京東或抖音等公司使用推薦系統(tǒng)為用戶/買家策劃和展示相關內容或產品。
五、機器學習的挑戰(zhàn)和局限性
欠擬合和過擬合
在大多數情況下,任何機器學習算法性能不佳的原因都是由于欠擬合和過擬合。
讓我們在訓練機器學習模型的背景下分解這些術語。
由于該模型的靈活性很小,因此無法預測新的數據點。換句話說,它過于關注給出的例子,無法看到更大的圖景。
欠擬合和過擬合的原因是什么?
更一般的情況包括用于訓練的數據不干凈并且包含大量噪聲或垃圾值,或者數據的大小太小的情況。但是,還有一些更具體的原因。
讓我們來看看那些。
欠擬合的發(fā)生可能是因為:
在以下情況下可能會發(fā)生過度擬合:
維數
任何機器學習模型的準確性都與數據集的維度成正比。但它只適用于特定的閾值。
數據集的維度是指數據集中存在的屬性/特征的數量。以指數方式增加維數會導致添加非必需屬性,從而混淆模型,從而降低機器學習模型的準確性。
我們將這些與訓練機器學習模型相關的困難稱為“維數災難”。
數據質量
機器學習算法對低質量的訓練數據很敏感。
由于數據不正確或缺失值導致數據中出現噪聲,數據質量可能會受到影響。即使訓練數據中相對較小的錯誤也會導致系統(tǒng)輸出出現大規(guī)模錯誤。
當算法表現不佳時,通常是由于數據質量問題,例如數量/傾斜/噪聲數據不足或描述數據的特征不足。
因此,在訓練機器學習模型之前,往往需要進行數據清洗以獲得高質量的數據。