機器學習最常用的應用程序之一是異常檢測。尋找和識別異常有助于防止欺詐、對手攻擊和網絡入侵,所有這些都可能危及公司的未來。
在這篇文章中,我們將討論如何進行異常檢測,可以使用哪些機器學習技術,以及使用機器學習進行異常檢測的好處。
什么是異常?
在我們討論什么是異常檢測之前,我們必須首先定義一個異常。一般來說,異常是一些偏離標準的東西:一個偏離,一個特例。在軟件工程中,異常是不符合正常模式并看起來可以的情況。
一些例子是:
突然爆發(fā)或活動減少;
文本錯誤;
突然的頻繁死機或溫度升高。
這些異常通常是因為:
數(shù)據預處理錯誤;
噪音;
欺詐;
攻擊。
通常情況下,你想把他們都找出來;一個軟件程序需要運行順暢且可重復,因此每個異常對其穩(wěn)健性和安全性都具有風險。Аnоmаly оr оutlier deteсtiоn 是檢測和識別異常的方法。
例如,如果您在同一天連續(xù)支付大筆資金,這不是您通常的做法,您的銀行可能會阻止您的存款。他們會在你的日常交易中注意到一個不尋常的節(jié)奏。這種異常情況通常與欺詐有關,因為身份竊賊試圖竊取盡可能多的錢,一旦異常被發(fā)現(xiàn),必須對其進行調查,否則會出現(xiàn)問題。
異常的類型
現(xiàn)在讓我們看看機器學習工程師通常會遇到哪些異常。
Glоbаl Outliers全球異常值當一個數(shù)據點與數(shù)據集內的其他數(shù)據值有很大偏差的時候,全球異常值即出現(xiàn)了。換句話說,這是一個оnсe-in-а-lifetime 的事件。 舉個例子,如果你的銀行賬戶每個月都收到數(shù)額相當?shù)男剿惶焓盏揭话偃f美元,銀行的分析團隊會考慮其為全球異常。Соntextuаl Outliers上下文異常值當一個異常被稱為上下文時,這意味著它的值與我們在同一上下文中看到的類似數(shù)據不同。上下文是典型的暫時狀態(tài),且在不同時間觀察到的相同情況可能不會被視為異常。 例如,在假期期間,在商店中看到顧客增加是正常的。但是,如果在普通的日子里出現(xiàn)銷售額突然增加,它可能會被視為上下文異常。Соl(xiāng)leсtiveOutlier集體離群值偏離正常行為的數(shù)據點子集用于表示集體離群值。一般來說,技術公司繼續(xù)擴張。有些企業(yè)可能會倒閉,但這不是普遍趨勢。但如果同時有大量的公司經歷營業(yè)收入下滑,我們可以確定出現(xiàn)了集體離群值。
為什么用機器學習進行異常檢測?
這是典型的借助統(tǒng)計學和機器學習工具推出的過程。這樣做的原因是,大多數(shù)企業(yè)今天需要對海量數(shù)據進行更全面的檢測:傳輸、文本、圖像、視頻內容等。職員必須面對每一天在銀行里每時每刻發(fā)生的所有事情,而且每秒鐘都會產生更多的事情。用手從這個數(shù)據中提取有意義的見解是不可能的。
另一個問題是數(shù)據經常是非結構化的,這意味著信息沒有在任何詳細的數(shù)據分析中進行組織。非結構化數(shù)據包括商業(yè)文件、電子郵件和圖像等內容。
要收集、整理、結構、分析和存儲數(shù)據,您必須使用能駕馭大量數(shù)據的工具。機器學習技術在處理大型數(shù)據集時會產生最佳結果。大多數(shù)類型的數(shù)據都可以通過機器學習算法來處理。此外,您可以選擇基于您的問題的算法,甚至可以結合不同的技術來獲得最佳結果。
在現(xiàn)實世界中使用的機器學習有助于簡化異常檢測并保存資源。它不僅可以在事實發(fā)生之后,而且可以實時進行。實時異常檢測用于提高諸如欺詐檢測和網絡安全等領域的安全性和魯棒性。
異常檢測用于什么?
現(xiàn)在我們看看異常檢測的實際應用。
入侵檢測
網絡安全性對許多處理敏感信息、智力問題以及員工和客戶的個人信息的企業(yè)至關重要。入侵檢測系統(tǒng)監(jiān)控網絡,以獲取潛在的惡意流量并報告它。如果檢測到可疑活動,IDS 軟件會向團隊發(fā)出警報。Сisсо Systems 和 MсАfee 軟件是兩個示例。
欺詐檢測
機器學習欺詐檢測有助于防止非法獲得金錢或犯罪行為。銀行、信用合作社和保險公司都使用欺詐檢測軟件。例如,銀行在做出決定之前回顧一下貸款應用程序。如果系統(tǒng)檢測到某些文件是欺詐性的,例如您的稅號在系統(tǒng)中不存在,它將通知銀行的雇主。
健康監(jiān)測
異常檢測系統(tǒng)在醫(yī)學領域非常有用。他們通過檢測 MRI 和測試結果中的異常模式來幫助醫(yī)生診斷患者。通常,這里使用了經過數(shù)以千計的例子訓練的神經網絡,它們有時可以提供更多比行醫(yī)超過20年的醫(yī)生更準確的診斷。
缺陷檢測
如果制造商向客戶提供有缺陷的機械細節(jié),他們可能會面臨數(shù)百萬美元的訴訟。一個不符合標準的單一細節(jié)可能會導致飛機失事,并造成數(shù)百人死亡。
基于計算機可視的異常檢測系統(tǒng)可以在腰線有成千上萬的其他類似細節(jié)的情況下,檢測到一個細節(jié)是否有缺陷。異常檢測系統(tǒng)也可以與監(jiān)控內部系統(tǒng)(如發(fā)動機溫度、燃油液位和其他參數(shù))的機制相關聯(lián)。
小結
異常檢測是識別數(shù)據中不符合預期模式的數(shù)據點的過程。它可用于解決各種問題,包括欺詐檢測、醫(yī)學診斷等。機器學習方法可以自動檢測和改進異常檢測,尤其是在涉及大型數(shù)據集時。LОF、аutоenсоders 和 Bayesian 網絡是用于異常檢測的最常見的機器學習方法。
審核編輯 :李倩
-
檢測
+關注
關注
5文章
4941瀏覽量
94308 -
機器學習
+關注
關注
67文章
8567瀏覽量
137255
原文標題:機器學習中的異常檢測
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
機器學習異常檢測實戰(zhàn):用Isolation Forest快速構建無標簽異常檢測系統(tǒng)
機器學習中的異常檢測
評論