資料介紹
提出了一種基于局部孤立系數(shù)(LOC)的孤立點挖掘算法。該算法是對基于局部稀疏系數(shù)(LSC)孤立點挖掘論文中局部稀疏率和局部稀疏系數(shù)計算的一種改進。實驗表明,LOC 算法在發(fā)現(xiàn)孤立點方面比LSC 算法更高效。
孤立點檢測在數(shù)據(jù)挖掘領(lǐng)域是一項重要的挖掘技術(shù)。孤立點檢測的研究對象是數(shù)據(jù)集中
偏離絕大多數(shù)對象的很小一部分數(shù)據(jù)。在許多KDD 應(yīng)用中,研究孤立點比研究聚類更有用、更重要。因為,在某些應(yīng)用領(lǐng)域中研究孤立點的異常行為能發(fā)現(xiàn)隱藏在數(shù)據(jù)集中更有價值的知識。諸如,在欺詐探測中,孤立點可能預(yù)示著欺詐行為;在市場分析中,可用于確定極低或極高的收入的消費行為;在醫(yī)療分析中,用于發(fā)現(xiàn)對多種治療方式的不尋常的反映;因此,孤立點檢測是一個重要的數(shù)據(jù)挖掘任務(wù),稱為孤立點挖掘或異常挖掘。孤立點挖掘可以描述如下:給定一個n 個數(shù)據(jù)點或?qū)ο蟮募希邦A(yù)期的孤立點的數(shù)目k,發(fā)現(xiàn)與剩余的數(shù)據(jù)相比是顯著相異的、異常的或不一致的頭k 個對象[1]。
在數(shù)據(jù)挖掘中,孤立點檢測算法大體上可分為以下幾類:統(tǒng)計學(xué)方法,基于距離的方法,基于偏離的方法和基于密度的方法。
基于密度的方法能夠挖掘出比基于距離異常算法所不能識別的一類異常數(shù)據(jù)—局部異
常。局部異常觀點擯棄了以前所有的異常定義中非此即彼的絕對異常觀念,這更加符合現(xiàn)實生活中的應(yīng)用。近年來,一些研究人員提出局部孤立點探測[2,3,4,5],就是對每個對象賦予某個度,這個度決定了這個對象成為孤立點的程度。每個點的孤立程度只與它和周圍點的距離有關(guān),而與數(shù)據(jù)集中其他的點沒有任何關(guān)系,這就體現(xiàn)了“局部”的特性。局部稀疏系數(shù)(LSC)就是其中一種,Malik Agyemang 提出的基于局部稀疏系數(shù) (LSC)孤立點挖掘[4]算法的主要思想是對數(shù)據(jù)集中每個對象,計算出離它最近K 個對象的距離,并從中選出最大的距離作為該點的K-距離,對數(shù)據(jù)集中每個對象計算出與它的距離不大于該對象K-距離的鄰近對象形成一個集合,然后計算每個對象與其對應(yīng)集合的所有對象之間平均距離的反比,即局部稀疏率,最后計算集合內(nèi)所有對象的局部稀疏率之和與該點的局部稀疏率比值的平均比率,即局部稀疏系數(shù)(LSC);根據(jù)每個對象的LSC 值從大到小的順序排列整個數(shù)據(jù)集,并把前n 個對象作為孤立點。
在局部稀疏系數(shù)(LSC)算法中,需要計算數(shù)據(jù)集中每個對象的局部稀疏率和局部稀疏
系數(shù),當(dāng)數(shù)據(jù)集很大時,計算每個對象的局部稀疏率和局部稀疏系數(shù)耗費很大的計算量。本文提出了基于局部孤立系數(shù)(LOC)孤立點算法,它是對LSC 算法的改進,LOC 算法的主要思想是:對于數(shù)據(jù)集中每個點,計算出離它最近K 個對象的距離并選出其中最大距離作為該點的K-距離,并把最近K 個距離的和作為該點的局部距離之和;然后計算每個點的局部距離之和與它K-距離內(nèi)每個對象的局部距離之和的總和平均值的比率(LOC)作為該點的孤立因子,按LOC 值從大到小的順序選出前n 個作為孤立點。本文給出了LSC 算法和LOC 算法的實驗結(jié)果,實驗結(jié)果表明LOC 算法在發(fā)現(xiàn)孤立點方面比LSC 算法效率高。
孤立點檢測在數(shù)據(jù)挖掘領(lǐng)域是一項重要的挖掘技術(shù)。孤立點檢測的研究對象是數(shù)據(jù)集中
偏離絕大多數(shù)對象的很小一部分數(shù)據(jù)。在許多KDD 應(yīng)用中,研究孤立點比研究聚類更有用、更重要。因為,在某些應(yīng)用領(lǐng)域中研究孤立點的異常行為能發(fā)現(xiàn)隱藏在數(shù)據(jù)集中更有價值的知識。諸如,在欺詐探測中,孤立點可能預(yù)示著欺詐行為;在市場分析中,可用于確定極低或極高的收入的消費行為;在醫(yī)療分析中,用于發(fā)現(xiàn)對多種治療方式的不尋常的反映;因此,孤立點檢測是一個重要的數(shù)據(jù)挖掘任務(wù),稱為孤立點挖掘或異常挖掘。孤立點挖掘可以描述如下:給定一個n 個數(shù)據(jù)點或?qū)ο蟮募希邦A(yù)期的孤立點的數(shù)目k,發(fā)現(xiàn)與剩余的數(shù)據(jù)相比是顯著相異的、異常的或不一致的頭k 個對象[1]。
在數(shù)據(jù)挖掘中,孤立點檢測算法大體上可分為以下幾類:統(tǒng)計學(xué)方法,基于距離的方法,基于偏離的方法和基于密度的方法。
基于密度的方法能夠挖掘出比基于距離異常算法所不能識別的一類異常數(shù)據(jù)—局部異
常。局部異常觀點擯棄了以前所有的異常定義中非此即彼的絕對異常觀念,這更加符合現(xiàn)實生活中的應(yīng)用。近年來,一些研究人員提出局部孤立點探測[2,3,4,5],就是對每個對象賦予某個度,這個度決定了這個對象成為孤立點的程度。每個點的孤立程度只與它和周圍點的距離有關(guān),而與數(shù)據(jù)集中其他的點沒有任何關(guān)系,這就體現(xiàn)了“局部”的特性。局部稀疏系數(shù)(LSC)就是其中一種,Malik Agyemang 提出的基于局部稀疏系數(shù) (LSC)孤立點挖掘[4]算法的主要思想是對數(shù)據(jù)集中每個對象,計算出離它最近K 個對象的距離,并從中選出最大的距離作為該點的K-距離,對數(shù)據(jù)集中每個對象計算出與它的距離不大于該對象K-距離的鄰近對象形成一個集合,然后計算每個對象與其對應(yīng)集合的所有對象之間平均距離的反比,即局部稀疏率,最后計算集合內(nèi)所有對象的局部稀疏率之和與該點的局部稀疏率比值的平均比率,即局部稀疏系數(shù)(LSC);根據(jù)每個對象的LSC 值從大到小的順序排列整個數(shù)據(jù)集,并把前n 個對象作為孤立點。
在局部稀疏系數(shù)(LSC)算法中,需要計算數(shù)據(jù)集中每個對象的局部稀疏率和局部稀疏
系數(shù),當(dāng)數(shù)據(jù)集很大時,計算每個對象的局部稀疏率和局部稀疏系數(shù)耗費很大的計算量。本文提出了基于局部孤立系數(shù)(LOC)孤立點算法,它是對LSC 算法的改進,LOC 算法的主要思想是:對于數(shù)據(jù)集中每個點,計算出離它最近K 個對象的距離并選出其中最大距離作為該點的K-距離,并把最近K 個距離的和作為該點的局部距離之和;然后計算每個點的局部距離之和與它K-距離內(nèi)每個對象的局部距離之和的總和平均值的比率(LOC)作為該點的孤立因子,按LOC 值從大到小的順序選出前n 個作為孤立點。本文給出了LSC 算法和LOC 算法的實驗結(jié)果,實驗結(jié)果表明LOC 算法在發(fā)現(xiàn)孤立點方面比LSC 算法效率高。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 解決辦法:虛擬機狀態(tài)顯示孤立的,打開電源失敗
- 集成流挖掘和圖挖掘的內(nèi)網(wǎng)異常檢測方法 7次下載
- 如何使用MATLAB進行語音識別算法研究的論文資料免費下載 45次下載
- 自適應(yīng)局部均值的EMD方法 0次下載
- 含高滲透率光伏電源的孤立電網(wǎng)機組組合 0次下載
- 孤立微電網(wǎng)分布式二級功率優(yōu)化控制 11次下載
- 基于神經(jīng)網(wǎng)絡(luò)的漢語孤立詞語音識別_朱淑琴 0次下載
- 柔性直流輸電改善孤立電網(wǎng)穩(wěn)定性的研究 21次下載
- 基于TMS320C6711 DSP的非特定人、孤立詞語音識別
- 基于片上系統(tǒng)SoC的孤立詞語音識別算法設(shè)計
- 基于片上系統(tǒng)SoC的孤立詞語音識別算法設(shè)計
- 稅務(wù)系統(tǒng)信息集成的研究和實現(xiàn)
- 基于灰色關(guān)聯(lián)分析的孤立點挖掘算法
- 工程熱力學(xué)試卷試題-華南理工大學(xué)2004年研究生入學(xué)考試試卷
- 基于平均密度的孤立點檢測研究
- HDJF局部放電的測試方法探究 1.2k次閱讀
- 硅導(dǎo)熱系數(shù)的基本特性和影響因素 3.6k次閱讀
- 開關(guān)電容加法器的電路詳解 3.3k次閱讀
- 噪聲系數(shù)是什么?噪聲系數(shù)在系統(tǒng)中的應(yīng)用有哪些? 7.7k次閱讀
- 數(shù)字PLL孤立頻點失鎖是什么原因?又應(yīng)該怎么解決呢? 3.5k次閱讀
- 通過RepSurf點云結(jié)構(gòu)實現(xiàn)多項任務(wù)SOTA 2.1k次閱讀
- 局部放電以及為什么應(yīng)該檢測局部放電? 6.5k次閱讀
- 使用STM32實現(xiàn)云連接應(yīng)用的資料概述 4k次閱讀
- 局部放電的定義_局部放電的類型和特點 2.3w次閱讀
- 局部放電的危害_局部放電產(chǎn)生原因 1.3w次閱讀
- 熱擴散系數(shù)的定義及測量 1.9w次閱讀
- 梯度下降兩大痛點:陷入局部極小值和過擬合 2.1w次閱讀
- 怎么學(xué)習(xí)數(shù)據(jù)挖掘_如何系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘 6.7k次閱讀
- 什么叫數(shù)據(jù)挖掘_數(shù)據(jù)挖掘技術(shù)解析 2w次閱讀
- 基于Matlab的孤立逆變電源設(shè)計方案 4.2k次閱讀
下載排行
本周
- 1MDD品牌三極管MMBT3906數(shù)據(jù)手冊
- 2.33 MB | 次下載 | 免費
- 2MDD品牌三極管S9012數(shù)據(jù)手冊
- 2.62 MB | 次下載 | 免費
- 3聯(lián)想flex2-14D/15D說明書
- 4.92 MB | 次下載 | 免費
- 4收音環(huán)繞擴音機 AVR-1507手冊
- 2.50 MB | 次下載 | 免費
- 524Pin Type-C連接器設(shè)計報告
- 1.06 MB | 次下載 | 免費
- 6新一代網(wǎng)絡(luò)可視化(NPB 2.0)
- 3.40 MB | 次下載 | 免費
- 7MS1000TA 超聲波測量模擬前端芯片技術(shù)手冊
- 0.60 MB | 次下載 | 免費
- 8MS1022高精度時間測量(TDC)電路數(shù)據(jù)手冊
- 1.81 MB | 次下載 | 免費
本月
- 1愛華AIWA HS-J202維修手冊
- 3.34 MB | 37次下載 | 免費
- 2PC5502負載均流控制電路數(shù)據(jù)手冊
- 1.63 MB | 23次下載 | 免費
- 3NB-IoT芯片廠商的資料說明
- 0.31 MB | 22次下載 | 1 積分
- 4H110主板CPU PWM芯片ISL95858HRZ-T核心供電電路圖資料
- 0.63 MB | 6次下載 | 1 積分
- 5UWB653Pro USB口測距通信定位模塊規(guī)格書
- 838.47 KB | 5次下載 | 免費
- 6技嘉H110主板IT8628E_BX IO電路圖資料
- 2.61 MB | 4次下載 | 1 積分
- 7蘇泊爾DCL6907(即CHK-S007)單芯片電磁爐原理圖資料
- 0.04 MB | 4次下載 | 1 積分
- 8100W準諧振反激式恒流電源電路圖資料
- 0.09 MB | 2次下載 | 1 積分
總榜
- 1matlab軟件下載入口
- 未知 | 935137次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計
- 1.48MB | 420064次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233089次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費下載
- 340992 | 191439次下載 | 10 積分
- 5十天學(xué)會AVR單片機與C語言視頻教程 下載
- 158M | 183353次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81602次下載 | 10 積分
- 7Keil工具MDK-Arm免費下載
- 0.02 MB | 73822次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65991次下載 | 10 積分
電子發(fā)燒友App





創(chuàng)作
發(fā)文章
發(fā)帖
提問
發(fā)資料
發(fā)視頻
上傳資料賺積分
評論