日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

訓練數(shù)據(jù)的質(zhì)量決定了機器學習算法的上限

TigerGraph ? 來源:TigerGraph ? 作者:TigerGraph ? 2022-11-02 12:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如今,越來越多的企業(yè)正利用圖分析來增強機器學習,今天的隨身聽我們就一起來聊聊圖和機器學習。如果您正從事機器學習相關(guān)的工作,但對圖分析卻不太了解,那么您可以點擊文末的“閱讀原文”,下載完整的《原生并行圖》白皮書,來增強您對圖的了解,從而更好地利用圖來增強機器學習。下面就一起來收聽今天的TigerGraph 隨身聽吧。

我們就以欺詐偵查為例,從許多方面來說,欺詐偵查如同大海撈針。您必須整理并理解海量的數(shù)據(jù),才能找到那根“針”,在本例中是指欺詐者。事實上,越來越多的組織利用機器學習及圖技術(shù)來防止各種類型的欺詐,包括電話詐騙、信用卡退單、廣告、洗錢等。

訓練數(shù)據(jù)的質(zhì)量決定了機器學習算法的上限

在進一步探討機器學習與圖技術(shù)這一強大組合的價值之前,我們先看一下當前基于機器學習的欺詐者識別是如何錯失目標的。

為了偵查某一具體的情況,如從事詐騙的電話或涉嫌洗錢的付款交易,機器學習系統(tǒng)需要足夠數(shù)量的欺詐電話或可能與洗錢相關(guān)的支付交易。下面我們以電話欺詐為例深入分析。

除可能屬于欺詐的電話數(shù)量外,機器學習算法還需要與電話欺詐行為高度相關(guān)的特征或?qū)傩浴?/p>

由于欺詐(與洗錢非常相似)在交易總量中所占的比重不到 0.01% 或萬分之一,因此,存在確認欺詐活動的訓練數(shù)據(jù)體量非常小。相應地,數(shù)量如此之少的訓練數(shù)據(jù)將導致機器學習算法的準確度不佳。

選擇與欺詐相關(guān)的一些特征或?qū)傩允趾唵巍>碗娫捚墼p來說,這些特征或?qū)傩园承╇娫捄艚衅渌W(wǎng)內(nèi)網(wǎng)外電話的歷史記錄、預付費 SIM 卡的卡齡、單向呼叫(即被呼叫方未回電)所占的百分比,以及被拒呼叫所占的百分比。同樣,為了查找涉嫌洗錢的付款交易,需要為機器學習系統(tǒng)提供諸如付款交易的規(guī)模和頻率等特征。

但是,由于依賴僅側(cè)重于各個點的特征,導致誤報率居高不下。例如,頻繁進行單向呼叫的電話可能屬于銷售代表所有,他們需要致電潛在客戶尋找銷售線索或銷售商品和服務。這種呼叫也可能涉嫌騷擾,是一方對另一方的惡作劇。大量的誤報會造成浪費精力去調(diào)查非欺詐電話,最終降低對欺詐偵查機器學習解決方案的信心。

算法好不如數(shù)據(jù)多

在機器學習領(lǐng)域有一個很流行的說法:“算法好不如數(shù)據(jù)多”。很多機器學習就是因為缺乏充足的訓練數(shù)據(jù)而失敗的。簡單來說,樣本大小直接影響著預測的質(zhì)量。與海量的交易相比(訂單、付款、電話呼叫和計算機訪問日志),諸如欺詐、洗錢或網(wǎng)絡安全違規(guī)等異常檢測事件的確認量很低。

很多大型客戶使用 TigerGraph 來計算機器學習領(lǐng)域所謂的基于圖的屬性或特征。就中國移動來說,TigerGraph 為其 6 億個號碼分別生成 118 項新特征。這將創(chuàng)造超過 700 億項新特征,用于將存在疑似欺詐活動的“壞號碼”與其余屬于普通用戶的“好號碼”區(qū)分開來。這將會有更多訓練數(shù)據(jù),供機器學習解決方案提高欺詐偵查的準確性。

為電話欺詐打造更好的“磁石”

很多現(xiàn)實生活中的示例不斷證明著圖技術(shù)和機器學習在打擊欺詐方面的價值。目前,知名大型移動運營商正使用具備實時深度關(guān)聯(lián)分析的新一代圖數(shù)據(jù)庫,解決現(xiàn)有機器學習算法訓練方法的缺陷。該解決方案分析了 6 億部手機的超過 150 億通呼叫,最終為每個手機生成了 118 項特征。這些特征基于對通話記錄的深度分析,范圍不限于直接被呼叫方。

那么圖數(shù)據(jù)庫是如何識別“好”號碼或“壞”號碼呢?圖數(shù)據(jù)庫解決方案又是如何識別疑似欺詐的類型(例如,垃圾郵件廣告、詐騙銷售等),并且在被呼叫人的手機上顯示警告消息?而且這一切全部都在手機接通之前完成。

13a6b774-5a67-11ed-a3b6-dac502259ad0.png

其實,簡單來說,文中圖1所示,擁有好號碼的用戶致電其他用戶,大多數(shù)人都會回復他們的電話。這有助于指示用戶之間的熟悉度或信任關(guān)系。好號碼還會定期(比如,每天或每月)撥打一組其他號碼,這一號碼組在一段時間內(nèi)非常穩(wěn)定(“穩(wěn)定組”)。

表示好號碼行為的另一個特征是,當呼叫已經(jīng)入網(wǎng)數(shù)月或數(shù)年的號碼時得到回電。我們還看到,在好號碼、長期聯(lián)系號碼及網(wǎng)內(nèi)與二者頻繁聯(lián)系的其他號碼之間有著大量呼叫。這表明我們的好號碼具有很多組內(nèi)關(guān)聯(lián)。

最后,“好號碼”通常會參與三步式朋友關(guān)聯(lián),意思是我們的好號碼會呼叫另一號碼,即號碼 2,后者將呼叫號碼 3。好號碼還會通過直接呼叫與號碼 3 聯(lián)系。這表示一種三步式朋友關(guān)聯(lián),形成信任和相互關(guān)聯(lián)性圓環(huán)。

通過分析號碼之間的這類呼叫模式,我們的圖解決方案可以輕松識別壞號碼,即可能涉嫌詐騙的號碼。這些號碼會短暫呼叫多個好號碼,但不會收到回電。此外,它們也沒有定期呼叫的穩(wěn)定號碼組(即“空穩(wěn)定組”)。當壞號碼呼叫長期網(wǎng)內(nèi)用戶時,對方不會回電。壞號碼的很多呼叫還會被拒絕,而且缺乏三步式朋友關(guān)系。

圖數(shù)據(jù)庫平臺利用超過 100 項圖特征(如穩(wěn)定組),它們與我們使用案例中的 6 億移動號碼各自的好壞號碼行為高度相關(guān)。相應地,它可以生成 700 億項新的訓練數(shù)據(jù)特征,供機器學習算法使用。最終提高了欺詐偵查機器學習的準確率,同時減少誤報(即非欺詐號碼被標記為潛在欺詐者號碼)和漏報(即未標記出參與欺詐的號碼)。

為了了解基于圖的特征如何提高機器學習的準確率,我們來看一個示例(下圖2),其中使用了以下四位移動用戶的側(cè)寫:Tim、Sarah、Fred 和 John。

13cf180e-5a67-11ed-a3b6-dac502259ad0.png

按照傳統(tǒng)的通話記錄特征,如 SIM 卡齡、單向呼叫的百分比以及被拒絕的呼叫總量百分比),四人中的三人(Tim、Fred 和 John)將被標記為疑似或潛在欺詐者,因為從這些特征來看,他們非常相似。經(jīng)過分析基于圖的特征,以及號碼和用戶之間的深度關(guān)聯(lián)或多步關(guān)系,最終幫助機器學習將 Tim 歸類為愛惡作劇者、John 為銷售人員,而 Fred 則被標記為疑似欺詐者。我們來思考一下這個過程。

就 Tim 來說,他有一個“穩(wěn)定組”,這意味著他不太可能是銷售人員,因為銷售人員每周都會撥打不同的電話號碼。Tim 沒有很多組內(nèi)關(guān)聯(lián),這意味著他可能經(jīng)常給陌生人打電話。他也沒有任何三步式朋友關(guān)聯(lián),用于確認他所呼叫的陌生人不存在關(guān)聯(lián)。根據(jù)這些特征判斷,Tim 很可能是愛惡作劇者。

我們來看一下 John 的情況,他沒有穩(wěn)定組,這意味著他每天都通過電話尋找新的潛在銷售線索。他會給具有很多組內(nèi)關(guān)聯(lián)的人打電話。當 John 介紹產(chǎn)品或服務時,如果接聽方對它們感興趣或認為與自己相關(guān),則其中一些人很可能會將 John 介紹給其他聯(lián)系人。John 還通過三步式朋友關(guān)系與他人產(chǎn)生關(guān)聯(lián),這表明他作為優(yōu)秀的銷售人員將整個環(huán)鏈閉合,通過在同一組內(nèi)第一次聯(lián)系的人的朋友或同事當中遴選,找到最終的買家來購買他的產(chǎn)品或服務。依據(jù)這些特征的組合,最終將 John 歸類為銷售人員。

就 Fred 來說,他既沒有穩(wěn)定組,也不與具有很多組內(nèi)關(guān)聯(lián)的群體交流。此外,他與所呼叫的人之間也沒有三步式朋友關(guān)系。這使得他非常容易成為電話詐騙或欺詐的調(diào)查對象。

回到我們最初海底撈針的比喻,在本例中,我們可以利用圖分析改善機器學習,進而提高準確率,最終找到那根“針”,即潛在的欺詐者 Fred。為此,需要使用圖數(shù)據(jù)庫框架對數(shù)據(jù)進行建模,以便能夠識別和考慮更多特征,用于進一步分析我們的海量數(shù)據(jù)。相應地,計算機將利用越來越準確的數(shù)據(jù)進行訓練,使自己不斷變得聰明,更加成功地識別潛在的詐騙分子和欺詐者。

如果您正從事機器學習相關(guān)的工作,希望利用圖分析來增強機器學習,別忘了點擊文末的“閱讀原文”,下載完整的《原生并行圖》白皮書,來增強您對圖的了解,從而更好地將圖應用到您的工作中。

另外,您也可以下載使用TigerGraph 機器學習工作臺(ML Workbench),這是一個基于Jupyter的Python開發(fā)框架,可以使數(shù)據(jù)科學家,人工智能和機器學習的從業(yè)者更容易、也更熟悉地使用圖分析,而無需學習很多新的數(shù)據(jù)處理方式。比如數(shù)據(jù)科學家可以使用TigerGraph 機器學習工作臺(ML Workbench),更快速地構(gòu)建圖神經(jīng)網(wǎng)絡 (GNN) 模型,輕松探索圖神經(jīng)網(wǎng)絡(GNN)。它提供了 Python 級別強大而高效的數(shù)據(jù)管道,將數(shù)據(jù)從 TigerGraph 流式傳輸?shù)接脩舻臋C器學習系統(tǒng),執(zhí)行常見的數(shù)據(jù)處理任務,例如對圖數(shù)據(jù)集的訓練、驗證和測試,以及各種子圖采樣方法。詳細信息,可以點擊文中鏈接查看往期的TigerGraph 隨身聽(Vol.23 TigerGraph機器學習工作臺)。

以上就是我們今天的隨身聽內(nèi)容,如果您對于我們討論的應用場景,有任何問題,或者希望和我們進行更有針對性的深度探討,歡迎通過文中的聯(lián)系方式和我們聯(lián)系。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4810

    瀏覽量

    98610
  • 機器學習
    +關(guān)注

    關(guān)注

    67

    文章

    8567

    瀏覽量

    137255

原文標題:Vol.33 圖和機器學習,為電話欺詐檢測打造更好的“磁石”

文章出處:【微信號:TigerGraph,微信公眾號:TigerGraph】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機器學習中的數(shù)據(jù)質(zhì)量雙保障:從“驗證”到“標記”

    機器學習的世界里,有句老話尤為貼切:“garbagein,garbageout”(輸入垃圾,輸出垃圾)。無論模型架構(gòu)多先進、算法多精妙,數(shù)據(jù)質(zhì)量
    的頭像 發(fā)表于 04-24 15:48 ?117次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>中的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>質(zhì)量</b>雙保障:從“驗證”到“標記”

    算法工程師需要具備哪些技能?

    :自動化任務(如數(shù)據(jù)預處理、模型訓練調(diào)度)。Git版本控制:團隊協(xié)作開發(fā)(如分支管理、代碼合并)。 機器學習監(jiān)督學習:線性回歸、邏輯回歸、決
    發(fā)表于 02-27 10:53

    機器學習和深度學習中需避免的 7 個常見錯誤與局限性

    ,并驗證輸出結(jié)果,就能不斷提升專業(yè)技能,養(yǎng)成優(yōu)秀數(shù)據(jù)科學家的工作習慣。需避免的機器學習和深度學習數(shù)據(jù)錯誤在
    的頭像 發(fā)表于 01-07 15:37 ?365次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    穿孔機頂頭檢測儀 機器視覺深度學習

    頂頭狀態(tài)。 檢測頂頭算法 引入人工智深度學習技術(shù),通過Keras實現(xiàn)卷積神經(jīng)網(wǎng)絡(CNN),用Numpy實現(xiàn)采集數(shù)據(jù)訓練,得到符合現(xiàn)場需求的模型,進一步提升檢測的準確性和現(xiàn)場的適應性
    發(fā)表于 12-22 14:33

    電能質(zhì)量在線監(jiān)測裝置支持哪些數(shù)據(jù)壓縮算法

    電能質(zhì)量在線監(jiān)測裝置支持 無損壓縮 和 有損壓縮 兩大類算法,適配不同數(shù)據(jù)類型(實時數(shù)據(jù)、歷史數(shù)據(jù)、波形
    的頭像 發(fā)表于 12-12 14:08 ?701次閱讀
    電能<b class='flag-5'>質(zhì)量</b>在線監(jiān)測裝置支持哪些<b class='flag-5'>數(shù)據(jù)</b>壓縮<b class='flag-5'>算法</b>?

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課(11大系列課程,共5000+分鐘)

    訓練的完整解決方案,已在電子元件檢測項目中驗證可降低數(shù)據(jù)準備成本90%。 算法輕量化部署 隨著邊緣計算需求增長,工業(yè)視覺系統(tǒng)正從服務器級向嵌入式級演進。課程重點覆蓋8.6M超輕量PaddleOCR模型
    發(fā)表于 12-04 09:28

    半導體缺陷檢測升級:機器學習(ML)攻克類別不平衡難題,小數(shù)據(jù)也能精準判,降本又提效!

    一、引言機器學習(ML)在半導體制造領(lǐng)域的應用,正面臨傳統(tǒng)算法難以突破的核心瓶頸。盡管行業(yè)能產(chǎn)生海量生產(chǎn)數(shù)據(jù),但兩大關(guān)鍵問題始終未能有效解決:一是極端類別不平衡,二是初始生產(chǎn)階段
    的頭像 發(fā)表于 11-05 11:38 ?773次閱讀
    半導體缺陷檢測升級:<b class='flag-5'>機器</b><b class='flag-5'>學習</b>(ML)攻克類別不平衡難題,小<b class='flag-5'>數(shù)據(jù)</b>也能精準判,降本又提效!

    如何在NVIDIA Isaac Lab中使用Newton訓練四足機器

    物理在機器人仿真中發(fā)揮著至關(guān)重要的作用,它為機器人在真實環(huán)境中的行為及交互提供精準的虛擬呈現(xiàn)基礎(chǔ)。借助仿真器,研究人員和工程師能夠以安全、高效且經(jīng)濟的方式訓練、開發(fā)、測試和驗證
    的頭像 發(fā)表于 10-13 11:10 ?2267次閱讀
    如何在NVIDIA Isaac Lab中使用Newton<b class='flag-5'>訓練</b>四足<b class='flag-5'>機器</b>人

    量子機器學習入門:三種數(shù)據(jù)編碼方法對比與應用

    在傳統(tǒng)機器學習數(shù)據(jù)編碼確實相對直觀:獨熱編碼處理類別變量,標準化調(diào)整數(shù)值范圍,然后直接輸入模型訓練。整個過程更像是數(shù)據(jù)清洗,而非核心
    的頭像 發(fā)表于 09-15 10:27 ?988次閱讀
    量子<b class='flag-5'>機器</b><b class='flag-5'>學習</b>入門:三種<b class='flag-5'>數(shù)據(jù)</b>編碼方法對比與應用

    模板驅(qū)動 無需訓練數(shù)據(jù) SmartDP解決小樣本AI算法模型開發(fā)難題

    算法作為軟實力,其水平直接影響著目標檢測識別的能力。兩年前,慧視光電推出了零基礎(chǔ)的基于yolo系列算法架構(gòu)的AI算法開發(fā)平臺SpeedDP,此平臺能夠通過數(shù)據(jù)驅(qū)動模型
    的頭像 發(fā)表于 09-09 17:57 ?1575次閱讀
    模板驅(qū)動  無需<b class='flag-5'>訓練</b><b class='flag-5'>數(shù)據(jù)</b>  SmartDP解決小樣本AI<b class='flag-5'>算法</b>模型開發(fā)難題

    有哪些具體的方法可以減少電能質(zhì)量監(jiān)測裝置的數(shù)據(jù)偏差?

    LZ-300C電能質(zhì)量在線監(jiān)測裝置 減少電能質(zhì)量監(jiān)測裝置的數(shù)據(jù)偏差,需從硬件設計、校準溯源、環(huán)境控制、算法優(yōu)化、安裝維護等多環(huán)節(jié)入手,結(jié)合新能源并網(wǎng)場景的特殊性(如強電磁干擾、諧波豐富
    的頭像 發(fā)表于 08-21 09:33 ?779次閱讀
    有哪些具體的方法可以減少電能<b class='flag-5'>質(zhì)量</b>監(jiān)測裝置的<b class='flag-5'>數(shù)據(jù)</b>偏差?

    AI 驅(qū)動三維逆向:點云降噪算法工具與機器學習建模能力的前沿應用

    在三維逆向工程領(lǐng)域,傳統(tǒng)方法在處理復雜數(shù)據(jù)和構(gòu)建高精度模型時面臨諸多挑戰(zhàn)。隨著人工智能(AI)技術(shù)的發(fā)展,點云降噪算法工具與機器學習建模能力的應用,為三維逆向工程帶來了創(chuàng)新性解決方案,
    的頭像 發(fā)表于 08-20 10:00 ?882次閱讀
    AI 驅(qū)動三維逆向:點云降噪<b class='flag-5'>算法</b>工具與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>建模能力的前沿應用

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】 + 04 + 機器學習YOLO體驗

    、 機器學習YOLO體驗 1.在線訓練 Sipeed矽速科技擁有自研搭建的MaixHub平臺,可以快速簡單的完成yolo訓練。 下面我將展示訓練
    發(fā)表于 07-24 21:35

    【嘉楠堪智K230開發(fā)板試用體驗】K230機器視覺相關(guān)功能體驗

    K230開發(fā)板攝像頭及AI功能測評 攝像頭作為機器視覺應用的基礎(chǔ),能夠給機器學習模型提供輸入,提供輸入的質(zhì)量直接影響機器
    發(fā)表于 07-08 17:25

    k210在線訓練算法是yolo5嗎?

    k210在線訓練算法是yolo5嗎
    發(fā)表于 06-16 08:25
    宁陵县| 塘沽区| 井冈山市| 遵义市| 哈尔滨市| 太康县| 栾城县| 平顶山市| 双峰县| 涿州市| 曲水县| 安顺市| 永新县| 同德县| 西乌| 临沂市| 闸北区| 乌鲁木齐县| 康平县| 石棉县| 肥东县| 军事| 金寨县| 武邑县| 封丘县| 洱源县| 湾仔区| 涞水县| 桃园市| 宁海县| 宿州市| 霍邱县| 瓦房店市| 嵊州市| 建湖县| 峨边| 天峻县| 普陀区| 利辛县| 康保县| 吉木萨尔县|