什么是圖數(shù)據(jù)庫,為什么要關(guān)心圖?
做出正確的商業(yè)決策需要了解任何一個行動或交易之間的關(guān)系,因為它們彼此相關(guān)。許多企業(yè)、數(shù)據(jù)分析公司和數(shù)據(jù)科學(xué)家正在尋找新的方法來探索連接和關(guān)系,看看我們的數(shù)據(jù)能給我們帶來什么額外的見解。
借助圖分析,我們認(rèn)識到,所有的數(shù)據(jù)其實都代表了現(xiàn)實世界中的一些東西,而現(xiàn)實世界中的幾乎所有東西都以某種方式聯(lián)系在一起。從關(guān)系中找到這些新的模式,可以用來為電子商務(wù)網(wǎng)站打造更好的產(chǎn)品推薦,使銀行在欺詐發(fā)生之前找到潛在欺詐者,或者讓制造企業(yè)找到提高供應(yīng)鏈效率的方法。
TigerGraph Cloud是業(yè)界首個也是唯一一個分布式原生圖數(shù)據(jù)庫即服務(wù),使用戶能夠更容易地加速采用圖,實時處理分析和事務(wù)性工作負(fù)載。通過最新的3.8版本,你還可以在TigerGraph Cloud上配置你的ML Workbench Jupyter notebook,為你的圖數(shù)據(jù)庫和圖機器學(xué)習(xí)開發(fā)環(huán)境提供一站式體驗。
案例:圖增強的ML模型檢測欺詐行為
世界各地的公司正在投資于圖,將其作為一種競爭優(yōu)勢。圖算法和機器學(xué)習(xí)領(lǐng)域的研究表明,通過將數(shù)據(jù)構(gòu)建在一個固有的捕捉上下文和關(guān)系的圖結(jié)構(gòu)中,可以大大改善預(yù)測模型的質(zhì)量。特別是在欺詐領(lǐng)域,圖增強的機器學(xué)習(xí)模型可以學(xué)習(xí)欺詐交易和行為人之間的潛在關(guān)系模式,而傳統(tǒng)的ML方法(如XGBoost模型)則無法捕捉。
在這篇博客中,我們將探討如何應(yīng)用圖算法和圖特征來解決欺詐檢測問題。我們將展示如何用TigerGraph構(gòu)建你的圖數(shù)據(jù)集,然后我們將通過一個Jupyter notebook的例子,用GNN模型構(gòu)建一個端到端的欺詐檢測應(yīng)用程序,使用Ethereum數(shù)據(jù)集,其中包含賬戶(有正面和負(fù)面標(biāo)簽)和它們之間的交易。下面是schema的樣子:

在TigerGraph Cloud上構(gòu)建你的圖
在任何模型開發(fā)之前,我們首先需要構(gòu)建你的圖。在這個例子中,我們將使用TigerGraph Cloud的免費版本,這是業(yè)界第一個也是唯一一個原生并行圖數(shù)據(jù)庫即服務(wù)。
要開始使用TigerGraph數(shù)據(jù)庫集群,你只需要通過選擇硬件配置來完成集群配置過程。

在高級設(shè)置部分,確保啟用機器學(xué)習(xí)工作臺,然后在入門套件中選擇圖機器學(xué)習(xí),這樣它就包括在你的配置集群中。(注意:對于這個版本,我們將只支持單服務(wù)器配置,即分區(qū)因子=1)

TigerGraph云上的機器學(xué)習(xí)工作臺
TigerGraph云上的機器學(xué)習(xí)工作臺
一旦你的圖數(shù)據(jù)庫被配置好了,你將需要添加一個用戶和密碼,以便用機器學(xué)習(xí)工作臺連接到數(shù)據(jù)庫。只需從左邊的 “Clusters “選項卡上點擊你剛剛配置的集群的 Access Management”,然后用你的憑證點擊 “Add User”。

一旦你添加了一個用戶,你現(xiàn)在可以直接利用機器學(xué)習(xí)工作臺,點擊左側(cè)面板上的集群,然后點擊”Tools” 》 “Machine Learning Workbench”。

一個新的瀏覽器窗口將被打開,你將登陸到機器學(xué)習(xí)工作臺的Jupyter服務(wù)器。

TigerGraph 機器學(xué)習(xí)工作臺有很多很好的教程,包括如何使用pyTigerGraph使用我們的ML功能的例子,運行我們圖數(shù)據(jù)科學(xué)庫的算法,以及端到端的應(yīng)用。
你可能已經(jīng)聽說了最近在人工智能/ML方面的圖譜神經(jīng)網(wǎng)絡(luò)的突破。在這篇博客中,我們將展示利用我們內(nèi)置的python功能(如圖數(shù)據(jù)分區(qū)、數(shù)據(jù)導(dǎo)出/批處理和圖特征工程)建立一個GNN模型是多么容易。該notebook 可以在下面路徑找到:GML→ Applications → Fraud_Detection → Fraud_Detection.ipynb.

在運行任何代碼之前,你首先需要確保config.json中的用戶名和密碼(在Jupyter服務(wù)器的root文件夾中)被相應(yīng)地更新為你剛剛從tgcloud.io創(chuàng)建的新用戶。

準(zhǔn)備你的圖數(shù)據(jù)集
現(xiàn)在,我們已經(jīng)準(zhǔn)備好與TigerGraph云數(shù)據(jù)庫實例建立連接,只需運行以下代碼,并將Ethereum 數(shù)據(jù)集導(dǎo)入到你的實例。

圖特征工程
像任何其他監(jiān)督下的機器學(xué)習(xí)模型一樣,GNN需要訓(xùn)練、驗證和測試集來開發(fā)模型。ML Workbench通過一個簡單的命令使數(shù)據(jù)分區(qū)變得簡單。我們將對你的圖數(shù)據(jù)進行分區(qū),同時保留你的數(shù)據(jù)集的關(guān)系。

ML workbench 包括TIgerGraph的圖數(shù)據(jù)科學(xué)庫中的相當(dāng)多的圖算法來進行特征工程。這個notebook 所強調(diào)的關(guān)鍵功能是:
listAlgorithm():如果你輸入算法的類別(如中心性),它將打印指定類別的可用算法;否則它將打印所有可用的算法類別。
installAlgorithm():獲取算法的名稱作為輸入,如果該算法尚未安裝,則安裝該算法。
runAlgorithm():獲取算法名稱和參數(shù)以運行該算法。如果該算法尚未安裝,并且存在于TigerGraph的圖數(shù)據(jù)科學(xué)庫中,該算法將自動安裝查詢語句,并在圖中創(chuàng)建必要的schema屬性。
下面的代碼顯示了如何使用Featurizer來獲得PageRank作為一個特征。你也可以通過運行你自己的GSQL查詢語句,并通過Featurizer運行它,來定義你自己的自定義特征。

現(xiàn)在我們已經(jīng)完成了特征工程,下一步是使用我們的Neighbor Loader函數(shù)導(dǎo)出你的訓(xùn)練、驗證和測試數(shù)據(jù)集。你可以用我們的Neighbor Loader函數(shù)定義你的采樣策略,如批次大小、跳數(shù)和鄰居數(shù)。

訓(xùn)練你的GNN模型
現(xiàn)在,我們已經(jīng)完成了圖特征工程,并將所有的數(shù)據(jù)導(dǎo)出到你的機器學(xué)習(xí)工作臺環(huán)境,以訓(xùn)練機器學(xué)習(xí)模型。
我們擁護開源社區(qū),這就是為什么我們把TigerGraph ML Workbench與一些最流行的深度學(xué)習(xí)框架兼容,如PyTorch Geometric和Tensorflow。注意在上面的代碼中,我們直接將你的關(guān)聯(lián)數(shù)據(jù)以output_format參數(shù)中指定的PyG格式導(dǎo)出,你將能夠直接利用PyG來訓(xùn)練一個GNN模型,比如Graph Attention Network( (GATs)算法。請看下面的例子:

一旦你的模型訓(xùn)練完成,你就可以對你的模型進行推理,看看一個欺詐者是如何通過其網(wǎng)絡(luò)移動交易的。為了更好地解釋預(yù)測行為,我們可以將與預(yù)測頂點相關(guān)的子圖可視化。
用子圖可視化你的模型預(yù)測
在這個例子中,頂點#1891被預(yù)測為一個欺詐賬戶。粉紅色的頂點是已知的欺詐賬戶,用藍色標(biāo)識的頂點是未知賬戶。看起來頂點1891是一個欺詐者網(wǎng)絡(luò)的幕后策劃者,一直在從無辜的用戶那里拿錢!

下一步
如果你覺得這篇文章很有趣,并想建立自己的GNN應(yīng)用程序,請免費試用我們的TigerGraph Cloud和TigerGraph ML Workbench。請從我們的Github(https://github.com/tigergraph/graph-ml-notebooks)上查看我們的教程。你也可以在這篇博文中找到我們所用到的notebook例子的鏈接。
審核編輯 :李倩
-
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
4085瀏覽量
68569 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
67文章
8567瀏覽量
137254
原文標(biāo)題:如何借助TigerGraph機器學(xué)習(xí)工作臺加速企業(yè)BI
文章出處:【微信號:TigerGraph,微信公眾號:TigerGraph】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
借助NVIDIA DSX Air平臺加速AI基礎(chǔ)設(shè)施仿真部署
研華科技AI+BI一體化生產(chǎn)運營升級方案助力制造企業(yè)打破數(shù)據(jù)孤島
濕法刻蝕工作臺工藝流程
機器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性
借助NVIDIA Isaac Sim與World Labs Marble加速機器人仿真環(huán)境構(gòu)建
移動BI可視化分析助力決策分析應(yīng)用
企業(yè)實施BI的時機和選擇考慮
?讓網(wǎng)分走進每一個工作臺 —— RIGOL全新DNA5000/6000系列矢量網(wǎng)絡(luò)分析儀正式發(fā)布
ADI借助NVIDIA Jetson Thor平臺加速人形機器人研發(fā)進程
潔凈工作臺塵埃粒子標(biāo)準(zhǔn)是多少
如何借助TigerGraph機器學(xué)習(xí)工作臺加速企業(yè)BI
評論