隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動加速其數(shù)據(jù)中心規(guī)模的分析工作負載,從而節(jié)省數(shù)百萬美元。
全球數(shù)萬家企業(yè)依靠 Apache Spark 來處理海量數(shù)據(jù),以支持關(guān)鍵業(yè)務的運營,同時預測趨勢、客戶行為、業(yè)務表現(xiàn)等。企業(yè)處理和理解數(shù)據(jù)的速度越快,盈利和節(jié)省的成本就越多。
這就是為什么擁有海量數(shù)據(jù)集的公司紛紛采用適用于 Apache Spark 的 RAPIDS 加速器,其中包括全球各地的大型零售商和銀行。這個開源軟件運行在 NVIDIA 加速計算平臺上,它能夠顯著加速端到端數(shù)據(jù)科學和分析流程的處理,而無需更改任何代碼。
為了讓企業(yè)能更輕松地從 NVIDIA 加速的 Spark 中獲取價值,NVIDIA 于近日發(fā)布了 Aether 項目。該項目包含了一系列工具和流程,可自動地評估、測試、配置和優(yōu)化 Spark 工作負載,從而實現(xiàn)大規(guī)模的 GPU 加速。
Aether 項目可在一周內(nèi)完成一年的工作量
對于在生產(chǎn)環(huán)境中使用 Spark 的客戶來說,他們通常需要管理數(shù)以萬計甚至更多的復雜作業(yè)。從純 CPU 計算遷移到 GPU 驅(qū)動的計算具有諸多顯著優(yōu)勢,但這一過程可能需要手動操作,耗時且費力。
此前,企業(yè)需要手動完成大量步驟,而 Aether 項目實現(xiàn)了這些步驟的自動化處理,包括分析所有 Spark 作業(yè)以找出最適合 GPU 加速的作業(yè),以及每個作業(yè)的準備和試運行。它利用 AI 對每個作業(yè)的配置進行調(diào)優(yōu),以實現(xiàn)最優(yōu)性能。
為了理解 Aether 項目的影響力,這里假設有一家企業(yè)需要完成 100 個 Spark 作業(yè)。借助 Aether 項目,每個作業(yè)最快僅需 4 天就能完成配置并針對 NVIDIA GPU 加速進行優(yōu)化。而如果由一名數(shù)據(jù)工程師手動完成相同的工作量,可能需要長達一年的時間。

澳大利亞聯(lián)邦銀行借助 NVIDIA 加速的 Apache Spark 來推動 AI 轉(zhuǎn)型
與僅使用 CPU 相比,在 NVIDIA 加速計算平臺上運行 Apache Spark 能夠幫助全球各地的企業(yè)更快地完成作業(yè),且所需硬件更少,從而節(jié)省時間、空間、電力和散熱成本,同時降低本地基礎設施的資本成本以及使用云計算的運營成本。
作為澳大利亞最大的金融機構(gòu),澳大利亞聯(lián)邦銀行處理該國 60% 的金融交易。在運行 Spark 工作負載時,該銀行面臨著延遲和成本方面的挑戰(zhàn)。據(jù)估算,如果僅使用 CPU計算集群,這家銀行除了要處理繁重的日常數(shù)據(jù)需求外,還需要近 9 年時間才能處理完積壓的訓練任務。
澳大利亞聯(lián)邦銀行首席數(shù)據(jù)和分析官 Andrew McMullan 表示:“我們每天要處理 4000 萬次推理交易,因此能夠及時、可靠地處理這些交易至關(guān)重要?!?/p>
通過在 GPU 驅(qū)動的基礎設施上運行適用于 Apache Spark 的 RAPIDS 加速器,澳大利亞聯(lián)邦銀行把系統(tǒng)性能提升了 640 倍,僅用 5 天時間就完成了 63 億筆交易的訓練。此外,在處理每天 4000 萬筆交易時,澳大利亞聯(lián)邦銀行目前能在 46 分鐘內(nèi)完成推理,成本比基于 CPU 的解決方案降低了 80% 以上。
McMullan 表示,NVIDIA 加速的 Apache Spark 還有另外一個重大優(yōu)勢。它在計算時間上極為高效,使其團隊能夠經(jīng)濟地構(gòu)建模型,從而幫助澳大利亞聯(lián)邦銀行提供更好的客戶服務、預測客戶可能何時需要住房貸款方面的幫助,以及更快地檢測欺詐交易。
澳大利亞聯(lián)邦銀行還計劃使用 NVIDIA 加速的 Apache Spark 更好地確定客戶通常在何處結(jié)束其數(shù)字旅程,從而能夠在必要時采取補救措施,以降低放棄申請的比例。
全球生態(tài)系統(tǒng)
適用于 Apache Spark 的 RAPIDS 加速器通過全球合作伙伴網(wǎng)絡提供。目前已經(jīng)在亞馬遜云科技、Cloudera、Databricks、Dataiku、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 平臺上線。
Dell Technologies 同日也宣布,將適用于 Apache Spark 的 RAPIDS 加速器集成到 Dell Data Lakehouse 中。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5696瀏覽量
110139 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5780瀏覽量
75214
原文標題:GTC25 | NVIDIA 加速的 Apache Spark 助力企業(yè)節(jié)省大量成本
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
首屆中國NVIDIA DGX Spark黑客松大賽開啟報名
NVIDIA DGX Spark助力高等教育領(lǐng)域重大項目
NVIDIA DGX Spark桌面級AI超級計算機助力開發(fā)者構(gòu)建AI模型
NVIDIA DGX Spark系統(tǒng)恢復過程與步驟
NVIDIA在ISC 2025分享最新超級計算進展
NVIDIA DGX Spark助力構(gòu)建自己的AI模型
在NVIDIA DGX Spark平臺上對NVIDIA ConnectX-7 200G網(wǎng)卡配置教程
NVIDIA DGX Spark快速入門指南
NVIDIA宣布開源Aerial軟件
NVIDIA DGX Spark新一代AI超級計算機正式交付
MediaTek攜手NVIDIA開啟個人AI算力新紀元
NVIDIA DGX Spark桌面AI計算機開啟預訂
使用NVIDIA GPU加速Apache Spark中Parquet數(shù)據(jù)掃描
NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本
評論