作者:Arm 工程部高級(jí)首席系統(tǒng)架構(gòu)師 Jumana Mundichipparakkal
現(xiàn)代服務(wù)器系統(tǒng)在多個(gè)維度持續(xù)擴(kuò)展:核心數(shù)量不斷增加,集成了各類加速器,并逐步演進(jìn)為跨多晶粒 (die) 或多插槽的架構(gòu)形態(tài)。這一發(fā)展趨勢使性能分析成為一項(xiàng)系統(tǒng)級(jí)挑戰(zhàn)。處理器核心本身依然具備出色的計(jì)算能力,但緩存、內(nèi)存子系統(tǒng)以及一致性互連等共享資源,正日益成為決定整體應(yīng)用性能的關(guān)鍵因素。
在 Arm Neoverse 平臺(tái)上,一致性互連是至關(guān)重要的核心組件,它支持 CPU、內(nèi)存和 I/O 共同實(shí)現(xiàn)可擴(kuò)展的性能。性能瓶頸往往并不出現(xiàn)在單個(gè)處理單元 (PE) 內(nèi)部,即便從表面看處理器核心仍處于未充分利用狀態(tài)。在這種情況下,傳統(tǒng)以處理器為中心的性能分析工具只能判斷工作負(fù)載受限于系統(tǒng)層面,卻難以揭示問題產(chǎn)生的根本原因。
為何僅依賴處理器遙測已不再足夠
處理器遙測在理解 CPU 核心的指令執(zhí)行、流水線效率以及緩存行為方面依然至關(guān)重要。然而,一旦內(nèi)存或 I/O 請求離開核心,它們便會(huì)在復(fù)雜的共享互連架構(gòu)中傳輸。在這一過程中,延遲、資源爭用以及反壓可能來自多個(gè)不同來源,例如多個(gè)請求方之間的資源競爭、緩存一致性活動(dòng)、內(nèi)存或 I/O 設(shè)備的帶寬限制,或互連總線本身的擁塞。
如果無法洞察互連層面的運(yùn)行情況,這些行為將難以被準(zhǔn)確診斷,往往只能依賴反復(fù)試錯(cuò)的方式進(jìn)行調(diào)優(yōu)。
借助 Neoverse CMN 遙測
識(shí)別系統(tǒng)級(jí)性能瓶頸
在一致性網(wǎng)絡(luò)互聯(lián) (Coherent Mesh Network, CMN) 的 Arm Neoverse 平臺(tái)上,互連本身即可提供硬件層面的遙測能力。CMN 遙測能夠直觀展示流量在網(wǎng)絡(luò)互連中的流動(dòng)情況,包括請求方、目標(biāo)端、帶寬利用率以及內(nèi)部資源壓力等關(guān)鍵信息。
基于這一能力,Arm 推出了 Neoverse CMN 遙測解決方案的自頂向下方法論 (Neoverse CMN Telemetry Solution Topdown methodology)。這一結(jié)構(gòu)化方法通過互連遙測數(shù)據(jù),對系統(tǒng)級(jí)性能進(jìn)行分析。與從底層計(jì)數(shù)器入手的傳統(tǒng)方式不同,該方法引導(dǎo)用戶沿著分層分析路徑逐步展開,幫助對工作負(fù)載行為進(jìn)行分類,并在深入分析微架構(gòu)細(xì)節(jié)之前,率先識(shí)別互連結(jié)構(gòu)中潛在的性能瓶頸。
用于互連性能分析的自頂向下方法
如下圖所示,Arm Neoverse CMN 自頂向下方法沿用了在處理器性能分析中已被充分驗(yàn)證的核心原則:從宏觀視角入手,逐步縮小分析范圍,并最終定位根因。

圖:CMN 自頂向下方法論
從總體層面來看,該方法重點(diǎn)回答以下關(guān)鍵問題:哪些組件產(chǎn)生了大部分流量?這些流量流向了哪里?哪些類型的事務(wù)主導(dǎo)了系統(tǒng)行為?性能瓶頸是由帶寬限制、資源爭用,還是一致性活動(dòng)所導(dǎo)致?
在識(shí)別出主要流量模式和潛在瓶頸之后,便可將分析重點(diǎn)聚焦到具體的互連組件和資源上。該方法能夠支持對諸如隊(duì)列反壓、緩存有效性以及內(nèi)存子系統(tǒng)壓力等問題開展有針對性的深入分析,而無需在一開始就進(jìn)行窮盡式的數(shù)據(jù)采集。
關(guān)鍵解決方案參考
《Arm Neoverse CMN-700:性能分析方法》白皮書對這一方法進(jìn)行了詳細(xì)闡述,涵蓋了該方法的整體結(jié)構(gòu),以及如何利用遙測指標(biāo)來分析和推斷系統(tǒng)性能。同時(shí)還配套提供了標(biāo)準(zhǔn)化的遙測規(guī)范和工具,以簡化數(shù)據(jù)采集與分析流程。
白皮書:https://developer.arm.com/documentation/111028/latest/
Arm Neoverse CMN700 遙測規(guī)范列出了相關(guān)的 PMU 事件。這些事件基于從硬件中采集的監(jiān)視點(diǎn) (Watchpoints) 和過濾寄存器 (Filter registers),并結(jié)合派生指標(biāo)構(gòu)建而成。
規(guī)范:https://developer.arm.com/documentation/110467
該遙測規(guī)范以機(jī)器可讀的 JSON 文件形式提供。此外,白皮書中提及的 Arm 自頂向下工具以及 sysstress 工作負(fù)載套件,現(xiàn)可在GitLab 的 telemetry-solution 代碼倉庫中獲取。
代碼倉庫:https://gitlab.arm.com/telemetry-solution/telemetry-solution
小結(jié)
系統(tǒng)級(jí)性能問題,必須依托系統(tǒng)級(jí)可視性才能有效解決。Neoverse CMN 自頂向下遙測方法為分析互連行為提供了一條清晰路徑,能夠幫助開發(fā)者更高效,也更有把握地識(shí)別性能瓶頸。
-
處理器
+關(guān)注
關(guān)注
68文章
20343瀏覽量
255357 -
ARM
+關(guān)注
關(guān)注
135文章
9596瀏覽量
393834 -
cpu
+關(guān)注
關(guān)注
68文章
11335瀏覽量
226005
原文標(biāo)題:借助 Arm Neoverse CMN 自頂向下遙測解決方案,釋放系統(tǒng)級(jí)性能潛力
文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
如何在Arm Neoverse N2平臺(tái)上提升llama.cpp擴(kuò)展性能
Arm Neoverse平臺(tái)集成NVIDIA NVLink Fusion
基于FPGA的數(shù)字識(shí)別系統(tǒng)設(shè)計(jì)
鐵路車號(hào)識(shí)別系統(tǒng)的基本原理與應(yīng)用
無人機(jī)AI視覺行為識(shí)別系統(tǒng)
Arm Neoverse N2平臺(tái)實(shí)現(xiàn)DeepSeek-R1滿血版部署
鐵路車號(hào)智能識(shí)別系統(tǒng)AI助力鐵路高效運(yùn)轉(zhuǎn)
龍門吊箱號(hào)識(shí)別系統(tǒng)助力碼頭智能化升級(jí)#龍門吊箱號(hào)識(shí)別系統(tǒng)
岸橋箱號(hào)識(shí)別系統(tǒng):精準(zhǔn)高效,穩(wěn)定可靠#岸橋識(shí)別系統(tǒng) #岸橋理貨系統(tǒng) #岸橋箱號(hào)識(shí)別系統(tǒng)
手持火車號(hào)識(shí)別系統(tǒng)能識(shí)別哪些類型的火車#手持火車號(hào)識(shí)別設(shè)備 #手持終端火車號(hào)識(shí)別系統(tǒng)
工地AI行為識(shí)別系統(tǒng)作用
景區(qū)AI行為識(shí)別系統(tǒng)作用
使用Arm Neoverse CMN自頂向下遙測方法識(shí)別系統(tǒng)級(jí)性能瓶頸
評論