導(dǎo)語(yǔ):AI算力爆發(fā)的背后,如何保障網(wǎng)絡(luò)“零丟包”?
在當(dāng)今數(shù)據(jù)中心網(wǎng)絡(luò)中,隨著AI、高性能計(jì)算(HPC)和分布式存儲(chǔ)等應(yīng)用的飛速發(fā)展,網(wǎng)絡(luò)的無(wú)損傳輸能力變得至關(guān)重要。PFC(基于優(yōu)先級(jí)的流量控制)和ECN(顯式擁塞通知)作為智能無(wú)損網(wǎng)絡(luò)的關(guān)鍵技術(shù),能夠有效解決網(wǎng)絡(luò)擁塞問(wèn)題,保障數(shù)據(jù)傳輸?shù)牡脱舆t和高吞吐量。然而,如何驗(yàn)證和優(yōu)化PFC/ECN技術(shù)的水線(xiàn)參數(shù),提升無(wú)損網(wǎng)絡(luò)的性能成為了網(wǎng)絡(luò)設(shè)備制造商和運(yùn)營(yíng)商面臨的重大挑戰(zhàn)。
一、PFC/ECN技術(shù)簡(jiǎn)介
(一)PFC(Priority-based Flow Control)
PFC是基于IEEE 802.1Qbb標(biāo)準(zhǔn)的流量控制機(jī)制,通過(guò)為不同業(yè)務(wù)流量劃分優(yōu)先級(jí),實(shí)現(xiàn)精細(xì)化擁塞管理。其核心邏輯如下:
優(yōu)先級(jí)隊(duì)列劃分 :網(wǎng)絡(luò)設(shè)備端口配置8個(gè)獨(dú)立優(yōu)先級(jí)隊(duì)列(0-7),高優(yōu)先級(jí)隊(duì)列(如金融交易、AI訓(xùn)練流量)優(yōu)先調(diào)度;
反壓信號(hào)交互 :當(dāng)接收端檢測(cè)到某優(yōu)先級(jí)隊(duì)列擁塞時(shí),向發(fā)送端發(fā)送PAUSE幀(反壓信號(hào)),暫停對(duì)應(yīng)隊(duì)列的流量發(fā)送;
動(dòng)態(tài)恢復(fù)機(jī)制 :擁塞解除后,接收端發(fā)送RESUME信號(hào),恢復(fù)流量傳輸,確保高優(yōu)先級(jí)業(yè)務(wù)零丟包。
典型應(yīng)用場(chǎng)景 :
金融高頻交易:微秒級(jí)時(shí)延敏感業(yè)務(wù)需絕對(duì)優(yōu)先傳輸;
AI分布式訓(xùn)練:保障GPU間RDMA流量的無(wú)損交互;
實(shí)時(shí)視頻流:避免關(guān)鍵幀丟失導(dǎo)致的畫(huà)質(zhì)劣化。
PFC機(jī)制在檢測(cè)到網(wǎng)絡(luò)擁塞時(shí),會(huì)自動(dòng)觸發(fā)對(duì)低優(yōu)先級(jí)流量的暫停,以保障高優(yōu)先級(jí)流量的傳輸,而當(dāng)擁塞緩解后,低優(yōu)先級(jí)流量又會(huì)自動(dòng)恢復(fù)傳輸,這一過(guò)程實(shí)現(xiàn)了網(wǎng)絡(luò)流量的自動(dòng)降速與恢復(fù),有效平衡了不同優(yōu)先級(jí)流量的傳輸需求。
如下圖所示,DeviceA發(fā)送接口被分成了8個(gè)優(yōu)先級(jí)隊(duì)列,DeviceB接收接口則存在8個(gè)接收緩存,二者一一對(duì)應(yīng)。DeviceB接收接口上某個(gè)接收緩存發(fā)生擁塞時(shí),會(huì)發(fā)送一個(gè)反壓信號(hào)“STOP”到DeviceA,DeviceA則停止發(fā)送對(duì)應(yīng)優(yōu)先級(jí)隊(duì)列的流量。
PFC的工作方式
(二)ECN(Explicit Congestion Notification)
ECN是TCP/IP協(xié)議的擴(kuò)展機(jī)制,用于減少網(wǎng)絡(luò)擁塞導(dǎo)致的數(shù)據(jù)包丟失。當(dāng)網(wǎng)絡(luò)設(shè)備檢測(cè)到擁塞時(shí),會(huì)在IP數(shù)據(jù)包頭部設(shè)置ECN標(biāo)志,而不是直接丟棄。接收端收到標(biāo)記后,會(huì)通知發(fā)送端降低傳輸速率,從而緩解網(wǎng)絡(luò)擁塞。接收端收到RoCEv2 報(bào)文 IP ECN 標(biāo)記為“11”,接收端口生成RoCEv2 CNP ,發(fā)給流量發(fā)送端。對(duì)指定QP可選擇單個(gè)或者多個(gè)CNP 來(lái)對(duì)ECN 標(biāo)記報(bào)文的響應(yīng)。
ECN機(jī)制不僅提高了網(wǎng)絡(luò)的利用率,還顯著降低了丟包率。同時(shí)在擁塞緩解后,發(fā)送端又可以逐步提高發(fā)送速率,恢復(fù)正常的傳輸效率,實(shí)現(xiàn)了網(wǎng)絡(luò)傳輸速率的動(dòng)態(tài)調(diào)整與優(yōu)化。
二、PFC/ECN流量測(cè)試的重要性
在數(shù)據(jù)中心網(wǎng)絡(luò)中,PFC和ECN機(jī)制的有效性直接關(guān)系到網(wǎng)絡(luò)的無(wú)損傳輸能力和整體性能。然而,在實(shí)際部署中,PFC/ECN機(jī)制可能面臨以下問(wèn)題:
優(yōu)先級(jí)錯(cuò)配 :PFC隊(duì)列映射錯(cuò)誤導(dǎo)致高優(yōu)先級(jí)流量被低優(yōu)先級(jí)搶占;
閾值靈敏度不足 :ECN標(biāo)記閾值設(shè)置不合理,引發(fā)擁塞響應(yīng)滯后或過(guò)度降速;
多技術(shù)協(xié)同失效 :PFC與ECN策略沖突,導(dǎo)致網(wǎng)絡(luò)性能波動(dòng)。
測(cè)試價(jià)值 :
通過(guò)系統(tǒng)性驗(yàn)證PFC/ECN功能的有效性,優(yōu)化水線(xiàn)參數(shù)配置,確保智能無(wú)損網(wǎng)絡(luò)的穩(wěn)定性和業(yè)務(wù)SLA達(dá)標(biāo)。
三、PFC/ECN流量測(cè)試方案
(一)測(cè)試目標(biāo)
- 驗(yàn)證PFC機(jī)制的有效性 :確保網(wǎng)絡(luò)設(shè)備能夠根據(jù)優(yōu)先級(jí)正確地暫停和恢復(fù)流量,避免高優(yōu)先級(jí)流量的丟包。
- 驗(yàn)證ECN機(jī)制的有效性 :確保網(wǎng)絡(luò)設(shè)備能夠在擁塞時(shí)正確地標(biāo)記ECN標(biāo)志,并通過(guò)CNP(擁塞通知報(bào)文)反饋機(jī)制調(diào)整發(fā)送速率。
- 評(píng)估網(wǎng)絡(luò)在擁塞情況下的性能表現(xiàn) :包括吞吐量、延遲和丟包率等關(guān)鍵指標(biāo)。以及PFC與ECN自動(dòng)降速功能對(duì)網(wǎng)絡(luò)性能的影響
(二)測(cè)試環(huán)境
- 硬件設(shè)備 :
o RoCE網(wǎng)絡(luò)測(cè)試儀、網(wǎng)絡(luò)損傷儀
o 被測(cè)網(wǎng)絡(luò)設(shè)備(如交換機(jī)、路由器)
- 網(wǎng)絡(luò)拓?fù)?/strong> :
o 采用典型的Leaf-Spine架構(gòu),測(cè)試儀連接到Leaf交換機(jī),被測(cè)設(shè)備部署在Spine層。
o 測(cè)試儀通過(guò)多個(gè)端口向被測(cè)設(shè)備發(fā)送PFC/ECN流量,模擬真實(shí)網(wǎng)絡(luò)環(huán)境中的多源多宿場(chǎng)景。
o 在環(huán)境中部署損傷儀,模擬真實(shí)網(wǎng)絡(luò)環(huán)境中的丟包、時(shí)延、抖動(dòng)等場(chǎng)景
(三)測(cè)試方法
1. PFC測(cè)試方法
· 配置PFC優(yōu)先級(jí) :在測(cè)試儀和被測(cè)設(shè)備上配置相同的PFC優(yōu)先級(jí)映射關(guān)系,確保測(cè)試流量能夠觸發(fā)PFC機(jī)制。
· 流量生成與發(fā)送 :測(cè)試儀生成具有不同優(yōu)先級(jí)的流量,分別模擬高優(yōu)先級(jí)和低優(yōu)先級(jí)的業(yè)務(wù)流量。
· 擁塞觸發(fā) :通過(guò)調(diào)整流量負(fù)載,使被測(cè)設(shè)備的緩沖區(qū)接近滿(mǎn)載,觸發(fā)PFC機(jī)制。
· 流量監(jiān)控與分析 :監(jiān)控高優(yōu)先級(jí)流量是否被正確暫停和恢復(fù),低優(yōu)先級(jí)流量是否能夠正常傳輸,以及低優(yōu)先級(jí)流量在PFC機(jī)制觸發(fā)后的自動(dòng)降速 情況和擁塞緩解后的恢復(fù)情況。記錄流量的吞吐量、延遲和丟包率等指標(biāo)。
配置RoCEv2 Server。配置VLAN Priority: 6,如下圖所示:。

- PFC測(cè)試結(jié)果分析 :
o 檢查高優(yōu)先級(jí)流量是否在擁塞時(shí)被正確暫停,并在擁塞緩解后恢復(fù)傳輸。
o 分析低優(yōu)先級(jí)流量的吞吐量和延遲變化,確保其不受PFC機(jī)制的影響。
o 評(píng)估網(wǎng)絡(luò)設(shè)備在PFC機(jī)制下的整體性能表現(xiàn),是否存在優(yōu)先級(jí)調(diào)度失效等問(wèn)題。
查看端口的Basic和PFC統(tǒng)計(jì),可以看到端口1發(fā)出的流降速到28%。PFC統(tǒng)計(jì)正確,如下圖所示:

配置RoCEv2 Server。配置VLAN Priority: 6,如下圖所示:。
- ECN測(cè)試方法
· 配置ECN功能 :在測(cè)試儀和被測(cè)設(shè)備上啟用ECN功能,并設(shè)置ECN標(biāo)志位。
· 流量生成與發(fā)送 :測(cè)試儀生成帶有ECN標(biāo)志的流量,并向被測(cè)設(shè)備發(fā)送。
· 擁塞觸發(fā) :通過(guò)增加流量負(fù)載,使被測(cè)設(shè)備檢測(cè)到擁塞,并在數(shù)據(jù)包頭部標(biāo)記ECN標(biāo)志。
· CNP反饋機(jī)制測(cè)試 :接收端收到帶有ECN標(biāo)志的數(shù)據(jù)包后,生成CNP并發(fā)送給發(fā)送端。發(fā)送端根據(jù)CNP調(diào)整發(fā)送速率。
· 性能評(píng)估 :記錄流量的吞吐量、延遲和丟包率等指標(biāo),評(píng)估ECN機(jī)制在擁塞控制中的有效性,以及自動(dòng)降速功能對(duì)網(wǎng)絡(luò)性能的影響。
配置端口參數(shù),使能ECN,ECN配置成11(CE),如下圖所示:
配置RoCEv2 Server。配置VLAN ID, IP地址信息,保證ARP可以成功,如下圖所示:
配置QP流量,如下圖所示:

- ECN測(cè)試結(jié)果分析 :
o 檢查ECN標(biāo)志是否被正確標(biāo)記,并通過(guò)CNP反饋機(jī)制傳遞到發(fā)送端。
o 分析發(fā)送端是否根據(jù)CNP調(diào)整發(fā)送速率,以及調(diào)整后的吞吐量和延遲變化。
o 評(píng)估ECN機(jī)制在擁塞控制中的有效性,是否存在過(guò)度調(diào)整或調(diào)整不及時(shí)等問(wèn)題。
查看端口統(tǒng)計(jì)和流統(tǒng)計(jì)的RoCEv2統(tǒng)計(jì),如下圖

四、DarYu-X系列測(cè)試儀:智能無(wú)損網(wǎng)絡(luò)的驗(yàn)證引擎
信而泰公司推出的X2-100G-12QSFP28、X5-400G高密度測(cè)試儀是一款專(zhuān)為高端路由器、交換機(jī)以及數(shù)據(jù)中心交換機(jī)設(shè)計(jì)的高密度測(cè)試平臺(tái)。具備如下功能特性:
X2-100G RoCE測(cè)試板卡
高密度400G測(cè)試儀一體機(jī)
l 支持100G/200G/400G測(cè)試端口
l 支持L2(VLAN)和L3(DSCP)的QOS設(shè)置
l 支持RoCEv2流量的產(chǎn)生和發(fā)送
l 支持ECN/PFC使能和優(yōu)先級(jí)設(shè)置
l 每端口支持8000個(gè)QP,支持基于QP選擇流量端點(diǎn)
PFC/ECN流量測(cè)試是驗(yàn)證智能無(wú)損網(wǎng)絡(luò)性能的關(guān)鍵手段。通過(guò)科學(xué)的測(cè)試方案,可以全面評(píng)估PFC和ECN機(jī)制的有效性,優(yōu)化網(wǎng)絡(luò)配置,提高網(wǎng)絡(luò)的無(wú)損傳輸能力和整體性能。信而泰憑借其在測(cè)試領(lǐng)域的深厚積累,提供了全面的PFC/ECN流量測(cè)試解決方案,能夠滿(mǎn)足不同應(yīng)用場(chǎng)景的需求。無(wú)論是AI訓(xùn)練、高性能計(jì)算還是分布式存儲(chǔ),信而泰的測(cè)試方案都能為網(wǎng)絡(luò)設(shè)備制造商和運(yùn)營(yíng)商提供有力支持,助力智能無(wú)損網(wǎng)絡(luò)的發(fā)展。
審核編輯 黃宇
-
PFC
+關(guān)注
關(guān)注
49文章
1075瀏覽量
111761 -
分布式存儲(chǔ)
+關(guān)注
關(guān)注
4文章
182瀏覽量
20220
發(fā)布評(píng)論請(qǐng)先 登錄
和而泰發(fā)布智能烤箱整體解決方案
Bug 躲貓貓?信而泰X-NetFuzzer模糊測(cè)試,一鍵“照妖鏡”顯形!
適配“大下行 + 小上行” 場(chǎng)景:信而泰 2544 非對(duì)稱(chēng)測(cè)試操作指南
信而泰GPS異地測(cè)試解決方案:跨越空間的通信測(cè)試
攻擊逃逸測(cè)試:深度驗(yàn)證網(wǎng)絡(luò)安全設(shè)備的真實(shí)防護(hù)能力
浮思特 | 快充提速關(guān)鍵!SiC 功率器件如何優(yōu)化直流充電樁 PFC 模塊??
看不見(jiàn)的安全防線(xiàn):信而泰儀表如何驗(yàn)證零信任有效性
PON交換機(jī)一體化高效生產(chǎn)測(cè)試方案
Hunter OCT-8A如何一站式解決光貓功率校驗(yàn)與流量測(cè)試難題
解鎖高品質(zhì)音頻體驗(yàn):探索音頻質(zhì)量評(píng)估與測(cè)試的科學(xué)之道
信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代
萬(wàn)級(jí)UE 并發(fā)測(cè)試:信而泰揭秘 5G 小基站安全與性能的 “極限挑戰(zhàn)”
黑芝麻智能攜手Nullmax打造輔助駕駛主流量產(chǎn)方案
RDMA簡(jiǎn)介7之可靠傳輸
泰克科技功率器件雙脈沖測(cè)試解決方案
信而泰PFC/ECN流量測(cè)試方案:打造智能無(wú)損網(wǎng)絡(luò)的關(guān)鍵利器
評(píng)論