隨著業(yè)務轉型發(fā)展帶來的信息化系統(tǒng)建設,云應用程序正在快速發(fā)展。單體應用程序正在讓位于分布式服務,推動了數(shù)據中心基礎設施網絡流量的增加,流量的持續(xù)增長也推動著數(shù)據中心網絡往更快、更大帶寬和更低延遲的高速網絡方向發(fā)展。
Spine+Leaf網絡架構
直到幾年前,大多數(shù)的數(shù)據中心網絡還都是基于傳統(tǒng)的三層架構,對于大多數(shù)具有像園區(qū)網絡這樣的縱向(North-South)配置的流量模型來說是很實用的,而且三層網絡結構應用廣泛而且技術成熟穩(wěn)定。一個標準的傳統(tǒng)三層的網絡結構如圖1-1所示:

圖1-1 傳統(tǒng)三層網絡架構
但隨著云計算的發(fā)展,橫向(East-West)流量在數(shù)據中心占據主導地位,涵蓋幾乎所有的云計算,虛擬化以及大數(shù)據橫向網絡在縱向設計的網絡拓撲中傳輸數(shù)據會帶有傳輸?shù)钠款i,因為數(shù)據經過了許多不必要的節(jié)點(如路由和交換機等設備)。主機互訪需要通過層層的上行口,帶來明顯的性能衰減,而三層網絡的原始設計更會加劇這種性能衰減。
由此,就有了IP Fabric概念,IP Fabric指的是在IP網絡基礎上建立起來的Overlay/隧道技術。如圖1-2所示為基于胖樹的Spine+Leaf拓撲結構的IP Fabric組網圖。

圖1-2 IP Fabric網絡的兩層架構
在這種組網方式中,任何兩臺服務器間的通信不超過3臺設備,每個Spine和Leaf節(jié)點全互連,可以方便地通過擴展Spine節(jié)點來實現(xiàn)網絡規(guī)模的彈性擴展。只要遍歷一定數(shù)量的交換機,可以在幾乎所有數(shù)據中心結構體系結構中的服務器節(jié)點之間傳輸流量。該架構由多條高帶寬的直接路徑組成,消除了網絡瓶頸帶來的潛在傳輸速度下降,從而實現(xiàn)極高的效率和低延遲。

圖1-3 Spine-leaf架構
用盒式機代替?zhèn)鹘y(tǒng)框式機
在設計和建設一個數(shù)據中心的網絡時,我們需要充分考慮到至少未來5年的技術、行業(yè)需求發(fā)展和運營成本開支,從而更優(yōu)化地使用現(xiàn)有的數(shù)據中心資源服務于企業(yè)核心業(yè)務。
在網絡交換機選型是整個數(shù)據中心網絡設計的關鍵因素之一。傳統(tǒng)的大型網絡設計選擇框式設備,以提高整個網絡系統(tǒng)的容量上限,并提供的有限的可擴展性,但是相應的,存在如下的限制和風險:
框式設備總體容量有限,已經不能滿足數(shù)據中心不斷增長的網絡規(guī)模需求。
核心框式設備采用雙連接方式部署,故障半徑高達50%,無法有效保障業(yè)務安全。
框式設備部署實施復雜,故障診斷和排除周期長,升級維護的業(yè)務中斷時間長。
為保障后期業(yè)務擴容,框式設備預留插槽,使得前期的投資成本提升。
所以在網絡設備選型方面,我們建議用整網盒式交換機組網,不同層級的交換機型號統(tǒng)一,便于維護團隊快速熟悉,同時后期的網絡架構調整,設備復用和維修替換提供可操作的空間。
建設初期的網絡投資(擁有成本TCO)也大大縮小的同時,Spine-Leaf(CLOS)架構配合盒式交換機組網,提供了可橫向擴展的能力。即便spine交換機故障離線,也僅僅影響小部分網絡帶寬,業(yè)務完全無感知。后續(xù)擴展方面,僅需要根據數(shù)據中心的規(guī)模需求,添加交換機數(shù)量和層級,相應的擴展網絡的接入容量和骨干網絡交換容量。整個網絡按需采購和部署,一切服務與應用和業(yè)務需求。
Overlay網絡
Overlay網絡是建立在已有物理網絡上的虛擬網絡,具有獨立的控制和轉發(fā)平面,對于連接到Overlay的終端設備(例如服務器)來說,物理網絡是透明的,從而可以實現(xiàn)承載網絡和業(yè)務網絡的分離,如圖1-4所示:

圖 1-4 Overlay/Underlay網絡概念圖
Overlay網絡有著各種網絡協(xié)議和標準,包括VXLAN、NVGRE、SST、GRE、NVO3、EVPN等。
VXLAN
VXLAN(Virtual eXtensible LAN,可擴展虛擬局域網絡)是基于IP網絡、采用“MAC in UDP”封裝形式的二層VPN技術。VXLAN可以基于已有的服務提供商或企業(yè)IP網絡,為分散的物理站點提供二層互聯(lián),并能夠為不同的租戶提供業(yè)務隔離。VXLAN 主要應用于數(shù)據中心網絡和園區(qū)接入網絡。

圖 1-5 VXLAN模型
初始的IET FVXLAN 標準 (RFC 7348) 定義了一個基于組播、不采用控制平面的“泛洪和學習”的VXLAN。它對遠程 VXLAN 的VTEP(虛擬隧道末端點)發(fā)現(xiàn)和遠程終端主機MAC學習依靠數(shù)據驅動式泛洪進行。重疊廣播、未知單播和組播流量封裝到組播VXLAN數(shù)據包并通過底層組播轉發(fā)傳輸?shù)竭h程VTEP交換機。此類部署中的泛洪可能給解決方案的可擴展性帶來挑戰(zhàn)。在底層網絡中啟用組播功能的要求也會帶來挑戰(zhàn),因為某些組織不希望在其數(shù)據中心或廣域網網絡中啟用組播。

圖 1-6 flood-learn
如圖1-6,假設最左側虛機已經知道目的MAC了(VTEP中的L2 Table已經老化,虛機中的ARP cache還沒老化)。當最左側虛機想ping最右側虛機,ping包送到VTEP,因為在VTEP中找不到對應的Remote VTEP,VTEP會做如下操作:
(1)原始的Ethernet Frame被封裝成VXLAN格式,VXLAN包的外層目的IP地址為組播地址。
(2)VXLAN數(shù)據包被發(fā)送給組播內所有其他VTEP。
VXLAN-EVPN部署彈性網絡
VXLAN由RFC7348定義,其中只定義了數(shù)據層的行為,并沒有指定VXLAN控制層。在VXLAN技術早期,通過數(shù)據層的來獲取轉發(fā)信息,在實現(xiàn)上較為簡單,相應的技術門檻較低,有利于廠商實現(xiàn)VXLAN。但是隨著網絡規(guī)模的發(fā)展,完全依賴數(shù)據層做控制會造成網絡中廣播組播風暴,因此VXLAN也需要有一個控制層。
VXLAN 重疊網絡在“泛洪和學習”模式下運行,在此模式下,終端主機信息學習和 VTEP 發(fā)現(xiàn)均由數(shù)據平面驅動,在VTEP之間沒有控制協(xié)議分發(fā)終端主機可達性信息,要克服此局限,可以將多協(xié)議邊界網關協(xié)議以太網虛擬專用網絡 (MP-BGP EVPN) 用作VXLAN控制平面。
有了控制層數(shù)據,數(shù)據層就簡單多了。Server A想訪問Server B,通過查找本地VTEP L2 Table找到VTEP2,再封裝成VXLAN數(shù)據發(fā)送到VTEP2,VTEP2將VXLAN解封裝,轉發(fā)給本地的Server B。所以可以看出,從數(shù)據層面角度來看,有沒有EVPN效果都是一樣的。EVPN只負責VXLAN的控制層面,也就是MAC轉發(fā)信息的傳輸,對VXLAN數(shù)據層面沒有影響。

圖 1-7 EVPN作為控制平面
VXLAN作為新型的網絡隔離技術,在RFC 7348定義中有24比特,支持多達16M(約1600萬)租戶隔離,有效地解決了云計算中海量租戶隔離的問題。在VTEP本地進行VLAN 隔離和跨越設備的VNI隔離(VLAN到VNI的映射),組成結合物理網絡隔離和虛擬網絡的Overlay網絡。
采用EVPN作為VXLAN的控制平面具有以下優(yōu)勢:
可實現(xiàn)VTEP自動發(fā)現(xiàn)、VXLAN隧道自動建立,從而降低網絡部署、擴展的難度。
EVPN可以同時發(fā)布二層MAC信息和三層路由信息。
可以減少網絡中的泛洪流量。
我們的方案
在HPC、AI、5G、云計算場景中的,數(shù)據中心網絡需要滿足帶寬、時延、穩(wěn)定性的高要求,同時支持網絡虛擬化。納多德NADDOD與NVIDIA推出支持25/100/200GbE到服務器、高密度100/200/400GbENvidiaOpen Ethernet Spectrum交換機和無控制器網絡虛擬化的開放平臺。可部署在第2層和第3層云設計中、基于覆蓋的虛擬化網絡中,或作為高性能、關鍵任務以太網存儲結構的一部分??煽绺鞣N應用領域(例如云計算、數(shù)據存儲、人工智能等)提供行業(yè)領先的性能、可擴展性、可靠性和價值。由此,我們推出了如下兩種方案:
針對25G接入100G骨干場景:
NVIDIA SN3700C+ SN3420組合方案:
SN3700C是高密度 32x100GbE SPINE Switch
SN3420 是具有原生 25GbE 端口的LEAF Switch,支持 48x25GbE 和 8x100GbE 端口

也可也選擇NVIDIA SN2700(32x100GbE)+ SN2410( 48x25GbE 和 8x100GbE)組合方案,時延可低至300ns,滿足更低時延需求。
針對100G接入400G骨干場景:
NVIDIA SN4700+ SN4410組合方案:
SN4700是高密度 32x400GbE SPINE Switch
SN4410 支持48x100GbE 和 8x400GbE 端口,QSFP28-DD接口可一分二QSFP28,提供100G的接入能力,用于連接主機100G接口,或者下一級100G上聯(lián)口。

我們的優(yōu)勢
高性能100/200/400 GbE數(shù)據平面
網絡是數(shù)據中心服務器流量的自然匯聚點。不同租戶流量之間的網絡性能和“公平性”至關重要。
NVIDIA Spectrum交換機具有完全共享的整體式數(shù)據包緩存架構,可實現(xiàn)公平帶寬共享。支持所有數(shù)據包大小的 100/200/400 GbE 流量的無阻塞線速L3服務,且SN2000系列在直通模式下支持 300ns 的零抖動延遲支持。是高性能低延遲需求的理想選擇。
RoCE over EVPN-VXLAN
數(shù)據中心網絡部署方案和產品越來越成熟和標準化,有效的提升了業(yè)務部署的速度,并降低運維的成本。于此同時,業(yè)務需求推動數(shù)據中心應用也對基礎設施提出更高的需求,包含算力,存儲和網絡資源。為了能匹配上層需求,算力/存儲/網絡資源的橫向擴展,就網絡設計而言,網絡虛擬化需要在提升規(guī)模的同時,對于高性能的業(yè)務提供支持。網絡虛擬化與RoCE的結合,使得大型高性能數(shù)據中心的方案更加完整。

WJH功能快速故障定位,提升運維效率
實時的網絡故障可視化監(jiān)控,是運維大規(guī)模網絡比不可少的技術手段?,F(xiàn)代數(shù)據中心的技術要求也證明了,簡化組網協(xié)議,深度實時的網絡可視化能力,是整體技術發(fā)展的趨勢。NVIDIA Spectrum 交換機通過 NVIDIA What Just Happened(故障快照)支持詳細的上下文遙測數(shù)據。故障快照可在問題發(fā)生后,以異常事件的形式上送給網管或者第三方監(jiān)控平臺,并提供報文抓取和芯片級的問題原因。無論是否為配置問題,運維人員可以直接看到故障影響的業(yè)務和原因,進而快速的采取措施,排除異常,從而大大縮短了解決問題的平均時間。
總結和展望
根據企業(yè)數(shù)據中心的發(fā)展趨勢和技術預測,數(shù)據中心將逐步分布式化,多數(shù)據中心也正逐漸成為數(shù)據中心發(fā)展的趨勢,網絡技術作為數(shù)據中心基礎設施的重要一環(huán),也將持續(xù)打造超高速網絡連接,提升系統(tǒng)訪問效率和用戶服務體驗。
NVIDIA Spectrum 以太網交換機Cumulus Linux為業(yè)界帶來了第一個開放且無控制器VXLAN 解決方案。它將高度可擴展的 BGP EVPN與VXLAN 解決方案相結合,在許多大型數(shù)據中心通過Spine-Leaf架構在整個網絡中提供出色的彈性和低延遲,根據需要輕松進行水平擴展,推動數(shù)據中心網絡的高質量發(fā)展。
審核編輯:湯梓紅
-
交換機
+關注
關注
23文章
2937瀏覽量
104902 -
數(shù)據中心
+關注
關注
18文章
5780瀏覽量
75213
發(fā)布評論請先 登錄
共模半導體數(shù)據中心光模塊芯片解決方案
英威騰液冷解決方案助力應對數(shù)據中心算力熱浪
Amphenol LTW:數(shù)據中心互連解決方案的創(chuàng)新先鋒
Amphenol LTW:數(shù)據中心互連解決方案的創(chuàng)新先鋒
海辰儲能發(fā)布面向AI數(shù)據中心的儲能解決方案
睿海光電以高效交付與廣泛兼容助力AI數(shù)據中心800G光模塊升級
加速AI未來,睿海光電800G OSFP光模塊重構數(shù)據中心互聯(lián)標準
英威騰入選2024綠色低碳數(shù)據中心產品及解決方案推薦目錄
簡單認識安森美AI數(shù)據中心電源解決方案
中型數(shù)據中心中的差分晶體振蕩器應用與匹配方案
小型數(shù)據中心晶振選型關鍵參數(shù)全解
利用NVIDIA技術構建從數(shù)據中心到邊緣的智慧醫(yī)院解決方案
數(shù)據中心能源監(jiān)測物聯(lián)網解決方案
高速率數(shù)據中心解決方案
評論