UltraScale架構(gòu)與Vivado?設(shè)計套件結(jié)合使用可提供如下這些新一代系統(tǒng)級功能:
· 針對寬總線進行優(yōu)化的海量數(shù)據(jù)流,可支持數(shù)Tb級吞吐量和最低時延
· 高度優(yōu)化的關(guān)鍵路徑和內(nèi)置高速存儲器,級聯(lián)后可消除DSP和包處理中的瓶頸
· 增強型DSP slice包含27x18位乘法器和雙加法器,可以顯著提高定點和IEEE 754標準浮點算法的性能與效率
· 第二代3D IC系統(tǒng)集成的晶片間帶寬以及最新3D IC寬存儲器優(yōu)化接口均實現(xiàn)階梯式增長
· 類似于ASIC的多區(qū)域時鐘,提供具備超低時鐘歪斜和高性能擴展能力的低功耗時鐘網(wǎng)絡(luò)
· 海量I/O和存儲器帶寬,用多個硬化的ASIC級100G以太網(wǎng)、Interlaken和PCIe? IP核優(yōu)化,可支持新一代存儲器接口功能并顯著降低時延
· 電源管理可對各種功能元件進行寬范圍的靜態(tài)與動態(tài)電源門控,實現(xiàn)顯著節(jié)能降耗
· 新一代安全策略,提供先進的AES比特流解密與認證方法、更多密鑰模糊處理功能以及安全器件編程
· 通過與Vivado工具協(xié)同優(yōu)化消除布線擁塞問題,實現(xiàn)了90%以上的器件利用率,同時不降低性能或增大時延
系統(tǒng)設(shè)計人員將這些系統(tǒng)級功能進行多種組合,以解決各種問題。下面的寬數(shù)據(jù)路徑方框圖可以很好地說明這一問題。見圖3.
圖3:Tb級I/O需要海量的并行數(shù)據(jù)路徑
圖中,數(shù)據(jù)速率高達Tbps的數(shù)據(jù)流從從左側(cè)流入再從右側(cè)流出。系統(tǒng)必須在左右兩側(cè)的I/O端口之間傳輸數(shù)據(jù)流,同時還要執(zhí)行必要的處理工作??梢酝ㄟ^高速串行收發(fā)器來進行I/O傳輸,運行速率高達數(shù)Gbps。一旦數(shù)Gbps的串行數(shù)據(jù)流進入器件,就必須扇出(fan out),以便與片上資源的數(shù)據(jù)流、路由和處理能力相匹配。
Tb級系統(tǒng)的設(shè)計挑戰(zhàn):時鐘歪斜與海量數(shù)據(jù)流
舉一個現(xiàn)實的實例,假設(shè)左側(cè)和右側(cè)I/O端口的帶寬為100Gb/s。這意味著片上資源也必須要處理至少100Gb/s的流量。設(shè)計人員一般采用512至1024位的寬總線或數(shù)據(jù)路徑來處理相關(guān)的數(shù)據(jù)吞吐量,產(chǎn)生一個與片上資源功能相匹配的系統(tǒng)時鐘。如果線速提高到400Gb/s,那么總線寬度達到1024至2048位也并不少見。
現(xiàn)在考慮一下這類總線的時鐘要求。在UltraScale架構(gòu)推出之前,高系統(tǒng)時鐘頻率運行會使這些海量數(shù)據(jù)路徑上的時鐘歪斜程度增大,甚至達到整個系統(tǒng)時鐘周期的將近一半。時鐘歪斜幾乎占用一半的時鐘周期,這種情況下設(shè)計方案需要依靠大量流水線才有可能達到目標系統(tǒng)性能。只剩下一半的時鐘周期可用于計算,因此得到可行解決方案的幾率就會很低。大量使用流水線不僅會占用大量寄存器資源,而且還會對系統(tǒng)的總時延造成巨大影響,這也再次證明了這種方法在當今的高性能系統(tǒng)中不可行。
UltraScale架構(gòu)提供類似ASIC時鐘功能
多虧UltraScale 架構(gòu)提供類似ASIC的多區(qū)域時鐘功能,使得設(shè)計人員現(xiàn)在可以將系統(tǒng)級時鐘放在整個晶片的任何最佳位置上,從而使系統(tǒng)級時鐘歪斜降低多達50%。將時鐘驅(qū)動的節(jié)點放在功能模塊的幾何中心并且平衡不同葉節(jié)點時鐘單元(leaf clock cell)的時鐘歪斜,這樣可以打破阻礙實現(xiàn)多Gb系統(tǒng)級性能的一個最大瓶頸。系統(tǒng)總體時鐘歪斜降低后,就無需再使用大量流水線,并可消除隨之而來的時延問題。UltraScale架構(gòu)中類似于ASIC的時鐘功能不僅能移除時鐘布置方面的限制,還能在系統(tǒng)設(shè)計中實現(xiàn)大量獨立的高性能、低歪斜時鐘源。這與前幾代可編程邏輯器件中所采用的時鐘方案完全不同。從系統(tǒng)設(shè)計人員的角度出發(fā),這種解決方案能輕松解決時鐘歪斜問題。
從容應(yīng)對海量數(shù)據(jù)流挑戰(zhàn)
極高性能應(yīng)用一般采用寬總線或?qū)挃?shù)據(jù)路徑來匹配路由到片上處理資源的數(shù)據(jù)流。然而采用寬總線來擴展性能時,除了要簡單處理時鐘歪斜問題外,還要應(yīng)對一系列自身挑戰(zhàn)。眾所周知,同類競爭架構(gòu)經(jīng)證實其適用于高性能設(shè)計的布線資源非常有限且缺乏靈活性。如果FPGA的互連架構(gòu)性能較低,那么用它來實現(xiàn)100Gb/s吞吐量的應(yīng)用時,需要將數(shù)據(jù)總線提升到1536至2048位的寬度。
盡管更寬的總線實現(xiàn)方案可以降低系統(tǒng)時鐘頻率,但由于缺乏支持寬總線系統(tǒng)所需的布線資源,因此會產(chǎn)生嚴重的時序收斂問題。而且有些FPGA廠商采用的是過時的模擬退火布局布線算法,不考慮擁塞程度和總線路長度等全局設(shè)計指標,因此會進一步加劇時序收斂問題。這樣,設(shè)計人員就不得不進行多方面權(quán)衡,包括降低系統(tǒng)性能(通常不可取);使用大量流水線,不惜增大時延;或者降低可用器件資源利用率。在任何情況下,經(jīng)證明這些解決方案都是不佳或存在欠缺的方案。最重要的是,傳統(tǒng)FPGA中布線資源(用于滿足100Gb/s應(yīng)用的要求)的局限性幾乎可以說明它們不可能適用新一代多Tb應(yīng)用的要求,即便能適用,但器件的利用率會非常低,時延極高。
更為復(fù)雜的問題在于,通過大量的寬數(shù)據(jù)總線來擴展性能會帶來額外的代價,那就是需要顯著增加邏輯電路開銷用以支持寬總線的實施,從而進一步加大實現(xiàn)時序收斂的難度。
以以太網(wǎng)數(shù)據(jù)包大小為例可以很好地說明這個情況。以太網(wǎng)的數(shù)據(jù)包最小為64字節(jié)(512位)。假設(shè)采用2048位寬的總線來實現(xiàn)400G的系統(tǒng),那么總線最多容納4個數(shù)據(jù)包。
在2048位寬的總線中存在多種數(shù)據(jù)包組合形式,例如4個完整數(shù)據(jù)包或者1個、2個或3個完整或部分數(shù)據(jù)包,這樣需要使用大量邏輯來處理不同的情況與組合。需要大量復(fù)雜的重復(fù)邏輯來應(yīng)對這些可能的組合。此外,如果總線要求對四個數(shù)據(jù)包進行同時處理并寫入到存儲器中,那么可能需要對邏輯的某些部分進行加速(或擴展性能)。可以考慮通過邏輯加速或用四個獨立的相同存儲器控制器來相繼處理多個數(shù)據(jù)包,但這些方式會進一步加大布線資源的壓力,迫使架構(gòu)必須具備更多的高性能、低歪斜布線資源。參見圖4。

圖4:增加數(shù)據(jù)路徑時鐘寬度和時鐘速率需要更多邏輯和布線資源
半導(dǎo)體工藝的擴展影響互連技術(shù)
隨著業(yè)界向20nm或更高級半導(dǎo)體工藝技術(shù)推進,在與銅線互連有關(guān)的RC延遲方面出
現(xiàn)了新的挑戰(zhàn),它會阻礙向新工藝節(jié)點演進所實現(xiàn)的性能提升效果。晶體管互連延遲的增加會直接影響所能實現(xiàn)的總體系統(tǒng)性能,因此更加需要所使用的布線架構(gòu)能提供滿足新一代應(yīng)用要求的性能等級。UltraScale布線架構(gòu)在開發(fā)過程中充分考慮了新一代工藝技術(shù)的特點,而且能明顯減輕銅線互連的影響——如不進行妥善處理會成為系統(tǒng)性能瓶頸。
UltraScale互連架構(gòu):針對海量數(shù)據(jù)流進行優(yōu)化
UltraScale新一代互連架構(gòu)的推出體現(xiàn)了可編程邏輯布線技術(shù)的真正突破。賽靈思致力于滿足從多Gb智能包處理到多Tb數(shù)據(jù)路徑等新一代應(yīng)用需求,即必須支持海量數(shù)據(jù)流。在實現(xiàn)寬總線邏輯模塊(將總線寬度擴展至512位、1024位甚至更高)的過程中,布線或互連擁塞問題一直是影響實現(xiàn)時序收斂和高質(zhì)量結(jié)果的主要制約因素。過于擁堵的邏輯設(shè)計通常無法在早期器件架構(gòu)中進行布線;即使工具能夠?qū)砣脑O(shè)計進行布線,最終設(shè)計也經(jīng)常需要在低于預(yù)期的時鐘速率下運行。而UltraScale布線架構(gòu)則能完全消除布線擁塞問題。結(jié)論很簡單:只要設(shè)計合理,就能進行布線。
電子發(fā)燒友App



















評論