日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

當CPU算力趨近極限,GPU能否替代CPU滿足數(shù)字芯片設計的算力需求?

新思科技 ? 來源:新思科技 ? 2024-04-10 17:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

就數(shù)字設計實現(xiàn)而言,RTL-to-GDSII流程中的每一步都涉及海量計算。在SoC級別,開發(fā)者需要評估數(shù)百個分區(qū)的各種版圖規(guī)劃選項,從而更大限度減少互連中的延遲并提高效率。確定了版圖規(guī)劃后,需要在每個分區(qū)中繼續(xù)執(zhí)行其余步驟,直到完成整個芯片的實現(xiàn)與簽核環(huán)節(jié)。每個步驟的算力需求本身就很高,再乘以分區(qū)的數(shù)量,不禁讓人懷疑:傳統(tǒng)上用于數(shù)字設計的CPU是否已難堪重任?GPU能否替代CPU滿足這樣的算力需求?

目前,GPU以其在人工智能AI)/機器學習(ML)、游戲以及高性能計算等領域處理極具挑戰(zhàn)性的工作負載的強大能力而備受推崇。隨著芯片設計趨向更大尺寸與更高復雜性,將GPU的應用范圍延伸到數(shù)字芯片設計實現(xiàn)領域,或許正當其時。

EDA工作負載面臨的CPU算力瓶頸

CPU一直被譽為計算機的“大腦”?,F(xiàn)代CPU集成了數(shù)十億個晶體管和多個處理內核,適合執(zhí)行各種任務,并且處理速度極快。另一方面,GPU最初是為了特定用途而設計的,但隨著時間推移,GPU也逐漸演變?yōu)槟軌驈V泛用于并行處理任務的通用處理器了。

傳統(tǒng)上,電子設計自動化(EDA)的工作負載主要在基于x86架構的CPU上運行。然而,Multi-Die等復雜架構的普及,使得CPU的算力逐漸接近極限??紤]到芯片開發(fā)團隊經(jīng)常面臨產(chǎn)品上市時間的壓力,任何能加速芯片設計流程的工具和技術都將極具價值。在驗證和分析階段,由于GPU的卓越計算性能,新思科技的PrimeSim和VCS仿真流程已經(jīng)實現(xiàn)了顯著的速度提升。盡管GPU并不適用于數(shù)字設計流程中的所有環(huán)節(jié),但它在某些特定任務中無疑能夠提供速度上的優(yōu)勢。

在數(shù)據(jù)中心,每個機箱平均部署64至128個先進高性能x86 CPU內核,部分機箱甚至有多達200個內核。某些任務需求對內核數(shù)量要求更高,因此需要多個機箱協(xié)同進行分布式處理。但如果網(wǎng)速不匹配,這種分布式處理就會帶來額外的通信成本。RTL-to-GDSII流程和優(yōu)化技術中包含許多相互依賴的關系。要成功并行執(zhí)行流程中的每個作業(yè),進行分布式處理的各個CPU機箱之間必須能夠非??焖俚赝瓿蓴?shù)據(jù)共享,不能有任何延遲。然而在實際情況中,網(wǎng)絡延遲對處理周期時間有著顯著影響,進而導致整個RTL-to-GDSII流程的分布式并行難以達到理想效果。

另一方面,GPU內核可以輕松地進行擴展。由于每個GPU內核承擔的操作較少而且體積極小,一個插槽內可以集成數(shù)萬個內核,這樣便可在占用空間可控的情況下,提供強大的處理能力。那些能從大規(guī)模并行處理中受益的任務非常適合交由GPU處理。然而,這些任務通常需要是單向的,因為任何需要決策和迭代的任務都會減慢處理速度,“或者/并且”需要返回CPU進行復雜的“if then else”條件判斷邏輯。這就意味著,在RTL-to-GDSII數(shù)字實現(xiàn)流程中,并非所有任務都適合用GPU來執(zhí)行。

通過GPU加速來加快布局過程

在數(shù)字設計流程中,自動布局是一項已經(jīng)在GPU上得到充分應用并顯示出巨大潛力的任務。新思科技的Fusion Compiler采用了GPU加速布局技術,在商業(yè)環(huán)境下的原型測試中,相較于傳統(tǒng)CPU,已經(jīng)證明了其在縮短周轉時間方面的顯著優(yōu)勢:

38秒即可完成一個3nm GPU流式多處理器設計的布局,其中包含140萬個可布局標準單元和20個可布局硬宏,相比之下,CPU驅動的布局需要13分鐘才能完成

82秒即可完成一個12nm汽車CPU設計的布局,其中包含290萬個可布局標準單元和200個可布局硬宏,相比之下,CPU驅動的布局需要19分鐘才能完成

結合新思科技AI驅動的設計空間優(yōu)化解決方案DSO.ai,我們預計在保持相同完成時間線的前提下,將AI驅動型搜索空間擴大15至20倍。這一進步有望幫助開發(fā)團隊在功耗、性能和面積(PPA)方面實現(xiàn)更卓越的設計成果。

在數(shù)字設計的多個實施步驟中,版圖規(guī)劃和布局對最終設計的功耗、性能和面積(PPA)有著重大影響,因此這兩個步驟是最需要進行廣泛探索的環(huán)節(jié)。即便GPU計算資源通常與高性能CPU計算集群分離,我們也能預見,在基于GPU的布局技術支持下,開發(fā)者能夠高效完成工作。然而,在RTL-to-GDSII的整個實施流程中,如果其他環(huán)節(jié)存在即時或交替的GPU加速需求,設計數(shù)據(jù)在CPU與GPU集群之間的傳輸所引入的延遲,會對吞吐量產(chǎn)生影響。

新型數(shù)據(jù)中心SoC正在設計中引入CPU與GPU資源間的統(tǒng)一內存,以處理TB級的工作負載。得益于這類新興架構,利用GPU加速時不再需要移動設計數(shù)據(jù),我們也能進一步思考GPU加速還可以應用在數(shù)字設計流程的哪些其他方面。特別是當開發(fā)者能夠將GPU與AI驅動的實施工具結合使用時,那必將實現(xiàn)更快的探索、更廣的范圍以及更優(yōu)的結果。此外,新思科技的AI驅動型全棧式EDA解決方案Synopsys.ai,能夠助力開發(fā)者實現(xiàn)更佳的性能、功耗與面積(PPA)結果、更快達成目標、并顯著提升開發(fā)效率、實現(xiàn)更高的工程生產(chǎn)力,我們可以預見GPU加速技術的加入將進一步革新芯片設計領域。

總結

在芯片設計流程的仿真階段,GPU的運用已司空見慣,數(shù)字設計流程的其他部分也將逐漸展現(xiàn)出利用GPU加速的潛力。面對大型芯片或Multi-Die這類復雜架構,CPU在運行RTL-to-GDSII流程時的算力已接近飽和,難以滿足所期望的處理速度。而GPU以其卓越的可擴展性和處理能力,有望實現(xiàn)更快的設計周期和更佳的芯片性能。在使用GPU加速的布局工具進行的原型設計測試中,布局速度已實現(xiàn)高達20倍的提升。隨著AI技術逐步融入EDA流程中,GPU的加入將顯著提升功耗、面積和性能(PPA)指標,同時縮短產(chǎn)品上市時間。

審核編輯:劉清
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SoC設計
    +關注

    關注

    1

    文章

    151

    瀏覽量

    19614
  • 人工智能
    +關注

    關注

    1821

    文章

    50367

    瀏覽量

    267075
  • RTL
    RTL
    +關注

    關注

    1

    文章

    395

    瀏覽量

    62904
  • 數(shù)字芯片

    關注

    1

    文章

    120

    瀏覽量

    19104
  • GPU芯片
    +關注

    關注

    1

    文章

    307

    瀏覽量

    6562

原文標題:當CPU算力趨近極限,GPU能否成為數(shù)字芯片設計的救星?

文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    基于openEuler平臺的CPUGPU與FPGA異構加速實戰(zhàn)

    隨著 AI、視頻處理、加密和高性能計算需求的增長,單一 CPU 已無法滿足低延遲、高吞吐量的計算需求。openEuler 作為面向企業(yè)和云端的開源操作系統(tǒng),在 多樣
    的頭像 發(fā)表于 04-08 11:02 ?939次閱讀
    基于openEuler平臺的<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>與FPGA異構加速實戰(zhàn)

    國產(chǎn)出海元年開啟

    ? 國產(chǎn)開啟“大航?!睍r代。 黃仁勛前段時間訪華時曾表示:“華為AI芯片取代英偉達只是時間問題?!北藭r,這話多被解讀為對老對手的客套。但在剛剛結束的2025世界人工智能大會上,華為昇騰384超
    的頭像 發(fā)表于 03-24 15:15 ?609次閱讀
    國產(chǎn)<b class='flag-5'>算</b><b class='flag-5'>力</b>出海元年開啟

    云天勵飛正式舉辦大芯片戰(zhàn)略前瞻會

    2月3日,云天勵飛正式舉辦“大芯片戰(zhàn)略前瞻會”,首次對外公布未來三年的大 AI 推理芯片
    的頭像 發(fā)表于 02-06 17:23 ?3897次閱讀

    中國芯片的拐點時刻

    作者|Taylor出品|芯片技術與工藝OpenAI的GPT-5在得克薩斯州的機房中晝夜轟鳴,Nvdia的H200芯片被炒至數(shù)十萬美元仍一卡難求,中國的
    的頭像 發(fā)表于 01-31 07:00 ?2097次閱讀
    中國<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>的拐點時刻

    進迭時空發(fā)布新一代RISC-V AI CPU芯片,滿足端側大模型需求

    FP8數(shù)據(jù)精度原生AI推理,還是首顆完整支持芯片級虛擬化的RISC-V產(chǎn)品。 ? 硬件配置上,K3配備8顆高性能X100大核,主頻2.4GHz,單核性能與ARM A76相,60TOPS的AI
    的頭像 發(fā)表于 01-30 14:06 ?9589次閱讀

    GPU 利用率<30%?這款開源智云平臺讓不浪費 1%

    作為 AI 開發(fā)者,你是否早已受夠這些困境:花數(shù)百萬采購的 GPU 集群,利用率常年低于 30%,閑置如同燒錢;跨 CPU/GPU/NP
    的頭像 發(fā)表于 01-26 14:20 ?299次閱讀

    將AI送上太空,是終極方案還是瘋狂幻想?評論區(qū)說出你的陣營!

    AI
    江蘇易安聯(lián)
    發(fā)布于 :2026年01月06日 09:43:34

    賦能電源芯片國產(chǎn)替代,智芯谷助力AI穩(wěn)定前行

    需求激增與技術迭代的雙重壓力下,電源管理芯片也正面臨設計復雜度提升、供應鏈波動加劇、國產(chǎn)替代進程加速等多重挑戰(zhàn)。一、增長背后的“供電危機
    的頭像 發(fā)表于 12-30 12:02 ?846次閱讀
    賦能電源<b class='flag-5'>芯片</b>國產(chǎn)<b class='flag-5'>替代</b>,智芯谷助力AI<b class='flag-5'>算</b><b class='flag-5'>力</b>穩(wěn)定前行

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    CPUGPU到NPU,美格智能持續(xù)優(yōu)化異構計算效能

    前言AI已成為數(shù)字經(jīng)濟時代的核心生產(chǎn),但全球AI產(chǎn)業(yè)正面臨“供給不足、成本高企、生態(tài)待建”三重挑戰(zhàn)。據(jù)行業(yè)統(tǒng)計,行業(yè)
    的頭像 發(fā)表于 11-21 16:05 ?1347次閱讀
    從<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>到NPU,美格智能持續(xù)優(yōu)化異構<b class='flag-5'>算</b><b class='flag-5'>力</b>計算效能

    國產(chǎn)AI芯片真能扛住“內卷”?海思昇騰的這波操作藏了多少細節(jié)?

    最近行業(yè)都在說“是AI的命門”,但國產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實測下來有點超出預期——7nm工藝下
    發(fā)表于 10-27 13:12

    與電力的終極博弈,填上了AIDC的“電力黑洞”

    ),專注于提供人工智能訓練與推理所需的服務、數(shù)據(jù)服務和算法服務。AIDC采用異構計算架構,結合GPU、FPGA、ASIC等多種AI加速芯片,形成高并發(fā)分布式系統(tǒng),以
    的頭像 發(fā)表于 09-22 02:43 ?9066次閱讀

    板卡:驅動智能時代的核心引擎

    、科學計算等領域的核心硬件,支撐著現(xiàn)代數(shù)字化社會的運轉。 板卡的核心作用 ? 板卡是一種專為高性能計算設計的硬件模塊,通常以加速卡的
    的頭像 發(fā)表于 08-01 10:25 ?1753次閱讀

    熱插拔集群

    能力? 服務器節(jié)點熱插拔?:集群服務器支持在線更換計算節(jié)點(如2U服務器容納12個熱插拔AI節(jié)點,單節(jié)點集成5個卡)。 GPU/卡擴
    的頭像 發(fā)表于 06-26 09:20 ?1279次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】+NVlink技術從應用到原理

    前言 【「芯片 | 高性能 CPU/GPU/NPU 微架構分析」書中的芯片知識是比較接近當前
    發(fā)表于 06-18 19:31
    北碚区| 贵港市| 万州区| 监利县| 庆云县| 正镶白旗| 隆林| 湖南省| 榆社县| 溆浦县| 东乡| 浏阳市| 金沙县| 开原市| 荔浦县| 隆化县| 漳平市| 长顺县| 科技| 瓮安县| 蓝田县| 共和县| 商南县| 安顺市| 师宗县| 榆中县| 广汉市| 武隆县| 驻马店市| 崇阳县| 界首市| 四会市| 吉安县| 桦川县| 会宁县| 蒙山县| 新乐市| 福安市| 蒲江县| 黄陵县| 七台河市|