日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解析Roofline模型實踐

Linux閱碼場 ? 來源:面包板社區(qū) ? 作者:Linux閱碼場 ? 2021-04-28 16:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在多核異構(gòu)的時代,軟件人員普遍面臨的一個困惑是,面對如此復雜的系統(tǒng),應該如何部署我們的算法,是應該讓它運行在CPUGPU還是甚至類似TPU的專門ASIC上才是最佳方案?另外給定特定的計算平臺,我們的算法實現(xiàn)是不是已經(jīng)榨干硬件平臺的最大能力,還有沒有進一步改善的空間?這些問題尋尋覓覓答案,真像霧里看花,我們渴望有一雙慧眼,幫我們穿透迷津。

在衡量計算效能的正確姿勢我們提到了內(nèi)存帶寬(memory bandiwidth)和以FLOPS為代表的算力是可以很好的刻畫計算平臺的兩個指標。同時既然是要衡量算法的性能自然我們也要考慮算法的特性。基于此,論文《Roofline: An Insightful Visual Performance Model for Floating-Point Programs and Multicore Architectures》提出了Roofline模型,試圖對硬件和軟件通盤考慮,從而提出改善性能的洞見。

這里我們試著解釋如下,首先我們要介紹運算強度(arithmetic intensity,簡寫成AI)的概念,指的是針對單位內(nèi)存讀寫數(shù)據(jù)進行的運算次數(shù),以FLOP/Byte為單位。比如衡量計算效能的正確姿勢(2)介紹過的SAXPY,每次迭代,有三次內(nèi)存訪問(x讀一次,y讀寫各一次),而有兩次浮點運算(乘加各一次),所以其AI為(2 * N) / (3 * N * 4) = 1/6。

int N = 1 《《 22;

void saxpy(float a, float *x, float *y){

for (int i = 0; i 《 N; ++i)

y[i] = a*x[i] + y[i];

}

引進AI后,算力FLOPS就可以用以下公式來計算。

e6fcb8b8-a7f7-11eb-9728-12bb97331649.png

兩邊取對數(shù),

e7379988-a7f7-11eb-9728-12bb97331649.png

以logFLOPS為Y,logAI為X,我們可以得到斜截式 Y = X + logBW,另對特定平臺,算力FLOPS存在極限值,據(jù)此我們可以作如下圖。

e7486da8-a7f7-11eb-9728-12bb97331649.png

圖中紫色的線條是不是很類似屋脊線,這正是該模型命名的由來。以脊點為界,左邊區(qū)域構(gòu)成內(nèi)存帶寬瓶頸區(qū)域,右邊區(qū)域?qū)懔ζ款i區(qū)域。已知某算法的AI,其最大可獲取FLOPS很容易計算得到,見如下公式,為AI所在豎直線與Roofline的交點。如算法Algo1的AI處于內(nèi)存帶寬受限區(qū)域,而算法Algo2的AI則位于算力受限區(qū)域,如果Algo1和Algo2為同一問題兩種算法方案,顯然Alg2更有機會獲取滿意的FLOPS。

e77db544-a7f7-11eb-9728-12bb97331649.png

上面公式代表了理想化的情形,實際操作中,存在各種各樣的天花板(Ceiling)障礙,算法優(yōu)化的過程就是反復突破這些障礙而盡量接近roofline,最后得到理想的性能。如下圖過程展示,介紹如何通過改善算法的數(shù)據(jù)局部性以充分利用Cache,并通過向量化而調(diào)用SIMD硬件資源來達到這一目的。

e7a00b3a-a7f7-11eb-9728-12bb97331649.png

除了上面介紹的Roofline模型能夠讓我們在特定平臺“紙上談兵”改善算法性能,Roofline也可以可視化同一算法部署在不同平臺時候性能的比較,結(jié)果讓人一目了然。在Google的有關(guān)TPU(TPU是Google開發(fā)的專門用于神經(jīng)網(wǎng)絡算法加速的芯片)的論文《In-Datacenter Performance Analysis of a Tensor Processing Unit》里,作者利用Roofline圖表來比較各種神經(jīng)網(wǎng)絡算法分別部署在同時代CPU、GPU和TPU的性能差異,令人印象深刻。五角星、三角形、圓形分別代表對應算法在TPU、GPU和CPU上運行狀況。

e8b3005e-a7f7-11eb-9728-12bb97331649.png

需要指出的是,Roofline模型在實踐中并不像想象般容易,運用的時候有很多細微的地方需要仔細推敲。但它仍不失為非常insightful的尋寶圖,如果你能學會正確解讀,它完全有機會幫我們找到算法性能優(yōu)化的巨大寶藏。以后我們會有很多場合涉及它的理念和具體用法,敬請期待。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1278

    瀏覽量

    124996
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11337

    瀏覽量

    226009
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4810

    瀏覽量

    98619

原文標題:Roofline模型初步

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    零基礎手寫大模型資料2026

    零基礎純代碼手寫大模型:從數(shù)學原理到工程實踐的技術(shù)解析 在深度學習框架高度封裝的今天,理解大模型底層原理的開發(fā)者愈發(fā)稀缺。本文將剝離復雜框架的依賴,從數(shù)學基礎出發(fā),
    發(fā)表于 05-01 17:44

    中軟國際攜手華為基于昆侖大模型賦能油氣數(shù)智化轉(zhuǎn)型的創(chuàng)新實踐

    3月20日,在華為中國合作伙伴大會2026“共筑混合云繁榮生態(tài),共贏政企數(shù)智化未來行業(yè)”論壇中,中軟國際受邀作“深耕油氣生產(chǎn),攻堅智能場景落地,推進規(guī)模化復制”的主題分享,系統(tǒng)闡述了公司攜手華為基于昆侖大模型賦能油氣數(shù)智化轉(zhuǎn)型的創(chuàng)新實踐。
    的頭像 發(fā)表于 03-25 14:39 ?605次閱讀

    百度正式發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發(fā)布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數(shù)的輕量架構(gòu),在全球權(quán)威文檔解析評測榜單 OmniDocBench V
    的頭像 發(fā)表于 01-30 10:03 ?841次閱讀
    百度正式發(fā)布并開源新一代文檔<b class='flag-5'>解析</b><b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    醫(yī)療后勤應急保障大模型智能調(diào)度系統(tǒng):功能特點與平臺架構(gòu)解析

    ? ? 醫(yī)療后勤應急保障大模型智能調(diào)度系統(tǒng)技術(shù)解析 ? ?北京華盛恒輝醫(yī)療后勤應急保障大模型智能調(diào)度系統(tǒng),融合大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等前沿技術(shù),聚焦醫(yī)療應急物資、設備、人員等資源的實時感知、智能
    的頭像 發(fā)表于 12-23 15:57 ?316次閱讀

    模型驅(qū)動的星間鏈路動態(tài)組網(wǎng)分系統(tǒng):功能特點與平臺架構(gòu)解析

    模型賦能的星間鏈路動態(tài)組網(wǎng)分系統(tǒng)技術(shù)解析 ? ?北京華盛恒輝大模型驅(qū)動的星間鏈路動態(tài)組網(wǎng)分系統(tǒng),融合人工智能大模型與衛(wèi)星通信核心技術(shù),聚焦衛(wèi)星間動態(tài)智能組網(wǎng)及通信鏈路優(yōu)化,核心優(yōu)勢在
    的頭像 發(fā)表于 12-23 14:52 ?360次閱讀

    基于大模型ai的地面測控站網(wǎng)調(diào)度分系統(tǒng):功能特點與平臺架構(gòu)解析

    ? ? 大模型AI驅(qū)動的地面測控站網(wǎng)調(diào)度分系統(tǒng):航天智能化核心技術(shù)解析 ? ?北京華盛恒輝大模型AI驅(qū)動的地面測控站網(wǎng)調(diào)度分系統(tǒng)作為航天領(lǐng)域智能化轉(zhuǎn)型的關(guān)鍵支撐,大模型AI驅(qū)動的地面測
    的頭像 發(fā)表于 12-19 15:13 ?467次閱讀

    模型支撐后勤保障方案生成系統(tǒng):功能特點與平臺架構(gòu)解析

    ? ? 大模型支撐后勤保障方案生成系統(tǒng):功能特點與平臺架構(gòu)解析 ? ?大模型支撐后勤保障方案生成系統(tǒng)憑借智能預測、動態(tài)調(diào)度、路徑優(yōu)化、庫存管理及可視化展示等核心能力,為后勤保障方案生成系統(tǒng)提供關(guān)鍵
    的頭像 發(fā)表于 12-17 15:49 ?433次閱讀

    模型賦能物資需求精準預測與采購系統(tǒng):功能特點與平臺架構(gòu)解析

    ? ? 大模型賦能物資需求預測與采購智能化:核心功能與價值解析 ? ?大模型賦能物資需求精準預測與采購系統(tǒng)通過深度整合多源數(shù)據(jù)、構(gòu)建動態(tài)預測模型及優(yōu)化采購策略,可大幅提升物資需求預測精
    的頭像 發(fā)表于 12-16 11:54 ?480次閱讀

    后勤資源大模型智能調(diào)度系統(tǒng):功能特點與平臺架構(gòu)解析

    ? ? 后勤資源大模型智能調(diào)度系統(tǒng)解析 ? ?后勤資源大模型智能調(diào)度系統(tǒng)融合大數(shù)據(jù)、人工智能與機器學習技術(shù),針對物資、設備、人員、運輸工具等后勤資源,通過實時感知、智能決策與動態(tài)優(yōu)化,實現(xiàn)資源合理
    的頭像 發(fā)表于 12-15 16:35 ?454次閱讀

    深度解析 | 低抖動高精度EtherCAT多軸控制的實現(xiàn)與實踐案例

    深度解析 | 低抖動高精度EtherCAT多軸控制的實現(xiàn)與實踐案例 在工業(yè)自動化領(lǐng)域,運動控制的精度和穩(wěn)定性直接決定了生產(chǎn)效率和產(chǎn)品質(zhì)量。其中EtherCAT多軸控制技術(shù)尤為引人注目。今天,我們
    發(fā)表于 12-09 17:17

    NVMe高速傳輸之擺脫XDMA設計27: 橋設備模型設計

    Switch 上游虛擬 PCI 橋。 此外還包含一個 TYPE1 類型的配置空間封裝類, 用來模擬配置空間寄存器組。 模型的每個端口的輸入端對接一個 TLP事務處理程序, 該程序負責將接收到的 TLP 事務進行解析和路由轉(zhuǎn)發(fā)。
    發(fā)表于 09-18 09:11

    模型工具的 “京東答案”

    成為現(xiàn)代職場人提升價值產(chǎn)出的關(guān)鍵競爭力。大模型工具的發(fā)展現(xiàn)狀如何?有哪些落地的業(yè)務實踐?大模型工具建設的未來藍圖是什么?圍繞這些問題,京東內(nèi)部開展了一場大模型工具的探索
    的頭像 發(fā)表于 08-25 16:09 ?698次閱讀

    AIcube1.4目標檢測模型導入yolotxt格式數(shù)據(jù)集后一直顯示數(shù)據(jù)正在解析,為什么?

    AIcube1.4目標檢測模型導入yolotxt格式數(shù)據(jù)集后一直顯示數(shù)據(jù)正在解析 數(shù)據(jù)有問題,把數(shù)據(jù)情況說的詳細點
    發(fā)表于 08-13 07:16

    cubemx導入模型后找不到keil找不到工程內(nèi)的模型的相關(guān)文件是怎么回事?

    模型在cubemx內(nèi)解析后沒有問題,但解析之后生成工程keil內(nèi)缺讀取不到生成的三個模型文件
    發(fā)表于 07-18 07:18

    NVIDIA使用Qwen3系列模型的最佳實踐

    阿里巴巴近期發(fā)布了其開源的混合推理大語言模型 (LLM) 通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE),235B-A22B(總參數(shù) 2,350 億,激活參數(shù)
    的頭像 發(fā)表于 05-08 11:45 ?3247次閱讀
    NVIDIA使用Qwen3系列<b class='flag-5'>模型</b>的最佳<b class='flag-5'>實踐</b>
    沾益县| 云龙县| 钟祥市| 邵东县| 宝清县| 徐汇区| 龙川县| 罗源县| 屏东市| 马边| 盐池县| 陇西县| 五华县| 德昌县| 陵川县| 岳池县| 和硕县| 西城区| 安阳县| 新建县| 大洼县| 漠河县| 利辛县| 浦城县| 泰兴市| 铁岭市| 乡宁县| 凤翔县| 包头市| 始兴县| 宿州市| 二手房| 安阳县| 军事| 天津市| 如东县| 深水埗区| 武川县| 西丰县| 达拉特旗| 泰来县|