日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

解決算力需求的主流方法?數(shù)據(jù)流架構讓AI芯片利用率提升10倍以上

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2021-11-26 07:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/李彎彎)現(xiàn)在各種應用場景對算力的需求越來越大,為了滿足需求,各廠商不斷提升AI芯片的峰值算力,而傳統(tǒng)指令集架構的芯片利用率卻難以提升,大多數(shù)在10-40%,這讓芯片的實測性能大打折扣,那么如何突破呢?

與指令集架構不同,數(shù)據(jù)流架構的顯著特點就是依托數(shù)據(jù)流的流動次序控制計算執(zhí)行次序,而非指令執(zhí)行次序,因此把它用在AI上可以讓芯片利用率大幅提升,芯片利用率直至逼近100%。

數(shù)據(jù)流架構如何提升芯片利用率

目前市場上的芯片主要有兩種架構形式:一種是大家熟知的指令集架構,主要包括X86架構、ARM架構、精簡指令集運算RISC-V開源架構,以及SIMD架構;另外一種就是數(shù)據(jù)流架構。

指令集架構采用馮諾依曼計算方式,通過指令執(zhí)行次序控制計算順序,并通過分離數(shù)據(jù)搬運與數(shù)據(jù)計算提供計算通用性。數(shù)據(jù)流架構采用數(shù)據(jù)流引擎計算,它允許編譯器同時調(diào)度多個順序循環(huán)和功能,具有更高的吞吐量和更低的延遲,顯著特點是能夠大幅提升芯片利用率。

如下圖左側,指令集架構首先執(zhí)行函數(shù)A,完成之后再執(zhí)行函數(shù)B,依次類推直至執(zhí)行完所有程序。下圖右側,在數(shù)據(jù)流架構的情形下,編譯器可以安排每個函數(shù)在數(shù)據(jù)可用時立即執(zhí)行,這樣可以大大縮短等待和間隔的時間。

雖然數(shù)據(jù)流架構沒有指令集架構那么廣為人知,然而不可忽視的是,目前數(shù)據(jù)流架構已經(jīng)在專用硬件中成功應用,比如數(shù)字信號處理、網(wǎng)絡路由、圖形處理、遙感檢測、以及數(shù)據(jù)庫處理等,在許多軟件體系結構中,包括數(shù)據(jù)庫引擎設計和并行計算框架,它也占據(jù)重要地位。

1994年,帝國理工學院教授、英國皇家工程院院士、鯤云科技聯(lián)合創(chuàng)始人和首席科學家Wayne Luk陸永青院士率先將數(shù)據(jù)流架構定制化并運用到AI領域。如今國內(nèi)外對數(shù)據(jù)流技術的關注日益增多,包括國外的SambaNova、Groq、Wave computing,以及國內(nèi)的鯤云科技。鯤云科技已經(jīng)于去年量產(chǎn)了全球首款數(shù)據(jù)流AI芯片CAISA,脫胎于斯坦福大學的SambaNova,產(chǎn)品處于小規(guī)模試用階段,而前谷歌TPU核心團隊創(chuàng)辦的Groq,現(xiàn)在還未推出產(chǎn)品。

數(shù)據(jù)流架構如何提升芯片利用率?我們通過全球唯一量產(chǎn)數(shù)據(jù)流AI芯片的公司鯤云科技來看一下,鯤云的核心技術就是他們的定制數(shù)據(jù)流CAISA架構,這是一款為深度學習神經(jīng)網(wǎng)絡定制的高性能AI計算架構。CAISA架構通過數(shù)據(jù)流流動次序來控制計算順序,消除指令操作導致的額外時間開銷,讓CNN網(wǎng)絡的算子級數(shù)據(jù)流圖可以實現(xiàn)高效流水線運算。同時CAISA可并行執(zhí)行數(shù)據(jù)訪問和數(shù)據(jù)計算,進一步減少計算單元的空閑時間,最大化地利用芯片的計算資源,從而提供更高的實測算力。

圖片來自鯤云科技官網(wǎng)


鯤云科技合伙人、首席運營官王少軍博士在接受電子發(fā)燒友網(wǎng)采訪時表示,之所以投身于定制數(shù)據(jù)流架構芯片的研發(fā),首先是鯤云科技有數(shù)據(jù)流架構技術研發(fā)基礎,公司創(chuàng)始團隊來自數(shù)據(jù)流技術的源頭實驗室,該實驗室是全球三大定制計算實驗室之一,從90年代開始就深耕數(shù)據(jù)流架構與不同領域的領域?qū)S眉軜嬔邪l(fā),具備深厚的研發(fā)和迭代積累。

其次更為重要的是底層芯片技術存在算力瓶頸,隨著摩爾定律發(fā)展,依靠摩爾定律提升芯片性能的成本越來越高,比如一款5nm芯片的研發(fā)成本就高達數(shù)億美元,針對特定領域?qū)崿F(xiàn)領域?qū)S眉軜嫷男阅塬@益會越來越高,直到大幅領先通用計算芯片,鯤云科技認為在算力猛增的時代,行業(yè)需要一顆高算力性價比的人工智能專用芯片,數(shù)據(jù)流架構的重大意義在于它突破了傳統(tǒng)芯片架構對芯片利用率的約束,最大化發(fā)揮芯片本身的峰值性能。

因此鯤云科技在早期數(shù)據(jù)流架構技術的積累下,針對人工智能領域開發(fā)出CAISA架構,并最終實現(xiàn)從0到1完成首顆數(shù)據(jù)流AI芯片量產(chǎn)。

鯤云CAISA芯片利用率高達95.4%

鯤云科技于去年6月正式量產(chǎn)了全球首款數(shù)據(jù)流AI芯片CAISA,芯片利用率達到95.4%,面向數(shù)據(jù)中心和邊緣端AI推斷應用,該芯片采用28nm工藝,這個制程并不高,不過因為芯片利用率高,即使在比較低的制程情況下,CAISA芯片也可以帶來很高的實測性能。

同時鯤云科技還基于CAISA芯片推出三款高性能計算平臺,包括面向邊緣端的星空X3加速卡、面向數(shù)據(jù)中心的星空X9加速卡、面向邊緣AI應用的星空X6A邊緣小站。星空X3加速卡面向8-16路視頻實時結構化分析,星空X6A邊緣小站面向8路視頻處理應用。

目前CAISA芯片及加速卡產(chǎn)品已在多領域?qū)崿F(xiàn)應用,包括智慧安監(jiān)、智能制造、智慧電力、智慧城市等。王少軍博士認為,對于這些場景,特別是國民生產(chǎn)支柱行業(yè)而言,“降本增效”是剛需,比如在油田的應用場景,傳統(tǒng)的安防監(jiān)控系統(tǒng)已經(jīng)比較成熟,端側的攝像頭監(jiān)控系統(tǒng)基本部署完成,但視頻結構化利用率低,單純依靠人工巡檢,作業(yè)區(qū)域廣,環(huán)境復雜,耗時長,數(shù)據(jù)采集維度單一,人工識別難度大,而且預警不及時,漏報概率高,事后取證難。

針對這些行業(yè)痛點,鯤云科技提供算法算力平臺一體化方案,基于數(shù)據(jù)流AI芯片的底層算力優(yōu)勢,以及算力和算法聯(lián)合優(yōu)化的技術優(yōu)勢,對現(xiàn)場接入的500路視頻進行數(shù)據(jù)處理,對漏油、安全帽、工服、抽煙、打電話、人員闖入和采油設備運行狀態(tài)進行識別,可以做到從視頻流獲取到輸出報警時間為1s,為油區(qū)的生產(chǎn)情況提供更可靠的安全保障。在油田智能化升級過程中,數(shù)據(jù)流AI芯片就凸顯出了其市場價值,可以充分利舊、快速部署、控制成本。

未來解決算力需求的主流方法

數(shù)據(jù)流AI芯片的商用落地,證實了數(shù)據(jù)流和深度學習融合的價值,王少軍博士認為數(shù)據(jù)流架構具備成為下一代計算平臺的潛力。他談到,在計算平臺的演進過程中,十倍核心性能指標的提升,是計算架構代際更替的主要指標,比如,從X86到RISC計算平臺,能效比提升了10倍以上;從X86到CUDA計算平臺,峰值算力也提升了超過10倍。

從歷史脈絡來看,相對上一代主流算力平臺,新的算力平臺在某個指標上需要高出10倍,才能實現(xiàn)實測性能的大幅提升,隨著摩爾定律的放緩,業(yè)界越來越關注下一代芯片應該如何發(fā)展,而底層架構創(chuàng)新是這幾年業(yè)界的共識,行業(yè)需要新的技術路線來實現(xiàn)底層算力的突破。

王少軍博士認為,下一代有望帶來10倍以上突破的指標就是芯片利用率,這可能是未來解決算力需求的主流方法,而數(shù)據(jù)流架構可以實現(xiàn)這一點,鯤云科技認為未來會有更多新興AI芯片廠商加入到數(shù)據(jù)流AI技術路線中。對于現(xiàn)有芯片廠商來說,技術路線的選擇是公司的一大核心戰(zhàn)略,而其已有的開發(fā)生態(tài)和技術積累使其很難轉換賽道,但有些玩家也看到了數(shù)據(jù)流技術的價值,比如英偉達就推出了TensorCore,在指令集架構的基礎上,該模塊采用了數(shù)據(jù)流技術的原理,來提升其在特定領域的芯片利用效率。

總結

整體來說,數(shù)據(jù)流架構可以大幅提升芯片利用率,鯤云定制數(shù)據(jù)流CAISA新芯片的量產(chǎn)商用,也證實了數(shù)據(jù)流與深度學習融合的價值,給AI帶來了一個新的技術研究方向,相信未來會有更多AI芯片廠商加入到數(shù)據(jù)流架構技術的研究中。

現(xiàn)在AI芯片在很多場景都有落地剛需,尤其在邊緣端,很多場景還存在“碎片化”需求,因此廠商除了考慮提升芯片利用率,做到更高算力性價比之外,還需要思考如何提升更通用、軟件易用性等,全面提升芯片性能,促進專用AI芯片規(guī)?;慨a(chǎn),賦能各產(chǎn)業(yè)智能化升級。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 鯤云科技
    +關注

    關注

    0

    文章

    61

    瀏覽量

    4612
  • 算力
    +關注

    關注

    2

    文章

    1697

    瀏覽量

    16838
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI Ceph 分布式存儲教程資料大模型學習資料2026

    。如何構建高性能、高吞吐、高可擴展的 AI 分布式存儲系統(tǒng),已成為解鎖大模型基建能力的核心科技命題。這不僅關乎數(shù)據(jù)存得下、讀得快,更直接決定了 GPU 集群的利用率與模型訓練的最終效率。 一、 突破 I/O
    發(fā)表于 05-01 17:35

    米爾RK3576+Hailo-8突破6 TOPS極限,高幀率攝像頭真正“實時”

    。 彈性算,按需選擇 :成本敏感項目可單獨使用RK3576;高幀率、低延遲場景只需增加Hailo-8模塊,無需更換主控。 突破架構局限,實現(xiàn)真正實時 :Hailo-8的數(shù)據(jù)流架構將有
    發(fā)表于 04-02 18:03

    基于Arm架構服務器釋放更高CPU利用率

    在大型云服務提供商的數(shù)據(jù)中心中,CPU 利用率長期偏低,造成了大量資源閑置。根據(jù) CAST AI 的分析,超過 1,000 個 CPU 的大型集群平均占用率僅約 17%[1],不同云服
    的頭像 發(fā)表于 03-24 10:19 ?572次閱讀

    GPU 利用率<30%?這款開源智算云平臺不浪費 1%

    作為 AI 開發(fā)者,你是否早已受夠這些困境:花數(shù)百萬采購的 GPU 集群,利用率常年低于 30%,算閑置如同燒錢;跨 CPU/GPU/NPU 異構資源調(diào)度難如登天,模型訓練卡在資源分配環(huán)節(jié);部署
    的頭像 發(fā)表于 01-26 14:20 ?297次閱讀

    華為發(fā)布AI容器技術Flex:ai,算平均利用率提升30%

    決方案。 ? 當前,AI產(chǎn)業(yè)正處于高速發(fā)展的黃金時期,海量算需求如潮水般涌來。然而,算資源利用率偏低的問題卻成為了產(chǎn)業(yè)發(fā)展的關鍵桎梏。具
    的頭像 發(fā)表于 11-26 08:31 ?7824次閱讀

    國產(chǎn)AI芯片真能扛住“算內(nèi)卷”?海思昇騰的這波操作藏了多少細節(jié)?

    最近行業(yè)都在說“算AI的命門”,但國產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實測下來有點超出預期——7nm工藝下算
    發(fā)表于 10-27 13:12

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    建立的基礎: ①算支柱②數(shù)據(jù)支柱③計算支柱 1)算AI有關的因素: ①晶體管數(shù)量②晶體管速度③
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學習AI芯片的創(chuàng)新方法架構

    的同時,能夠利用更小、更快的數(shù)字格式,提升模型的整體性能。 1.3Transformer 模型中的矩陣乘法計算 2、存內(nèi)計算AI芯片 存內(nèi)計算已經(jīng)成為應對大模型不斷增加的計算量和能耗
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內(nèi)容總覽

    是展望未來的AGI芯片,并探討相關的發(fā)展和倫理話題。 各章的目錄名稱如下: 第1章 大模型浪潮下,AI芯片需求與挑戰(zhàn)免費 第2章 實現(xiàn)深度學習AI
    發(fā)表于 09-05 15:10

    從 “被動維修” 到 “主動管理”:這套系統(tǒng)設備利用率提升 30%

    從 “被動維修” 到 “主動管理”,是設備管理模式的轉變,更是數(shù)字化轉型的關鍵一步。在激烈的市場競爭中,能讓設備穩(wěn)定高效運行的企業(yè),才能在效率與成本上占據(jù)優(yōu)勢。這套提升設備利用率 30% 的系統(tǒng),為企業(yè)高質(zhì)量發(fā)展提供了有效路徑。
    的頭像 發(fā)表于 09-04 10:04 ?1036次閱讀
    從 “被動維修” 到 “主動管理”:這套系統(tǒng)<b class='flag-5'>讓</b>設備<b class='flag-5'>利用率</b><b class='flag-5'>提升</b> 30%

    AI 芯片浪潮下,職場晉升新契機?

    、新架構不斷涌現(xiàn)。能夠在工作中提出創(chuàng)新性的解決方案,推動 AI 芯片性能、功耗、成本等關鍵指標的優(yōu)化,將極大提升在職稱評審中的競爭。例如,
    發(fā)表于 08-19 08:58

    睿海光電800G光模塊助力全球AI基建升級

    單通道100Gbps速率下的信號同步性。 搭配24芯/16芯MPO連接器,兼容主流數(shù)據(jù)中心布線標準,插入損耗低于0.5dB,滿足10km以下短距高效互連需求。 硅光(SiPh)集成方案
    發(fā)表于 08-13 19:05

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    創(chuàng)新、應用創(chuàng)新、系統(tǒng)創(chuàng)新五個部分,接下來一一解讀。 算法創(chuàng)新 在深度學習AI芯片的創(chuàng)新上,書中圍繞大模型與Transformer算法的算需求,提出了一系列
    發(fā)表于 07-28 13:54

    拼版怎么拼好,板廠經(jīng)常說利用率太低,多收費用?

    做板的時候,板廠經(jīng)常說我拼版利用率太低,要多收取費用,哪位大神知道怎么算利用率
    發(fā)表于 05-14 13:42

    mes工廠管理系統(tǒng):如何設備利用率提升50%?

    在制造業(yè)競爭日益激烈的今天,設備利用率直接決定了企業(yè)的盈利能力。許多工廠管理者都在思考同一個問題:如何在不增加設備投資的情況下,現(xiàn)有產(chǎn)能發(fā)揮出最大價值?MES工廠管理系統(tǒng)正是解決這一難題的金鑰匙
    的頭像 發(fā)表于 05-09 15:55 ?990次閱讀
    mes工廠管理系統(tǒng):如何<b class='flag-5'>讓</b>設備<b class='flag-5'>利用率</b><b class='flag-5'>提升</b>50%?
    大渡口区| 安康市| 涪陵区| 咸丰县| 马关县| 阿克苏市| 长泰县| 行唐县| 广汉市| 固始县| 类乌齐县| 西青区| 布拖县| 巨鹿县| 井冈山市| 岳普湖县| 彭泽县| 江华| 理塘县| 黄平县| 九龙县| 嘉禾县| 濉溪县| 上犹县| 惠水县| 璧山县| 酉阳| 阳高县| 大城县| 嘉兴市| 青岛市| 泗洪县| 汽车| 阳原县| 泰和县| 方正县| 山丹县| 宜宾市| 鲁甸县| 山阴县| 恭城|