日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ARM發(fā)布第一代面向AI和機器學習的處理器,架構名為“Trillium”

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-27 08:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

ARM發(fā)布第一代面向AI機器學習處理器,架構名為“Trillium”,吸收了從硬件、數(shù)據(jù)壓縮和編譯器方面最成功的創(chuàng)新中的優(yōu)點,其實是一款兼采眾家之長的“聚合體”。ARM表示,該處理器舍棄了高速緩存,兼具英偉達TensorCore的功能、FPGA的可編程性,以及DSP的低功耗處理能力。

在過去的幾年中,有幾家芯片創(chuàng)業(yè)公司一直致力于尋找新的方法來有效地訓練和執(zhí)行神經網絡,但在現(xiàn)有技術和理念的基礎上,其實真的必要從頭做起嗎?

本周,在一年一度的Hot Chips會議上,ARM展示了其第一代機器學習處理器,預計今年晚些時候,ARM的合作伙伴就可以使用其IP。

兼采眾長,ARM“拼”出世界最好的AI處理器

該處理器架構名為“Trillium”,是由一些我們并不陌生的元素與ARM的邏輯核心捆綁而來的,對于那些需要Nvidia Volta GPU的TensorCore功能的人來說,ARM這款處理器可能意義重大,比如DeePhi神經網絡壓縮技術(現(xiàn)在是Xilinx的一部分)、FPGA的可編程性,以及DSP的低功耗處理能力。

換句話說,ARM可能剛剛“拼湊”出了世界上最好的AI處理器,這對于那些在大型通用設備上放置大量額外空間的芯片制造商來說,可能會帶來很大的麻煩。

ARM的技術總監(jiān)Ian Bratt本周在Hot Chips上表示,ARM首次涉足AI處理器的設計目標是盡可能的推廣,以便能夠滿足服務器端AI的市場需求,并將自家AI處理器更多用于汽車和具有物聯(lián)網需求的小型設備上。

Bratt表示:

“在研發(fā)第一代機器學習處理器的過程中,我們初期出現(xiàn)了一些失誤,將舊框架套用在新問題上。我們知道GPU、CPU和DSP是如何用于機器學習上的,但我們開始研究如何能夠清晰地利用每一項技術。我們可以利用CPU的技術處理控制和可編程性問題,用GPU的技術解決數(shù)據(jù)壓縮、數(shù)據(jù)移動和計算密度等問題,這些都可以提高DSP的效率和開源軟件的開發(fā)?!?/p>

如下圖所示,ARM的機器學習架構并沒有什么特別之處,但值得注意的是,該架構吸收了從硬件、壓縮和編譯器方面最成功的創(chuàng)新中的優(yōu)點。

搭建架構的模塊是計算引擎,每塊為64 KB的SRAM片,共16塊。 MAC引擎(與英偉達的TensorCore不同)是執(zhí)行卷積化的地方,可編程層引擎負責處理網絡各層之間的大部分必要的shuffling。該架構具有DMA引擎,用于與外部存儲器接口進行通信。 ARM自己的Cortex技術負責的引擎控制。

不再需要緩存,控制流程大大簡化

對于一家以創(chuàng)新為基礎公司而言,ARM正在走一條自己的獨特道路。公司首次涉足人工智能芯片,芯片的組件都是大家并不陌生的,ARM在用于神經網絡的點積(dot product)引擎上做出了一些關鍵性創(chuàng)新,提升了執(zhí)行效率、降低了網絡噪音。

我們很可能忽略的一個要素是,靜態(tài)調度(static scheduling)的價值,這是影響芯片整體性能和效率的關鍵部分。

存儲器的訪問模式完全是可靜態(tài)分析的,并且很容易理解和映射,但是許多設備沒有利用這一點。 CPU具有復雜的高速緩存層次結構,可以用于非確定性存儲器訪問進行優(yōu)化,但對于確定性的神經網絡,可以提前將所有內容放在內存中。然后,編譯器為不同的組件生成命令流(由ARM控制處理器進行編配),到達寄存器以控制這些組件。

簡而言之就是:不需要緩存。此外還有一個好處是流量控制流程被大大簡化,可以進一步降低能耗,提升處理器性能的可預測性。

處理卷積化的方式可以進一步提高效率。下圖中的SRAM突出了編譯器是如何為輸入特征映射和壓縮模型分配部分資源的。每個計算引擎都將使用跨越不同計算引擎的不同特征映射。

ARM的MAC引擎可以做8個16×16點積。我們已經討論了這一點的重要性,但是在這些操作中有很多零,可以在MAC引擎中進行檢測和調整,以避免浪費更多的能量。

ARM芯片還具備可編程層引擎,旨在通過可編程性“預見”處理器的。它使用Cortex CPU技術來支持非卷積運算符,以及向量和神經網絡擴展。

使用機器學習處理器特征映射壓縮技術可以獲得更高的效率,這些技術聽起來和DeePhi在CNN壓縮上的作用類似。

打造通用平臺,實現(xiàn)機器學習與現(xiàn)有流程的整合

Bratt表示,目前ARM的機器學習業(yè)務部門擁有150名員工,隨著對機器學習需求的不斷增長,這一數(shù)字也會不斷增加,并將機器學習整合到新的和現(xiàn)有的工作流程和配置中。他表示,我們的目標是讓這項工作橫跨一系列細分市場,但是要為一類用戶提供一個具備其所需全部功能的通用平臺并不簡單。

不用高速緩存、精簡壓縮流程、使用混合精度算法,并與精簡化的SRAM片上計算相結合,將其移植到密集的點積引擎上,這些都使得ARM的芯片IP成為市場上的一個引人注目的焦點,而且可以針對關鍵的工作負載做進一步的細化。

與某些AI專用處理器相比,ARM處理器增加了高帶寬內存(HMC)可能使其更容易識別,但是需要授權用戶了解這些組件系統(tǒng)中協(xié)同工作的方式。 ARM工程師真正從生態(tài)系統(tǒng)中汲取了最佳的AI處理器技術,并使用開源軟件掛鉤,可能大幅擴大授權許可范圍。

上圖所示為Inception V3上的8X8塊,突出表示了通過零/非零濾波方法實施的無損壓縮結果,顯著降低了神經網絡的規(guī)模。壓縮結果保留在內部SRAM中,并且在SRAM中保留了網絡修剪技術,以便在需要時使用。

對這類技術進行授權時的選擇并不多,同時ARM也要確定,在現(xiàn)有的神經網絡處理器中有哪些最成功的、值得汲取的技術和組件。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9605

    瀏覽量

    394071
  • 編譯器
    +關注

    關注

    1

    文章

    1673

    瀏覽量

    52042
  • 機器學習
    +關注

    關注

    67

    文章

    8569

    瀏覽量

    137353

原文標題:Arm首代AI架構如此彪悍!集英偉達、英特爾、賽靈思三位優(yōu)勢于一體

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    英特爾第三酷睿處理器發(fā)布:18A 工藝普惠 AI,重塑日常計算體驗

    近日,英特爾正式推出全新 **第三英特爾 ? 酷睿?移動處理器** (Core Series 3),以**Intel 18A 先進制程**與**Panther Lake 架構**為基石,面向
    的頭像 發(fā)表于 04-23 11:21 ?2193次閱讀

    ADSP-2148x SHARC處理器:音頻處理領域的強大之選

    架構。它與ADSP-2126x、ADSP-2136x等多種DSP在源代碼層面兼容,并且在SISD模式下與第一代ADSP-2106x SHARC處理器也能兼容。這
    的頭像 發(fā)表于 03-23 16:40 ?532次閱讀

    Banana Pi BPI-CM6 計算模塊將 8 核 RISC-V 處理器帶入 CM4 外形尺寸

    RISC-V 處理器設計,而非封閉的 ARM 架構,是邁向開放式架構計算的真正步。這為開發(fā)者提供了更大的自由度、靈活性和長期發(fā)展空間,并
    發(fā)表于 12-20 09:01

    瑞芯微SOC智能視覺AI處理器

    RK3568B2: 款性能均衡、接口豐富的中高端AIoT應用處理器,是RK3568的優(yōu)化版本,主打穩(wěn)定與可靠性。CPU/GPU: 延續(xù)RK3568的4核A55 + G52 GPU架構,性能可靠
    發(fā)表于 12-19 13:44

    探索RISC-V在機器人領域的潛力

    的硬件配置給人留下了深刻的第一印象: ? 核心處理器: 搭載了進迭時空的K1系列高性能RISC-V處理器,具備強大的通用計算能力和AI加速特性。 ? 內存與存儲: 板載LPDDR4
    發(fā)表于 12-03 14:40

    TDA4VL-Q1處理器技術文檔總結

    算法加速、用于通用計算的最新 Arm 和 GPU 處理器、集成的下一代成像子系統(tǒng) (ISP)、視頻編解碼和隔離的 MCU 島。所有這些都
    的頭像 發(fā)表于 10-10 09:47 ?2274次閱讀
    TDA4VL-Q1<b class='flag-5'>處理器</b>技術文檔總結

    TDA4AL-Q1處理器的技術文檔摘要

    算法加速、用于通用計算的最新 Arm 和 GPU 處理器、集成的下一代成像子系統(tǒng) (ISP)、視頻編解碼和隔離的 MCU 島。所有這些都
    的頭像 發(fā)表于 10-10 09:40 ?1976次閱讀
    TDA4AL-Q1<b class='flag-5'>處理器</b>的技術文檔摘要

    安謀科技發(fā)布“星辰”STAR-MC3,提升MCU AI處理能力

    Helium?技術,顯著提升CPU在AI計算方面的性能,同時兼具優(yōu)異的面效比與能效比,實現(xiàn)高性能與低功耗設計,面向AIoT智能物聯(lián)網領域,為主控芯片及協(xié)處理器提供核芯架構,助力客戶高
    的頭像 發(fā)表于 09-29 08:53 ?1.1w次閱讀
    安謀科技<b class='flag-5'>發(fā)布</b>“星辰”STAR-MC3,提升MCU <b class='flag-5'>AI</b><b class='flag-5'>處理</b>能力

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學習AI芯片的創(chuàng)新方法與架構

    1.1RISC-VISA 擴展 1.2 向量協(xié)處理器 1.3 與各級存儲耦合的NPU 1.4 針對Transformer 模型的架構優(yōu)化 SwiftTron是款專用的開源AI加速
    發(fā)表于 09-12 17:30

    什么是ARM架構?你需要知道的

    從智能手機到工業(yè)邊緣計算機,ARM?架構為全球數(shù)十億臺設備提供動力。ARM?以其效率優(yōu)先的設計和靈活的許可模式而聞名,已迅速從移動處理器擴展到人工智能邊緣計算、工業(yè)控制
    的頭像 發(fā)表于 09-11 14:48 ?1840次閱讀
    什么是<b class='flag-5'>ARM</b><b class='flag-5'>架構</b>?你需要知道的<b class='flag-5'>一</b>切

    文了解Arm神經超級采樣 (Arm Neural Super Sampling, Arm NSS) 深入探索架構、訓練和推理

    本文將從訓練、網絡架構到后處理和推理等方面,深入探討 Arm 神經超級采樣 (Arm Neural Super Sampling, Arm
    的頭像 發(fā)表于 08-14 16:11 ?3331次閱讀

    ARM入門學習方法分享

    集)處理器。 1985年第一ARM原型在英國劍橋誕生。 公司的特點是只設計芯片,而不生產。它提供ARM技術知識產權(IP)核,將技術授權給世界上許多著名的半導體、軟件和OEM廠商,
    發(fā)表于 07-23 10:21

    龍芯發(fā)布一代處理器,進軍服務AI處理器市場

    6月26日,作為海淀區(qū)“科技會客廳”首場活動,2025龍芯產品發(fā)布暨用戶大會在中關村國際創(chuàng)新中心舉行,重磅發(fā)布基于國產自主指令集龍架構(LoongArchTM)研發(fā)的服務
    發(fā)表于 06-26 15:18 ?2308次閱讀
    龍芯<b class='flag-5'>發(fā)布</b>新<b class='flag-5'>一代</b><b class='flag-5'>處理器</b>,進軍服務<b class='flag-5'>器</b>和<b class='flag-5'>AI</b><b class='flag-5'>處理器</b>市場

    Arm 公司面向 PC 市場的 ?Arm Niva? 深度解讀

    子系統(tǒng)(CSS)? ? 的垂直領域延伸,Niva 旨在通過軟硬件深度整合,解決傳統(tǒng) x86 架構在能效比、AI 加速與生態(tài)兼容性上的痛點。以下結合技術架構、性能突破、競爭格局與戰(zhàn)略意義展開分析:
    的頭像 發(fā)表于 05-29 09:56 ?1946次閱讀

    Arm 公司面向移動端市場的 ?Arm Lumex? 深度解讀

    面向移動端市場的 ? Arm Lumex ? 深度解讀 ? Arm Lumex ? 是 Arm 公司面向移動設備市場推出的新
    的頭像 發(fā)表于 05-29 09:54 ?4643次閱讀
    东乌珠穆沁旗| 万荣县| 宝兴县| 金坛市| 通道| 宾阳县| 石泉县| 麻阳| 砚山县| 南雄市| 台中县| 兴和县| 黄龙县| 马关县| 梅州市| 台东县| 彝良县| 江川县| 玛曲县| 红原县| 双桥区| 龙井市| 唐海县| 黄梅县| 余庆县| 永新县| 搜索| 乌鲁木齐市| 精河县| 庆阳市| 改则县| 宁强县| 钟祥市| 杭锦后旗| 古田县| 芜湖县| 沈阳市| 枣强县| 上高县| 阳谷县| 扶沟县|