日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌全新AI架構(gòu),單芯片每秒1000萬億次運(yùn)算

獨(dú)愛72H ? 來源:機(jī)器之心Pro ? 作者:機(jī)器之心Pro ? 2019-11-18 17:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(文章來源:機(jī)器之心Pro)

2016 年底,谷歌 TPU 團(tuán)隊(duì)的十位核心開發(fā)者中的八位悄悄離職,創(chuàng)辦了一家名為 Groq 的機(jī)器學(xué)習(xí)系統(tǒng)公司。在此后的三年里,這家公司一直很低調(diào)。但最近,他們帶著一款名為 TSP 的芯片架構(gòu)出現(xiàn)在公眾視野里。

TSP 的全稱是 Tensor Streaming Processor,專為機(jī)器學(xué)習(xí)等 AI 相關(guān)需求打造。該架構(gòu)在單塊芯片上可以實(shí)現(xiàn)每秒 1000 萬億(10 的 15 次方)次運(yùn)算,是全球首個(gè)實(shí)現(xiàn)該級(jí)別性能的架構(gòu),其浮點(diǎn)運(yùn)算性能可達(dá)每秒 250 萬億次(TFLOPS)。在摩爾定律走向消亡的背景下,這一架構(gòu)的問世標(biāo)志著芯片之爭(zhēng)從晶體管轉(zhuǎn)向架構(gòu)。

250 TFLOPS 浮點(diǎn)運(yùn)算性能是什么概念?目前的世界第一超級(jí)計(jì)算機(jī) Summit,其峰值算力為 200,794.9 TFLOPS,它的背后是 28,000 塊英偉達(dá) Volta GPU。如果 TSP 達(dá)到了類似的效率,僅需 803 塊就可以實(shí)現(xiàn)同樣的性能。Groq 在一份白皮書中介紹了這項(xiàng)全新的架構(gòu)設(shè)計(jì)。此外,他們還將在于美國(guó)丹佛舉辦的第 23 屆國(guó)際超算高峰論壇上展示這一成果。

我們?yōu)檫@一行業(yè)和我們的客戶感到興奮,Groq 的聯(lián)合創(chuàng)始人和 CEO Jonathan Ross 表示。頂級(jí) GPU 公司都在宣稱他們有望在未來幾年向用戶交付一款每秒百萬億次運(yùn)算性能的產(chǎn)品,但 Groq 現(xiàn)在就做到了,而且建立了一個(gè)新的性能標(biāo)準(zhǔn)。就低延遲和推理速度而言,Groq 的架構(gòu)比其他任何用于推理的架構(gòu)都要快許多倍。我們與用戶的互動(dòng)證明了這一點(diǎn)。

Groq 的 TSP 架構(gòu)是專為計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和其他 AI 相關(guān)工作負(fù)載的性能要求設(shè)計(jì)的。對(duì)于一大批需要深度學(xué)習(xí)推理運(yùn)算的應(yīng)用來說,Groq 的解決方案是非常理想的選擇,Groq 的首席架構(gòu)師 Dennis Abts 表示,但除此之外,Groq 的架構(gòu)還能用于廣泛的工作負(fù)載。它的性能和簡(jiǎn)潔性使其成為所有高性能即數(shù)據(jù)和計(jì)算密集型工作復(fù)雜的理想平臺(tái)。

Groq 的這款架構(gòu)受到軟件優(yōu)先(software first)理念的啟發(fā)。它在 Groq 開發(fā)的 TSP 中實(shí)現(xiàn),為實(shí)現(xiàn)計(jì)算靈活性和大規(guī)模并行計(jì)算提供了一種新的范式,但沒有傳統(tǒng) GPU 和 CPU 架構(gòu)的限制和溝通開銷。在 Groq 的架構(gòu)中,Groq 編譯器負(fù)責(zé)編碼所有內(nèi)容:數(shù)據(jù)流入芯片,并在正確的時(shí)間和正確的地點(diǎn)插入,以確保計(jì)算實(shí)時(shí)進(jìn)行,沒有停頓。執(zhí)行規(guī)劃由軟件負(fù)責(zé),這樣就可以釋放出原本要用于動(dòng)態(tài)指令執(zhí)行的寶貴硬件資源。

在傳統(tǒng)的體系架構(gòu)中,將數(shù)據(jù)從 DRAM 移動(dòng)到處理器需要大量的算力和時(shí)間,而且相同工作負(fù)載上的處理性能也是可變的。在典型的工作流中,開發(fā)人員通過反復(fù)運(yùn)行工作負(fù)載或程序來對(duì)其進(jìn)行配置和測(cè)試,以驗(yàn)證和度量其平均處理性能。由于處理器接收和發(fā)送數(shù)據(jù)的方式不同,這種處理可能會(huì)得到略有差別的結(jié)果,而開發(fā)人員的工作就是手動(dòng)調(diào)整程序以達(dá)到預(yù)定的可靠性級(jí)別。

但有了 Groq 的硬件和軟件,編譯器就可以準(zhǔn)確地知道芯片的工作方式以及執(zhí)行每個(gè)計(jì)算所需的時(shí)間。編譯器在正確的時(shí)間將數(shù)據(jù)和指令移動(dòng)到正確的位置,這樣就不會(huì)有延遲。到達(dá)硬件的指令流是完全編排好的,使得處理速度更快,而且可預(yù)測(cè)。

為了滿足深度學(xué)習(xí)等計(jì)算密集型任務(wù)的需求,芯片的設(shè)計(jì)似乎正在變得越來越復(fù)雜。但 Groq 認(rèn)為,這種趨勢(shì)從根本上就是錯(cuò)誤的。他們?cè)诎灼兄赋?,?dāng)前處理器架構(gòu)的復(fù)雜性已經(jīng)成為阻礙開發(fā)者生產(chǎn)和 AI 應(yīng)用部署的主要障礙。當(dāng)前處理器的復(fù)雜性降低了開發(fā)者工作效率,再加上摩爾定律逐漸變慢,實(shí)現(xiàn)更高的計(jì)算性能變得越來越困難。

Groq 的芯片設(shè)計(jì)降低了傳統(tǒng)硬件開發(fā)的復(fù)雜度,因此開發(fā)者可以更加專注于算法(或解決其他問題),而不是為了硬件調(diào)整自己的解決方案。有了這種更加簡(jiǎn)單的硬件設(shè)計(jì),開發(fā)者無需進(jìn)行剖析研究(profiling),因此可以節(jié)省資源,更容易大規(guī)模部署 AI 應(yīng)用。與基于 CPU、GPU 和 FPGA 的傳統(tǒng)復(fù)雜架構(gòu)相比,Groq 的芯片還簡(jiǎn)化了認(rèn)證和部署,使客戶能夠簡(jiǎn)單而快速地實(shí)現(xiàn)可擴(kuò)展、單瓦高性能的系統(tǒng)。

Groq 的張量流架構(gòu)可以在任何需要的地方提供算力。與當(dāng)前領(lǐng)先的 GPU、CPU 相比,Groq 處理器的每個(gè)晶體管可以實(shí)現(xiàn) 3-6 倍的性能提升。這一改進(jìn)意味著交付性能的提升、延遲的下降以及成本的降低。結(jié)果是,Groq 的架構(gòu)使用起來更加簡(jiǎn)單,而且性能高于傳統(tǒng)計(jì)算平臺(tái)。

(責(zé)任編輯:fqj)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54471

    瀏覽量

    469770
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6259

    瀏覽量

    112020
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    IT愛學(xué)堂-AI 業(yè)務(wù)流架構(gòu)師訓(xùn)練營(yíng)

    ”。如果跳出純技術(shù)的框架,用經(jīng)濟(jì)學(xué)的顯微鏡來審視這一轉(zhuǎn)變,我們會(huì)發(fā)現(xiàn):這并非一簡(jiǎn)單的技術(shù)路線調(diào)整,而是數(shù)字經(jīng)濟(jì)在經(jīng)歷了高昂的試錯(cuò)成本后,向“投資回報(bào)率(ROI)”本質(zhì)的一深刻覺醒。業(yè)務(wù)驅(qū)動(dòng)的AI
    發(fā)表于 05-05 18:01

    面向邊緣AI視覺的高性能算力模組解決方案 ——杰和科技LM2-100-V0深度解析

    的高性能邊緣AI加速方案。1.卓越的算力表現(xiàn)該模組搭載了專為邊緣計(jì)算場(chǎng)景優(yōu)化的NPU(神經(jīng)網(wǎng)絡(luò)處理單元),其峰值算力高達(dá)25TOPS(每秒萬億運(yùn)算
    的頭像 發(fā)表于 04-21 13:37 ?1244次閱讀
    面向邊緣<b class='flag-5'>AI</b>視覺的高性能算力模組解決方案  ——杰和科技LM2-100-V0深度解析

    馬斯克:AI5芯片設(shè)計(jì)進(jìn)展順利,特斯拉AI戰(zhàn)略邁入新階段

    5芯片將是一款“性能非常強(qiáng)大”的產(chǎn)品,顆SoC性能可媲美英偉達(dá)Hopper級(jí)別,雙芯配置則接近Blackwell級(jí)別,但成本與功耗顯著更低。根據(jù)技術(shù)參數(shù),AI5芯片的算力密度達(dá)
    的頭像 發(fā)表于 01-19 14:05 ?5747次閱讀

    邁向吉瓦級(jí)AI工廠的能源變革:英偉達(dá)Rubin平臺(tái)電源架構(gòu)解析

    隨著人工智能(AI)模型參數(shù)量突破萬億級(jí)別,從大語言模型(LLM)的訓(xùn)練向推理、以及更高級(jí)的代理型AI(Agentic AI)演進(jìn),數(shù)據(jù)中心正在經(jīng)歷一場(chǎng)從“計(jì)算集群”向“
    的頭像 發(fā)表于 01-15 17:42 ?1015次閱讀
    邁向吉瓦級(jí)<b class='flag-5'>AI</b>工廠的能源變革:英偉達(dá)Rubin平臺(tái)電源<b class='flag-5'>架構(gòu)</b>解析

    AI半導(dǎo)體萬億浪潮中,2016系列10~60MHz溫補(bǔ)晶振撐起系統(tǒng)節(jié)奏

    AI?擴(kuò)建推動(dòng)半導(dǎo)體進(jìn)入千萬億周期:AMD說這是?1?萬億美元的機(jī)會(huì);英偉達(dá)說未來五年是?3–4?萬億美元;博通預(yù)測(cè)定制硅將沖向?1000?
    的頭像 發(fā)表于 12-12 16:50 ?1350次閱讀
    <b class='flag-5'>AI</b>半導(dǎo)體<b class='flag-5'>萬億</b>浪潮中,2016系列10~60MHz溫補(bǔ)晶振撐起系統(tǒng)節(jié)奏

    思科Cisco 8223:51.2Tbps P200芯片助力AI數(shù)據(jù)中心

    P200芯片,為AI時(shí)代跨數(shù)據(jù)中心的高速互聯(lián)需求提供了高效解決方案。 ? P200芯片具備每秒51.2太比特(Tbps)的以太網(wǎng)處理能力。思科表示,僅用
    的頭像 發(fā)表于 10-12 08:31 ?1.1w次閱讀
    思科Cisco 8223:51.2Tbps P200<b class='flag-5'>芯片</b>助力<b class='flag-5'>AI</b>數(shù)據(jù)中心

    看點(diǎn):全球首顆!中國(guó)研發(fā)全新架構(gòu)閃存芯片 OpenAI拉上巨頭豪賭AI基建

    給大家?guī)硪恍I(yè)界消息: 全球首顆!中國(guó)研發(fā)全新架構(gòu)閃存芯片 日前,復(fù)旦大學(xué)團(tuán)隊(duì)在《自然》發(fā)表成果,成功研制全球首顆二維—硅基混合架構(gòu)閃存芯片
    的頭像 發(fā)表于 10-10 18:20 ?2060次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    建立的基礎(chǔ): ①算力支柱②數(shù)據(jù)支柱③計(jì)算支柱 1)算力 與AI算力有關(guān)的因素: ①晶體管數(shù)量②晶體管速度③芯片架構(gòu)芯片面積⑤制造工藝⑥芯片
    發(fā)表于 09-18 15:31

    適應(yīng)邊緣AI全新時(shí)代的GPU架構(gòu)

    電子發(fā)燒友網(wǎng)站提供《適應(yīng)邊緣AI全新時(shí)代的GPU架構(gòu).pdf》資料免費(fèi)下載
    發(fā)表于 09-15 16:42 ?47次下載

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    、Transformer 模型的后繼者 二、用創(chuàng)新方法實(shí)現(xiàn)深度學(xué)習(xí)AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是一種開源、模塊化的指令集架構(gòu)(ISA)。優(yōu)勢(shì)如下: ①模
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    ②Transformer引擎③NVLink Switch系統(tǒng)④機(jī)密計(jì)算⑤HBM FPGA: 架構(gòu)的主要特點(diǎn):可重構(gòu)邏輯和路由,可以快速實(shí)現(xiàn)各種不同形式的神經(jīng)網(wǎng)絡(luò)加速。 ASIC: 介紹了幾種ASIC AI芯片
    發(fā)表于 09-12 16:07

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+內(nèi)容總覽

    ,其中第一章是概論,主要介紹大模型浪潮下AI芯片的需求與挑戰(zhàn)。第二章和第三章分別介紹實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法和架構(gòu)。以及一些新型的算法
    發(fā)表于 09-05 15:10

    AI 芯片浪潮下,職場(chǎng)晉升新契機(jī)?

    依曼架構(gòu)下數(shù)據(jù)搬運(yùn)瓶頸問題,降低功耗,提升運(yùn)算效率,這種創(chuàng)新性成果在職稱評(píng)審中會(huì)備受青睞。 用項(xiàng)目經(jīng)驗(yàn)為職稱申報(bào)添彩 實(shí)際項(xiàng)目經(jīng)驗(yàn)是職稱評(píng)審中最有力的證明材料。在參與 AI 芯片研發(fā)項(xiàng)
    發(fā)表于 08-19 08:58

    【書籍評(píng)測(cè)活動(dòng)NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    創(chuàng)新、應(yīng)用創(chuàng)新、系統(tǒng)創(chuàng)新五個(gè)部分,接下來一一解讀。 算法創(chuàng)新 在深度學(xué)習(xí)AI芯片的創(chuàng)新上,書中圍繞大模型與Transformer算法的算力需求,提出了一系列架構(gòu)與方法創(chuàng)新,包括存內(nèi)計(jì)算技術(shù)、基于開源
    發(fā)表于 07-28 13:54

    AI芯片:加速人工智能計(jì)算的專用硬件引擎

    處理等應(yīng)用落地的關(guān)鍵硬件基礎(chǔ)。 ? AI芯片的核心技術(shù)特點(diǎn) ? ? AI芯片的設(shè)計(jì)重點(diǎn)在于提升計(jì)算效率,主要技術(shù)特點(diǎn)包括: ? 1. ? 并行計(jì)算
    的頭像 發(fā)表于 07-09 15:59 ?1995次閱讀
    遂川县| 宜丰县| 阿合奇县| 西充县| 大荔县| 咸阳市| 余江县| 万安县| 班玛县| 隆安县| 清苑县| 萝北县| 汝南县| 中西区| 巴林左旗| 晋宁县| 涞源县| 永兴县| 宁河县| 涞水县| 武山县| 疏勒县| 隆回县| 新营市| 阿城市| 克东县| 吴桥县| 互助| 延寿县| 广南县| 兴山县| 崇信县| 阿勒泰市| 安国市| 湖北省| 鄄城县| 霍林郭勒市| 三门县| 玛多县| 五莲县| 孝感市|