日日夜夜极品视频1,一本之道一区二区三区,91日韩网

（文章來源：機(jī)器之心Pro）

2016 年底，谷歌 TPU 團(tuán)隊(duì)的十位核心開發(fā)者中的八位悄悄離職，創(chuàng)辦了一家名為 Groq 的機(jī)器學(xué)習(xí)系統(tǒng)公司。在此后的三年里，這家公司一直很低調(diào)。但最近，他們帶著一款名為 TSP 的芯片架構(gòu)出現(xiàn)在公眾視野里。

TSP 的全稱是 Tensor Streaming Processor，專為機(jī)器學(xué)習(xí)等 AI 相關(guān)需求打造。該架構(gòu)在單塊芯片上可以實(shí)現(xiàn)每秒 1000 萬億（10 的 15 次方）次運(yùn)算，是全球首個(gè)實(shí)現(xiàn)該級(jí)別性能的架構(gòu)，其浮點(diǎn)運(yùn)算性能可達(dá)每秒 250 萬億次（TFLOPS）。在摩爾定律走向消亡的背景下，這一架構(gòu)的問世標(biāo)志著芯片之爭(zhēng)從晶體管轉(zhuǎn)向架構(gòu)。

250 TFLOPS 浮點(diǎn)運(yùn)算性能是什么概念？目前的世界第一超級(jí)計(jì)算機(jī) Summit，其峰值算力為 200,794.9 TFLOPS，它的背后是 28,000 塊英偉達(dá) Volta GPU。如果 TSP 達(dá)到了類似的效率，僅需 803 塊就可以實(shí)現(xiàn)同樣的性能。Groq 在一份白皮書中介紹了這項(xiàng)全新的架構(gòu)設(shè)計(jì)。此外，他們還將在于美國(guó)丹佛舉辦的第 23 屆國(guó)際超算高峰論壇上展示這一成果。

我們?yōu)檫@一行業(yè)和我們的客戶感到興奮，Groq 的聯(lián)合創(chuàng)始人和 CEO Jonathan Ross 表示。頂級(jí) GPU 公司都在宣稱他們有望在未來幾年向用戶交付一款每秒百萬億次運(yùn)算性能的產(chǎn)品，但 Groq 現(xiàn)在就做到了，而且建立了一個(gè)新的性能標(biāo)準(zhǔn)。就低延遲和推理速度而言，Groq 的架構(gòu)比其他任何用于推理的架構(gòu)都要快許多倍。我們與用戶的互動(dòng)證明了這一點(diǎn)。

Groq 的 TSP 架構(gòu)是專為計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和其他 AI 相關(guān)工作負(fù)載的性能要求設(shè)計(jì)的。對(duì)于一大批需要深度學(xué)習(xí)推理運(yùn)算的應(yīng)用來說，Groq 的解決方案是非常理想的選擇，Groq 的首席架構(gòu)師 Dennis Abts 表示，但除此之外，Groq 的架構(gòu)還能用于廣泛的工作負(fù)載。它的性能和簡(jiǎn)潔性使其成為所有高性能即數(shù)據(jù)和計(jì)算密集型工作復(fù)雜的理想平臺(tái)。

Groq 的這款架構(gòu)受到軟件優(yōu)先（software first）理念的啟發(fā)。它在 Groq 開發(fā)的 TSP 中實(shí)現(xiàn)，為實(shí)現(xiàn)計(jì)算靈活性和大規(guī)模并行計(jì)算提供了一種新的范式，但沒有傳統(tǒng) GPU 和 CPU 架構(gòu)的限制和溝通開銷。在 Groq 的架構(gòu)中，Groq 編譯器負(fù)責(zé)編碼所有內(nèi)容：數(shù)據(jù)流入芯片，并在正確的時(shí)間和正確的地點(diǎn)插入，以確保計(jì)算實(shí)時(shí)進(jìn)行，沒有停頓。執(zhí)行規(guī)劃由軟件負(fù)責(zé)，這樣就可以釋放出原本要用于動(dòng)態(tài)指令執(zhí)行的寶貴硬件資源。

在傳統(tǒng)的體系架構(gòu)中，將數(shù)據(jù)從 DRAM 移動(dòng)到處理器需要大量的算力和時(shí)間，而且相同工作負(fù)載上的處理性能也是可變的。在典型的工作流中，開發(fā)人員通過反復(fù)運(yùn)行工作負(fù)載或程序來對(duì)其進(jìn)行配置和測(cè)試，以驗(yàn)證和度量其平均處理性能。由于處理器接收和發(fā)送數(shù)據(jù)的方式不同，這種處理可能會(huì)得到略有差別的結(jié)果，而開發(fā)人員的工作就是手動(dòng)調(diào)整程序以達(dá)到預(yù)定的可靠性級(jí)別。

但有了 Groq 的硬件和軟件，編譯器就可以準(zhǔn)確地知道芯片的工作方式以及執(zhí)行每個(gè)計(jì)算所需的時(shí)間。編譯器在正確的時(shí)間將數(shù)據(jù)和指令移動(dòng)到正確的位置，這樣就不會(huì)有延遲。到達(dá)硬件的指令流是完全編排好的，使得處理速度更快，而且可預(yù)測(cè)。

為了滿足深度學(xué)習(xí)等計(jì)算密集型任務(wù)的需求，芯片的設(shè)計(jì)似乎正在變得越來越復(fù)雜。但 Groq 認(rèn)為，這種趨勢(shì)從根本上就是錯(cuò)誤的。他們?cè)诎灼兄赋?，?dāng)前處理器架構(gòu)的復(fù)雜性已經(jīng)成為阻礙開發(fā)者生產(chǎn)和 AI 應(yīng)用部署的主要障礙。當(dāng)前處理器的復(fù)雜性降低了開發(fā)者工作效率，再加上摩爾定律逐漸變慢，實(shí)現(xiàn)更高的計(jì)算性能變得越來越困難。

Groq 的芯片設(shè)計(jì)降低了傳統(tǒng)硬件開發(fā)的復(fù)雜度，因此開發(fā)者可以更加專注于算法（或解決其他問題），而不是為了硬件調(diào)整自己的解決方案。有了這種更加簡(jiǎn)單的硬件設(shè)計(jì)，開發(fā)者無需進(jìn)行剖析研究（profiling），因此可以節(jié)省資源，更容易大規(guī)模部署 AI 應(yīng)用。與基于 CPU、GPU 和 FPGA 的傳統(tǒng)復(fù)雜架構(gòu)相比，Groq 的芯片還簡(jiǎn)化了認(rèn)證和部署，使客戶能夠簡(jiǎn)單而快速地實(shí)現(xiàn)可擴(kuò)展、單瓦高性能的系統(tǒng)。

Groq 的張量流架構(gòu)可以在任何需要的地方提供算力。與當(dāng)前領(lǐng)先的 GPU、CPU 相比，Groq 處理器的每個(gè)晶體管可以實(shí)現(xiàn) 3-6 倍的性能提升。這一改進(jìn)意味著交付性能的提升、延遲的下降以及成本的降低。結(jié)果是，Groq 的架構(gòu)使用起來更加簡(jiǎn)單，而且性能高于傳統(tǒng)計(jì)算平臺(tái)。

（責(zé)任編輯：fqj）

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
463

文章
54471

瀏覽量
469770
谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6259

瀏覽量
112020

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

谷歌全新AI架構(gòu)，單芯片每秒1000萬億次運(yùn)算

評(píng)論

搜索歷史

谷歌全新AI架構(gòu)，單芯片每秒1000萬億次運(yùn)算

評(píng)論

谷歌全新AI架構(gòu)，單芯片每秒1000萬億次運(yùn)算