日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

試圖打破CUDA統(tǒng)治的SYCL

E4Life ? 來源:電子發(fā)燒友原創(chuàng) ? 作者:Leland ? 2022-06-28 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

各式各樣的加速器在當下的計算架構(gòu)中越來越普遍,HPC、數(shù)據(jù)中心等高端應(yīng)用開始追求更高的峰值性能,用到了專業(yè)GPUAI加速器,而手機嵌入式系統(tǒng)開始追求更高的能效,也在其SoC、MCU中加入一定的嵌入式加速硬件。但與此同時,這樣復(fù)雜的多廠商、多架構(gòu)和多硬件生態(tài),為編程帶來了巨大的難題。但CUDA作為只面向英偉達GPU的封閉軟件生態(tài),其熱度卻水漲船高。
?
提及各大編程語言的論文數(shù)量/ 谷歌學術(shù)

在軟件開發(fā)中,一個開放的標準層就是開發(fā)者產(chǎn)品方案接口規(guī)范,同樣的,處理器開發(fā)商們可以使用基于開放標準層的底層軟件驅(qū)動創(chuàng)造解決方案。如此一來軟件開發(fā)者們無需捆綁在特定的硬件方案上,硬件開發(fā)者的硬件不僅可以兼顧自己維護的軟件,還能支持到更多的軟件開發(fā)人員。而且在普及之后,開發(fā)人員的技能更加具有普適性,他們可以方便地使用自己熟悉的開發(fā)工具。

對使用開放標準的軟硬件公司來說,此舉可以加快產(chǎn)品上市時間,減少長期維護工作,而且在軟件方案廠商日益劇增的當下,業(yè)界已經(jīng)普遍接受了開放標準,就像RISC-V一樣,英特爾、AMD甚至是英偉達也都對開放標準的定義做出了貢獻,對于一些初創(chuàng)企業(yè)來說就更是如此了。

SYCL出世

從市場反饋來看,開發(fā)者的需求很明顯了,他們想要一個標準的編程模型,擁有標準運算庫、對Pytorch、Tensorflow等AI框架的支持、性能分析工具,以及對多個廠商不同硬件架構(gòu)的支持,而這些需求匯聚在一起,使得開放標準聯(lián)盟Khronos Group聯(lián)合旗下成員打造出了SYCL這一編程語言。

SYCL作為跨越CPU、GPU、FPGA和AI加速器等多種架構(gòu)的一致性編程語言,每個架構(gòu)能單獨或整合編程。SYCL編程語言與其API擴展能用于不同的開發(fā)用例,比如負載加速或異構(gòu)計算應(yīng)用,將現(xiàn)有的C、C++或其他加速器語言代碼轉(zhuǎn)換成SYCL代碼。
?
SYCL的支持情況/ Khronos Group
在不同廠商的支持下,SYCL的實施方式有多種,他們增加了對OpenCL以外不同加速API后端的支持,比如Codeplay的ComputeCpp、英特爾的DPC++、AMD的hipSYCL以及Xilinx的triSYCL等。

英特爾的SYCL之路

英特爾對于SYCL的重視可以說顯而易見了,自從宣布轉(zhuǎn)向XPU+oneAPI的路線之后,英特爾就已經(jīng)與SYCL深度綁定了。不僅微軟、谷歌等巨頭宣布支持oneAPI,英特爾也和中科院計算所在內(nèi)的大型研究所、國家實驗室和大學合作成立了oneAPI卓越中心,借助他們的oneAPI開源代碼,進一步擴展oneAPI產(chǎn)品與規(guī)范。

oneAPI的核心則是其編程語言DPC++,英特爾的DPC++可以說是SYCL的超集,不僅包含了SYCL標準,還包含一些功能擴展,比如統(tǒng)一共享內(nèi)存等,不過目前其中不少擴展也已經(jīng)并入了SYCL新版規(guī)范中。

不過SYCL遠不僅是為了方便英特爾建設(shè)其跨架構(gòu)的軟件生態(tài),而是為了打破CUDA的統(tǒng)治,打造一個更加開放的軟硬件生態(tài),這點從英特爾在oneAPI的開發(fā)動向就能看出。

此前英特爾對于CUDA并沒有任何動作,反倒是其競爭對手AMD推出了HIP,幫助開發(fā)者將CUDA代碼移植至AMD平臺上,畢竟AMD還得發(fā)展GPU生態(tài)。但隨著英特爾的硬件路線已經(jīng)不單單是CPU,而是CPU、GPU、FPGA、IPU和AI加速器的多硬件異構(gòu)生態(tài),這時候打造一個CUDA之外的軟件生態(tài)是提升其產(chǎn)品競爭力的必經(jīng)之路了。

為了更好實現(xiàn)對CUDA代碼的移植,英特爾推出了DPC++兼容性工具(DPCT),目前版本的DPCT已經(jīng)可以將90%到95%的CUDA代碼轉(zhuǎn)換成SYCL。不過這只是一個理想范圍,具體數(shù)值還是取決于代碼對應(yīng)的工作負載。對于簡單的CUDA程序來說,完成DPC++的移植只需要對CUDA源文件運行這一轉(zhuǎn)換工具即可,相對復(fù)雜的CUDA程序還是需要一定的手動編程優(yōu)化。

今年6月,英特爾公布消息,決定收購Codeplay公司。要說對SYCL的研究,除了英特爾以外,最深入的當屬Codeplay了,畢竟就連SYCL工作組的主席也是來自Codeplay的杰出工程師MichaelWong。Codeplay不僅提供了多種處理器上SYCL的支持,也支持將CUDA代碼移植為SYCL,同時保證SYCL代碼在英偉達GPU上的繼續(xù)運行,還能調(diào)用一些CUDA庫。

Codeplay的方案支持覆蓋英特爾、AMD、英偉達的處理器,而且他們也開始了對汽車ADAS(瑞薩R-Car)、邊緣計算設(shè)備(ImaginationPowerVR)與RISC-V處理器(晶心科技NX27V)的支持開發(fā)工作。后三者恰好是SYCL當前未曾開拓的市場,但卻是英特爾正在發(fā)力的三大市場,加上Codeplay本身在HPC、AI上的軟件開發(fā)實力,如此看來,英特爾收購Codeplay完全符合其戰(zhàn)略目標。

結(jié)語

盡管SYCL的構(gòu)想是好的,其發(fā)展路線也是傾向于開發(fā)者,但這并不代表著就一定能取代CUDA的位置,畢竟SYCL其實也才誕生沒多久,與CUDA、OpenCL或OpenMP相比生態(tài)發(fā)展還沒有成熟。再者就是統(tǒng)一各種硬件的編程并沒有那么簡單,正如英偉達CEO黃仁勛曾經(jīng)提出的質(zhì)疑:時間會揭曉一個編程方法是否能兼容七種不同的處理器,至少歷史上從未出現(xiàn)過。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • amd
    amd
    +關(guān)注

    關(guān)注

    25

    文章

    5708

    瀏覽量

    140458
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10326

    瀏覽量

    181148
  • 英偉達
    +關(guān)注

    關(guān)注

    23

    文章

    4116

    瀏覽量

    99664
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RV生態(tài)又一里程碑:英偉達官宣CUDA將兼容RISC-V架構(gòu)!

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)英偉達生態(tài)護城河CUDA,從最初支持x86、Power?CPU架構(gòu),到2019年宣布支持Arm?CPU,不斷拓展在數(shù)據(jù)中心的應(yīng)用生態(tài)。 在2019年至今的六年
    的頭像 發(fā)表于 07-19 00:04 ?6859次閱讀
    RV生態(tài)又一里程碑:英偉達官宣<b class='flag-5'>CUDA</b>將兼容RISC-V架構(gòu)!

    eIQ 工具包在 Ubuntu 22.04 中不起作用怎么解決?

    :35.129579: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT
    發(fā)表于 04-22 06:54

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計目標是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優(yōu)勢是允許開發(fā)者基于其構(gòu)建自定義的 DSL。
    的頭像 發(fā)表于 02-10 10:31 ?552次閱讀

    這款開源驅(qū)動控制器讓你的墨水屏直接打破刻板印象

    提到墨水屏,你是不是一直認為它 “慢、靜態(tài)、只能看電子書”?75Hz 高刷新率 + 低于 20μs 低延遲!這款開源驅(qū)動控制器讓你的墨水屏直接打破刻板印象。
    的頭像 發(fā)表于 02-05 10:16 ?1098次閱讀
    這款開源驅(qū)動控制器讓你的墨水屏直接<b class='flag-5'>打破</b>刻板印象

    如何在NVIDIA CUDA Tile中編寫高性能矩陣乘法

    本博文是系列課程的一部分,旨在幫助開發(fā)者學習 NVIDIA CUDA Tile 編程,掌握構(gòu)建高性能 GPU 內(nèi)核的方法,并以矩陣乘法作為核心示例。
    的頭像 發(fā)表于 01-22 16:43 ?5336次閱讀
    如何在NVIDIA <b class='flag-5'>CUDA</b> Tile中編寫高性能矩陣乘法

    NVIDIA CUDA Tile的創(chuàng)新之處、工作原理以及使用方法

    NVIDIA CUDA 13.1 推出 NVIDIA CUDA Tile,這是自 2006 年 NVIDIA CUDA 平臺發(fā)明以來,最大的一次技術(shù)進步。這一令人振奮的創(chuàng)新引入了一套面向
    的頭像 發(fā)表于 12-24 10:17 ?699次閱讀
    NVIDIA <b class='flag-5'>CUDA</b> Tile的創(chuàng)新之處、工作原理以及使用方法

    在Python中借助NVIDIA CUDA Tile簡化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發(fā)明以來 GPU 編程最核心的更新之一。借助 GPU tile kernels,可以用比 SIMT
    的頭像 發(fā)表于 12-13 10:12 ?1480次閱讀
    在Python中借助NVIDIA <b class='flag-5'>CUDA</b> Tile簡化GPU編程

    NVIDIA CUDA 13.1版本的新增功能與改進

    NVIDIA CUDA 13.1 是自 CUDA 二十年前發(fā)明以來,規(guī)模最大、內(nèi)容最全面的一次更新。
    的頭像 發(fā)表于 12-13 10:08 ?2491次閱讀

    首款全國產(chǎn)訓推一體AI芯片發(fā)布,兼容CUDA生態(tài)

    CUDA生態(tài)體系。該芯片支持從單機多卡到千卡級集群的靈活擴展,能效比達3.41 TFLOPS/W——在同等功
    的頭像 發(fā)表于 11-30 07:20 ?9831次閱讀
    首款全國產(chǎn)訓推一體AI芯片發(fā)布,兼容<b class='flag-5'>CUDA</b>生態(tài)

    傳統(tǒng)格局將被打破?這款MEMS加速度計如何實現(xiàn)石英級精度

    在慣性測量領(lǐng)域,高精度加速度計的市場格局似乎早已固化:石英加速度計憑借其卓越的穩(wěn)定性長期占據(jù)著高端應(yīng)用的統(tǒng)治地位。然而,這一格局正在被悄然打破。ER-MA-6 MEMS加速度計的出現(xiàn),以其驚人的性能指標向傳統(tǒng)發(fā)起挑戰(zhàn),讓業(yè)界不禁發(fā)問:MEMS技術(shù)真的能夠達到石英級精度嗎?
    的頭像 發(fā)表于 09-26 14:59 ?962次閱讀
    傳統(tǒng)格局將被<b class='flag-5'>打破</b>?這款MEMS加速度計如何實現(xiàn)石英級精度

    比亞迪仰望U9工程測試車打破全球電車極速紀錄

    近日,仰望汽車宣布,仰望U9工程測試車在德國ATP測試場實現(xiàn)472.41km/h的最高時速成績,打破全球電車極速紀錄,此舉是中國自主品牌首次在該領(lǐng)域問鼎世界。
    的頭像 發(fā)表于 08-27 10:32 ?1188次閱讀

    英偉達:CUDA 已經(jīng)開始移植到 RISC-V 架構(gòu)上

    ,著重介紹了將 CUDA 移植到 RISC-V 架構(gòu)的相關(guān)工作和計劃,展現(xiàn)了對 RISC-V 架構(gòu)的高度重視與積極布局。 ? Frans Sijstermanns 首先回顧了英偉達與 RISC-V 之間
    發(fā)表于 07-17 16:30 ?4025次閱讀

    進迭時空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實踐

    Pytorch已能做到100%替換CUDA,國內(nèi)也有智源研究院主導(dǎo)的FlagGems通用算子庫試圖構(gòu)建起不依賴CUDA的AI計算生態(tài),截至今日,F(xiàn)lagGems已進入Pyto
    的頭像 發(fā)表于 07-15 09:04 ?2256次閱讀
    進迭時空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實踐

    Profinet轉(zhuǎn)CanOpen網(wǎng)關(guān),打破協(xié)議壁壘的關(guān)鍵技術(shù)

    兩個使用不同方言的專家需要實時協(xié)作,此時開疆智能Profinet轉(zhuǎn)CanOpen網(wǎng)關(guān)便成為打破技術(shù)壁壘的關(guān)鍵樞紐。
    的頭像 發(fā)表于 05-10 14:14 ?745次閱讀
    Profinet轉(zhuǎn)CanOpen網(wǎng)關(guān),<b class='flag-5'>打破</b>協(xié)議壁壘的關(guān)鍵技術(shù)

    半導(dǎo)體存儲器測試圖形技術(shù)解析

    在半導(dǎo)體存儲器測試中,測試圖形(Test Pattern)是檢測故障、驗證可靠性的核心工具。根據(jù)測試序列長度與存儲單元數(shù)N的關(guān)系,測試圖形可分為N型、N2型和N3/?型三大類。
    的頭像 發(fā)表于 05-07 09:33 ?2068次閱讀
    半導(dǎo)體存儲器測<b class='flag-5'>試圖</b>形技術(shù)解析
    开远市| 安康市| 宜都市| 南部县| 浦江县| 乌拉特中旗| 大荔县| 定边县| 定南县| 英山县| 金乡县| 香港| 紫阳县| 濉溪县| 神池县| 青川县| 尉犁县| 衡水市| 琼结县| 旅游| 广平县| 运城市| 梨树县| 平武县| 客服| 淳安县| 当阳市| 桐乡市| 汝城县| 邵阳县| 个旧市| 天等县| 武宁县| 五寨县| 皮山县| 柘城县| 子长县| 康平县| 新乡市| 博野县| 广宁县|