日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種越來越多被應(yīng)用于加速機(jī)器學(xué)習(xí)應(yīng)用的浮點(diǎn)格式bfloat16

倩倩 ? 來源:lq ? 作者:TechEdge科技邊界 ? 2019-09-20 10:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Arm早前曾宣布其ArmV8-A架構(gòu)的下一版本將包括對bfloat16的支持,現(xiàn)在透露了更多細(xì)節(jié)。

bfloat16是一種越來越多被應(yīng)用于加速機(jī)器學(xué)習(xí)應(yīng)用的浮點(diǎn)格式。谷歌、英特爾和不少新創(chuàng)公司都將bfloat16作為其AI加速架構(gòu)的核心功能之一。

Bfloat16是由Google發(fā)明,最初在其第三代Tensor處理單元(TPU)中導(dǎo)入,作為加速機(jī)器學(xué)習(xí)之用。英特爾也認(rèn)為該格式在未來AI計算中也有龐大的應(yīng)用潛力,因此整合到其即將推出的“Cooper Lake”Xeon SP處理器,以及“Spring Crest”神經(jīng)網(wǎng)絡(luò)處理器中,未來的Xe GPU也會支持。而包括Wave Computing、Habana Labs和Flex Logix等AI芯片新創(chuàng)公司也采用了支持該計算格式的定制AI處理器。

bfloat16的主要想法是提供動態(tài)范圍與標(biāo)準(zhǔn)IEEE-FP32相同的16位浮點(diǎn)格式,精度較低。相當(dāng)于將8位的FP32指數(shù)字段的大小匹配,并將FP32分?jǐn)?shù)字段的大小縮小到7位。

根據(jù)Arm首席架構(gòu)師和研究員Nigel Stephens的說法,在大多數(shù)情況下,bfloat16格式與FP32一樣準(zhǔn)確,用于神經(jīng)網(wǎng)絡(luò)計算,但是以一半的位址就可以完成任務(wù)。因此,與32位相比,吞吐量可以翻倍,內(nèi)存需求可以減半。在多數(shù)情況下,blfloat16可以成為這些機(jī)器學(xué)習(xí)算法中FP32的“插入式”替代品。由于神經(jīng)網(wǎng)絡(luò)的計算性質(zhì),只要數(shù)據(jù)類型具有足夠的范圍和精度,就可以很好地適應(yīng)少量噪聲,精準(zhǔn)的完成模型訓(xùn)練工作。

Arm將bfloat16的支持被放到ArmV8-A下的所有浮點(diǎn)處理的相關(guān)指令集,包含SVE(可擴(kuò)展矢量擴(kuò)展)、AArch64 Neon(64位SIMD)和AArch32 Neon(32位SIMD)。通過相關(guān)擴(kuò)展的支持,加速基于Arm的客戶端和服務(wù)器的機(jī)器學(xué)習(xí)推理和培訓(xùn)練過程。雖然Arm服務(wù)器市占率仍然很小,但其在智能手機(jī)等客戶端方面擁有幾乎絕對的統(tǒng)治地位,這意味著未來的手持式和物聯(lián)網(wǎng)設(shè)備將很快能夠利用更緊湊的數(shù)字格式來處理機(jī)器學(xué)習(xí)。

當(dāng)然,Arm如果越強(qiáng),那么采用自有AI架構(gòu)的芯片設(shè)計業(yè)者壓力其實(shí)也會越大,就好比華為先后使用寒武紀(jì)與達(dá)芬奇架構(gòu),都是封閉的專有架構(gòu),高通也是采用DSP結(jié)合NPU計算,如果Arm官方架構(gòu)性能有飛躍性的改進(jìn),那么這些采用定制AI架構(gòu)的芯片設(shè)計者可能最終會被迫放棄自己的封閉架構(gòu),轉(zhuǎn)而擁抱Arm的開放架構(gòu)。而這也有助于發(fā)展整體AI生態(tài),畢竟使用相同開發(fā)環(huán)境的硬件基數(shù)越大,就能吸引更多應(yīng)用開發(fā)者共同耕耘相關(guān)生態(tài)。

值得注意的是,Arm決定在SVE中加入bfloat16的支持這點(diǎn)。由于SVE是專門針對高性能計算的矢量指令集,截至目前為止,僅有富士通一家采用,并應(yīng)用于其A64FX芯片上。Arm方面表示,由于HPC用戶對機(jī)器學(xué)習(xí)的興趣持續(xù)增加,過去只能依靠GPU方案來進(jìn)行加速,若能在單一架構(gòu)處理完機(jī)器學(xué)習(xí)的工作,那么就不用再額外花費(fèi)成本添購專用的加速硬件。

使用bfloat16還有另一個好處,那就是它具有與FP32相同的動態(tài)范圍,這使得轉(zhuǎn)換現(xiàn)有使用FP32的現(xiàn)有計算代碼非常簡單,可以大規(guī)模無痛轉(zhuǎn)換既有的FP32應(yīng)用到blfloat16數(shù)據(jù)格式下。

然而,SVE原本就可以針對從128位到2048位等不同的矢量長度來實(shí)現(xiàn)計算工作,理論上,bfloat16應(yīng)該放在128位的Neon計算單元內(nèi)比較合理。但實(shí)際上,數(shù)據(jù)的吞吐量其實(shí)還是要取決于硬件的實(shí)現(xiàn)選擇,比如說SVE執(zhí)行單元的數(shù)量,以及Neon計算單元的數(shù)量。

而隨著Arm增加了bfloat16這個數(shù)據(jù)格式的支持,借以加速AI計算,這也讓GPU成為目前主流機(jī)器學(xué)習(xí)加速硬件中唯一不支持這種數(shù)據(jù)格式的架構(gòu),而英特爾即將推出的Xe GPU也會加入該格式的支持,包含AMD或NVIDIA,應(yīng)該都會在下一代產(chǎn)品中增加此數(shù)據(jù)格式的支持。

根據(jù)ARM做的模擬,不同類型的運(yùn)算中bfloat16帶來的性能提升不等,少的有1.6倍性能,多的可達(dá)4倍性能,性能成長相當(dāng)驚人。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9599

    瀏覽量

    393889
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108220
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    67

    文章

    8567

    瀏覽量

    137282
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    快問快答:為什么越來越多制造企業(yè)在選型氣密儀時,更看重源頭實(shí)力廠家?

    、密封性能,更直接影響良率、返修率、售后成本以及品牌口碑。汽車車載攝像頭四通道氣密儀也正因?yàn)槿绱耍?b class='flag-5'>越來越多企業(yè)在選擇氣密性檢測儀時,已經(jīng)不再只盯著參數(shù)表上的幾個數(shù)字,
    的頭像 發(fā)表于 04-22 16:16 ?113次閱讀
    快問快答:為什么<b class='flag-5'>越來越多</b>制造企業(yè)在選型氣密儀時,更看重源頭實(shí)力廠家?

    PyTorch 中RuntimeError分析

    ? 錯誤原因 這個 RuntimeError 是因?yàn)樵?PyTorch 中,upsample_nearest2d_out_frame(最近鄰2D上采樣)操作尚未對 BFloat16 數(shù)據(jù)類型提供
    發(fā)表于 03-06 06:02

    快問快答:為什么越來越多海外客戶選擇中國國產(chǎn)氣密性檢測品牌?

    如果把時間拉回十年前,「中國檢測設(shè)備」在海外市場常被貼上幾個標(biāo)簽:?成本導(dǎo)向?用于輔助或低端環(huán)節(jié)?難以長期穩(wěn)定運(yùn)行而今天,越來越多海外客戶正在主動指定或優(yōu)先評估中國氣密性檢測品牌。這種轉(zhuǎn)變,并非偶然
    的頭像 發(fā)表于 02-27 11:54 ?411次閱讀
    快問快答:為什么<b class='flag-5'>越來越多</b>海外客戶選擇中國國產(chǎn)氣密性檢測品牌?

    為什么原廠越來越需要套自己的 Studio

    從工程現(xiàn)實(shí)看: 芯片型號會持續(xù)增加 工程人員會流動 文檔會不斷修訂 而 Studio: 可以承載長期演進(jìn)的配置體系 可以降低對個別專家的依賴 可以讓新型號的接入成本持續(xù)下降 這也是為什么,越來越多
    發(fā)表于 02-05 09:37

    智慧水務(wù)為什么越來越多項目選擇 BL118|水務(wù)物聯(lián)網(wǎng)邊緣計算方案解析

    智慧水務(wù),為什么越來越多項目選擇 BL118? ——基于鋇錸技術(shù) BL118 的水務(wù)物聯(lián)網(wǎng)采集與邊緣計算方案 過去,水廠、管網(wǎng)、泵房的運(yùn)維大多依賴人工巡檢。流量、壓力、水質(zhì)、液位是否異常?只能靠現(xiàn)場
    的頭像 發(fā)表于 01-22 15:00 ?286次閱讀
    智慧水務(wù)為什么<b class='flag-5'>越來越多</b>項目選擇 BL118|水務(wù)物聯(lián)網(wǎng)邊緣計算方案解析

    如何使用 ARM FPU 加速浮點(diǎn)計算?

    和硬件兩。 對于不帶 FPU 的處理器,ARM提供了個「浮點(diǎn)支持軟件庫」用于計算浮點(diǎn)數(shù):fplib。 fplib提供的 API 以__a
    發(fā)表于 11-19 06:51

    risc-v中浮點(diǎn)運(yùn)算單元的使用及其設(shè)計考慮

    RISC-V浮點(diǎn)運(yùn)算單元(floating-point unit,簡稱FPU)是一種專門用于執(zhí)行浮點(diǎn)運(yùn)算的硬件加速器,其作用是提高
    發(fā)表于 10-21 14:46

    學(xué)習(xí)物聯(lián)網(wǎng)怎么入門?

    隨著物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,越來越多的人開始關(guān)注學(xué)習(xí)領(lǐng)域。但是對于初學(xué)者來說,物聯(lián)網(wǎng)似乎是個龐雜的概念,學(xué)習(xí)起來很困難。因此,從哪里開始
    發(fā)表于 10-14 10:34

    為什么越來越多的場所選擇智能閘口控制系統(tǒng)?它有哪些優(yōu)勢?

    在物流行業(yè)快速發(fā)展的今天,傳統(tǒng)人工閘口已難以滿足高效通行的需求。智能閘口控制系統(tǒng)憑借AI、物聯(lián)網(wǎng)等先進(jìn)技術(shù),正逐漸成為港口、物流園區(qū)、海關(guān)等場所的首選方案。那么,智能閘口究竟有哪些優(yōu)勢,讓越來越多
    的頭像 發(fā)表于 08-14 10:56 ?570次閱讀

    FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用

    越來越多應(yīng)用于機(jī)器學(xué)習(xí)任務(wù)中。本文將探討 FPGA 在機(jī)器
    的頭像 發(fā)表于 07-16 15:34 ?3136次閱讀

    為什么越來越多政府單位用上了國產(chǎn)云終端?它比你想的更能打

    國產(chǎn)化進(jìn)程不斷加速越來越多政府單位在信息化升級中將目光投向更輕巧、安全的國產(chǎn)云終端。在配合云桌面系統(tǒng)后,它的安全性、運(yùn)維效率上更勝籌。國產(chǎn)電腦vs非國產(chǎn)化電腦:安全性與政策導(dǎo)向過去,我國電腦長期
    的頭像 發(fā)表于 06-13 11:34 ?1158次閱讀
    為什么<b class='flag-5'>越來越多</b>政府單位用上了國產(chǎn)云終端?它比你想的更能打

    國產(chǎn)地物光譜儀為什么越來越多科研團(tuán)隊選擇?

    地物光譜儀為什么越來越多科研團(tuán)隊選擇?原因并不復(fù)雜,但值得細(xì)講。 、性能接近國際主流,滿足科研需求 國產(chǎn)地物光譜儀在核心技術(shù)上,近年來取得了質(zhì)的進(jìn)步: 1. 波段范圍齊全 常規(guī)科研所需的 350–2500nm全波段 (覆蓋
    的頭像 發(fā)表于 06-10 15:44 ?853次閱讀
    國產(chǎn)地物光譜儀為什么<b class='flag-5'>越來越多</b><b class='flag-5'>被</b>科研團(tuán)隊選擇?

    RK3576 vs RK3588:為何越來越多的開發(fā)者轉(zhuǎn)向RK3576?

    瑞芯微(Rockchip)最新發(fā)布的 RK3576 經(jīng)推出,就吸引了大量原本關(guān)注 RK3588 的開發(fā)者。RK3588 作為旗艦級芯片,性能固然強(qiáng)大,但 RK3576 憑借其超高的能效比、優(yōu)化
    發(fā)表于 05-30 08:46

    基于雙向塊浮點(diǎn)量化的大語言模型高效加速器設(shè)計

    本文提出雙向塊浮點(diǎn)(BBFP)量化格式及基于其的LLMs加速器BBAL,通過雙向移位與重疊位設(shè)計顯著降低量化誤差,提升非線性計算效率,實(shí)現(xiàn)精度、吞吐量和能效的顯著優(yōu)化,相關(guān)成果國際頂
    的頭像 發(fā)表于 05-14 13:40 ?2541次閱讀
    基于雙向塊<b class='flag-5'>浮點(diǎn)</b>量化的大語言模型高效<b class='flag-5'>加速</b>器設(shè)計

    詳解原子層沉積薄膜制備技術(shù)

    CVD 技術(shù)是一種在真空環(huán)境中通過襯底表面化學(xué)反應(yīng)來進(jìn)行薄膜生長的過程,較短的工藝時間以及所制備薄膜的高致密性,使 CVD 技術(shù)越來越多應(yīng)用于薄膜封裝工藝中無機(jī)阻擋層的制備。
    的頭像 發(fā)表于 05-14 10:18 ?1820次閱讀
    詳解原子層沉積薄膜制備技術(shù)
    团风县| 定结县| 霸州市| 乐业县| 新绛县| 年辖:市辖区| 浮梁县| 鄂温| 锡林浩特市| 阿拉善右旗| 兴安县| 邮箱| 高邑县| 新余市| 江口县| 章丘市| 阳春市| 郸城县| 延吉市| 阳新县| 洪泽县| 山阳县| 富裕县| 建湖县| 林口县| 依兰县| 阜新市| 广水市| 陇川县| 霍州市| 丹东市| 靖州| 太仆寺旗| 额尔古纳市| 留坝县| 万盛区| 丰都县| 石柱| 云梦县| 灵石县| 行唐县|