日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

提高AI算力,異構優(yōu)化也是關鍵

英特爾中國 ? 來源:英特爾中國 ? 2023-03-12 09:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,勁爆亮相的ChatGPT著實讓人們眼前一亮,讓普羅大眾也“親密”體驗了人工智能AI)的神奇魔力,窺見了智能未來的璀璨前景之一斑。

然而,就在這離生活愈來愈近的AI讓人們對未來充滿無限憧憬、滿懷激動的同時,也有冷靜的分析指出,諸如ChatGPT等AI規(guī)模應用也是一個“吞金獸”,其帶來的不僅僅是讓人急呼“AI算力告急”的算力消耗(有研究顯示,中國智能算力需求規(guī)模,到2026年就將進入每秒十萬億億次浮點計算(ZFLOPS)級別,達到1,271.4EFLOPS,從2021到2026年,年復合增長率將達52.3%1);更有從云端、邊緣到終端廣泛AI應用場景,使得IT運營環(huán)境日益復雜和多樣,讓各種AI方案在異構平臺獲得便捷、易用且有效優(yōu)化成為急迫的需求。

異構計算,主要指不同類型的指令集和體系架構的計算單元組成的系統(tǒng)的計算方式,在云數(shù)據(jù)中心、邊緣計算場景等有著廣泛應用。

異構計算的興起與工作負載密切相關,在能有效發(fā)揮異構計算優(yōu)勢的應用場景中,人工智能場景可謂是典型的代表場景之一,不管是深度學習訓練,還是深度學習推理,都會進行大量矩陣運算,需要異構計算提供更有力支撐;而隨著AI應用快速走向邊緣,由此引致的云邊端協(xié)同,對異構計算提出了更高要求。計算平臺在提升自身算力水平的同時,也需要通過提供優(yōu)化策略,幫助用戶更好地提升AI方案的性能,助力AI應用降本增效。

騰訊云創(chuàng)新打造TACO Kit套件,為AI應用提供異構加速

為幫助廣大用戶應對日益復雜的異構環(huán)境給AI應用帶來的挑戰(zhàn),騰訊云創(chuàng)新推出計算加速套件TACO Kit (TencentCloud Accelerated Computing Optimization Kit),通過在異構硬件平臺上提供全棧式的軟硬件解決方案的模式,為AI方案設計者、AI開發(fā)人員以及AI使用者構建全新的異構計算加速軟件服務,助其借助多元化異構、高性能加速框架、離線虛擬化技術以及靈活的商業(yè)模式,輕松駕馭多元算力,助力AI應用全方位、全場景降本增效。

而作為異構加速服務的入口,TACO Kit內置AI推理加速引擎TACO Infer,能針對AI應用中不同的訓練和服務框架、個性的優(yōu)化實踐和使用習慣、各異的軟件版本和硬件偏好,以計算加速、無感接入和魯棒易用的特性和優(yōu)勢,幫助用戶一站式解決AI模型在生產(chǎn)環(huán)境中部署與應用的痛點。

94f5a4c2-c072-11ed-bfe3-dac502259ad0.png

圖一 AI推理加速引擎TACO Infer

TACO Infer引擎具備的功能特性包括:

■無感集成:可跨平臺透明適配CPU、GPU、NPU等異構芯片;尊重用戶使用習慣,無需改變模型源格式;無需進行IR(Intermediate Representation,中間表示)轉換,對無顯式算子結構模型友好;

■基于原生框架Runtime:可基于多種流行原生框架,包括TensorFlow、PyTorch、ONNXRuntime 等運行;可基于框架原Runtime構建,并可充分利用框架自定義的擴展機制;

■無縫對接服務框架:包括TF Serving、Triton以及TorchServe等。

基于以上特性,無論在何種場景中,用戶在硬件平臺上部署AI應用,都只需要進行簡單地前端交互,就能讓TACO Kit在后臺以最佳模式啟動工作負載,并獲得更優(yōu)的推理性能。

而這一優(yōu)異推理性能的獲得,離不開英特爾和騰訊云面向TACO Kit開展的深度協(xié)作加持。具體講,就是將英特爾 Neural Compressor集成到TACO Kit之中,來大幅提升AI推理性能,加速各類AI應用便捷高效落地。

英特爾 Neural Compressor提供優(yōu)化支持,助力TACO Kit加速推理

英特爾 Neural Compressor是英特爾開源的神經(jīng)網(wǎng)絡模型壓縮庫,不僅面向如量化、修剪以及知識提取等主流模型壓縮技術,提供了跨多個深度學習框架的統(tǒng)一接口,還具有以下模型性能調優(yōu)特性:

■具備由精度驅動的自動化調整策略,幫助用戶快速獲得最佳量化模型;

■可使用預定義的稀疏性目標生成修剪模型,實現(xiàn)不同的權重修剪算法;

■能夠從更大的網(wǎng)絡(“教師”)中提取知識用于訓練更小的網(wǎng)絡(“學生”),實現(xiàn)更小的精度損失。

英特爾和騰訊云協(xié)作,通過插件的方式將英特爾 Neural Compressor集成到TACO Kit,讓TACO Kit充分利用英特爾 Neural Compressor的優(yōu)勢特性。如圖二所示,利用量化壓縮技術來為不同的深度深度框架(如TensorFlow、PyTorch、ONNXRuntime等)提供統(tǒng)一的模型優(yōu)化 API,便捷實現(xiàn)模型推理優(yōu)化(由FP32數(shù)據(jù)類型量化為INT8數(shù)據(jù)類型)。同時,也可以利用壓縮庫內置的精度調優(yōu)策略,根據(jù)不同的模型內部結構生成精度更佳的量化模型,幫助用戶大幅降低模型量化的技術門檻,并有效提升AI模型的推理效率。

9533478c-c072-11ed-bfe3-dac502259ad0.png

圖二 集成英特爾 Neural Compressor后的TACO Kit工作流程

在云端部署時,量化后的模型可通過英特爾 至強 可擴展平臺內置的英特爾 DL Boost,來獲得有效的硬件加速和更高的推理效率。以指令集中的vpdpbusd指令為例,以往需要3條指令(vpmaddubsw、vpmaddwd、vpaddd)完成的64次乘加過程,現(xiàn)在僅需1條指令(vpdpbusd)即可,并能夠消除運行過程中的處理器飽和問題,再輔之以乘加過程中的中間數(shù)值直接從內存播送,可使得處理性能達初始FP32模型的4倍2。這無疑為TACO Kit加速推理,進而幫助用戶在異構環(huán)境更高效地構建和部署AI提供了關鍵助力。

9552c080-c072-11ed-bfe3-dac502259ad0.png

圖三 英特爾 DL Boost(AVX-512_VNNI)技術

方案驗證顯真實性能,展異構AI加速優(yōu)勢

那么,集成英特爾 Neural Compressor后的TACO Kit的性能究竟有何等驚艷提升呢?實踐最有發(fā)言權,數(shù)據(jù)最有說服力。套件打造完成后,英特爾與騰訊云一起選取了多種被廣泛應用的自然語言處理深度學習模型,對TACO Kit性能加速進行了驗證測試。

測試中,各個深度學習模型在通過TACO Kit進行優(yōu)化后,使用英特爾 Neural Compressor進行INT8量化及性能調優(yōu),推理性能加速結果令人滿意。如圖四所示3,在保持精度水平基本不變的情況下,各深度學習模型的推理性能均獲得顯著提升,提升幅度從55%到139%不等,在其中的bert-base-uncased-mrpc場景中,推理性能更是達到了基準值的2.39倍。

957e82ba-c072-11ed-bfe3-dac502259ad0.png

圖四 集成英特爾 Neural Compressor的TACO Kit所帶來的推理性能加速4

對TACO Kit引入英特爾 Neural Compressor獲得的大幅性能加速,騰訊云異構計算專家級工程師葉帆直言,這一合作成果能幫助不同角色的用戶在異構硬件平臺上獲得便捷、易用且經(jīng)過有效優(yōu)化的 AI 加速能力,助力AI 應用實現(xiàn)全方位、全場景的降本增效。而英特爾 Neural Compressor 是 TACO Kit 中 AI 推理負載獲得充分性能加速的有效技術保證。

基于這一成果,英特爾和騰訊云也將面向未來繼續(xù)深化合作,通過融合硬件廠商優(yōu)化算子、自研AI編譯技術升級等措施,驅動TACO Infer在軟硬件兼容性和性能上不斷迭代優(yōu)化。同時,雙方還計劃進一步將第四代英特爾 至強 可擴展平臺及其內置的深度學習加速技術與騰訊計算加速套件TACO Kit相融合,借助新平臺更為澎湃的算力輸出與深度學習加速新技術,為用戶提供更加高效可用的異構AI加速能力,進而在推動AI走向更廣泛應用的同時,助力應對多模態(tài)大模型等對算力提出的更嚴峻挑戰(zhàn),驅動智能應用向縱深化演進,為經(jīng)濟社會的高質量發(fā)展提供強勁數(shù)字生產(chǎn)力。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10326

    瀏覽量

    181145
  • AI
    AI
    +關注

    關注

    91

    文章

    41326

    瀏覽量

    302731
  • 人工智能
    +關注

    關注

    1821

    文章

    50367

    瀏覽量

    267074

原文標題:提高AI算力,異構優(yōu)化也是關鍵

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    天數(shù)智芯助力DeepLink異構訓推一體化升級

    當前,通用人工智能發(fā)展駛入快車道,大模型對的需求呈現(xiàn)爆發(fā)式增長,異構的高效協(xié)同成為釋放
    的頭像 發(fā)表于 03-26 09:30 ?460次閱讀
    天數(shù)智芯助力DeepLink<b class='flag-5'>異構</b><b class='flag-5'>算</b><b class='flag-5'>力</b>訓推一體化升級

    邊緣AI臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值

    310P芯片的底層架構,深度剖析這款產(chǎn)品的技術細節(jié)、門檻及其在實際產(chǎn)業(yè)落地中的真實價值。 一、176TOPS的產(chǎn)業(yè)門檻:為何這是邊緣的新起點?
    發(fā)表于 03-10 14:19

    AI送上太空,是終極方案還是瘋狂幻想?評論區(qū)說出你的陣營!

    AI
    江蘇易安聯(lián)
    發(fā)布于 :2026年01月06日 09:43:34

    解鎖邊緣智能新境界,天數(shù)智AI邊緣模組賦能端側AI應用新篇章?

    在數(shù)字化與智能化飛速發(fā)展的時代,邊緣計算正逐漸成為推動行業(yè)變革的關鍵力量。天數(shù)智緊跟技術浪潮,精心布局AI邊緣模組領域,以強大的產(chǎn)品矩
    的頭像 發(fā)表于 12-12 09:16 ?880次閱讀
    解鎖邊緣智能新境界,天數(shù)智<b class='flag-5'>算</b><b class='flag-5'>AI</b>邊緣<b class='flag-5'>算</b><b class='flag-5'>力</b>模組賦能端側<b class='flag-5'>AI</b>應用新篇章?

    解鎖邊緣智能新境界,天數(shù)智AI邊緣模組賦能端側AI應用新篇章?

    在數(shù)字化與智能化飛速發(fā)展的時代,邊緣計算正逐漸成為推動行業(yè)變革的關鍵力量。天數(shù)智緊跟技術浪潮,精心布局AI邊緣模組領域,以強大的產(chǎn)品矩
    的頭像 發(fā)表于 12-12 09:15 ?755次閱讀
    解鎖邊緣智能新境界,天數(shù)智<b class='flag-5'>算</b><b class='flag-5'>AI</b>邊緣<b class='flag-5'>算</b><b class='flag-5'>力</b>模組賦能端側<b class='flag-5'>AI</b>應用新篇章?

    華為發(fā)布AI容器技術Flex:ai,平均利用率提升30%

    決方案。 ? 當前,AI產(chǎn)業(yè)正處于高速發(fā)展的黃金時期,海量需求如潮水般涌來。然而,資源利用率偏低的問題卻成為了產(chǎn)業(yè)發(fā)展的
    的頭像 發(fā)表于 11-26 08:31 ?7829次閱讀

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    從CPU、GPU到NPU,美格智能持續(xù)優(yōu)化異構計算效能

    的科技企業(yè)也在近期表示,將通過軟件層創(chuàng)新大幅提升資源利用率。作為高AI模組和端側AI領域
    的頭像 發(fā)表于 11-21 16:05 ?1347次閱讀
    從CPU、GPU到NPU,美格智能持續(xù)<b class='flag-5'>優(yōu)化</b><b class='flag-5'>異構</b><b class='flag-5'>算</b><b class='flag-5'>力</b>計算效能

    硅芯科技:AI突破,新型堆疊EDA工具持續(xù)進化

    無法滿足AI芯片對于異構集成的需求。日前,珠海硅芯科技有限公司創(chuàng)始人兼首席科學家趙毅博士在2025灣芯展上接受媒體采訪,分享了AI
    的頭像 發(fā)表于 10-31 09:16 ?1.3w次閱讀
    硅芯科技:<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>突破,新型堆疊EDA工具持續(xù)進化

    國產(chǎn)AI芯片真能扛住“內卷”?海思昇騰的這波操作藏了多少細節(jié)?

    最近行業(yè)都在說“AI的命門”,但國產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實測下來有點超出預期——7nm工藝下
    發(fā)表于 10-27 13:12

    什么是AI模組?

    未來,騰視科技將繼續(xù)深耕AI模組領域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著AI技術的不斷演進和物聯(lián)網(wǎng)應用的持續(xù)拓展,騰視科技的
    的頭像 發(fā)表于 09-19 15:26 ?2151次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    什么是AI模組?

    未來,騰視科技將繼續(xù)深耕AI模組領域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著AI技術的不斷演進和物聯(lián)網(wǎng)應用的持續(xù)拓展,騰視科技的
    的頭像 發(fā)表于 09-19 15:25 ?1073次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    一文看懂AI集群

    ,可以給AI浪潮提供源源不斷的動力。那么,AI集群,到底是由哪些東西組成的呢?它為什么能夠提供澎湃的
    的頭像 發(fā)表于 07-23 12:18 ?1983次閱讀
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    潤和軟件發(fā)布StackRUNS異構分布式推理框架

    當下,AI模型規(guī)模持續(xù)膨脹、多模態(tài)應用場景日益復雜,企業(yè)正面臨異構資源碎片化帶來的嚴峻挑戰(zhàn)。為應對行業(yè)痛點,江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)正式發(fā)布自主研發(fā)的Sta
    的頭像 發(fā)表于 06-13 09:10 ?1626次閱讀
    潤和軟件發(fā)布StackRUNS<b class='flag-5'>異構</b>分布式推理框架

    壁仞科技擔任智集群異構混訓工作組組長

    參與了本次交流,分享智集群異構混訓的關鍵技術進展、成功落地案例,為突破大模型異構孤島難題指
    的頭像 發(fā)表于 05-27 16:55 ?1310次閱讀
    邵阳县| 河津市| 浏阳市| 乌兰浩特市| 景宁| 榆树市| 宁安市| 资源县| 九寨沟县| 和林格尔县| 休宁县| 抚松县| 隆安县| 宝鸡市| 博客| 阳原县| 喀什市| 惠来县| 墨脱县| 盐山县| 白城市| 长春市| 沭阳县| 喜德县| 寿阳县| 南木林县| 化州市| 北碚区| 赣榆县| 嘉荫县| 镇坪县| 烟台市| 宣恩县| 长治市| 临邑县| 康保县| 普洱| 拉孜县| 易门县| 鞍山市| 潢川县|