日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TVM中schedule介紹

電子設(shè)計(jì) ? 來(lái)源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2022-02-08 17:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:安平博,Xilinx高級(jí)工程師;來(lái)源:AI加速微信公眾號(hào)

Schedule是和硬件體系結(jié)構(gòu)相關(guān)的一些列優(yōu)化,Halide在其文章中對(duì)其做了以下定義:

1 When and where should be the value at each coordinate in each function be computed?

2 Where should they be stored?

3 How long are values cached and communicated across multiple consumers, and when are they independently recomputed by each?

第一條是描述了數(shù)據(jù)計(jì)算順序?qū)π阅艿挠绊懀诙l是數(shù)據(jù)的存儲(chǔ)位置對(duì)性能影響,最后一條是多線程處理過(guò)程中,不同線程數(shù)據(jù)應(yīng)該如何進(jìn)行交互。

參考文章:https://zhuanlan.zhihu.com/p/94846767,常用的shcedule有:

1 cache_read

將數(shù)據(jù)存儲(chǔ)到片上緩存,減少訪問(wèn)數(shù)據(jù)時(shí)間。

2 cache_write

將結(jié)果寫入片上緩存,然后再寫入片外緩存。當(dāng)然這里的片上和片外并不是絕對(duì)的概念,也可以理解為不同層次的存儲(chǔ)結(jié)構(gòu)。

3 set_scope

為數(shù)據(jù)指定存儲(chǔ)位置,相比于cache_read和cache_write提供了更靈活的指定數(shù)據(jù)存儲(chǔ)方式。本質(zhì)上是相同的。

4 storage_align

在我看的文章中,storage_align是針對(duì)GPU shared memory的一個(gè)優(yōu)化,目的是為了減少同一個(gè)bank的訪問(wèn)沖突。在GPU中shared memory被分割成多個(gè)bank,這些bank可以被獨(dú)立線程同時(shí)訪問(wèn)。Storage_align就是為了將數(shù)據(jù)和bank大小匹配,減少bank conflict的發(fā)生。AI芯片中也有類似的問(wèn)題,只有盡量減少bank沖突的發(fā)生,才能最大化并行計(jì)算。

5 compute_at

不懂CUDA,所以對(duì)文章中的代碼不是很理解,但是從其解釋看,對(duì)于多次循環(huán)的計(jì)算(或者多維計(jì)算),可以通過(guò)并行計(jì)算來(lái)降維。

6 compute_inline

將獨(dú)立操作轉(zhuǎn)化為內(nèi)聯(lián)函數(shù),有點(diǎn)類似FPGA上的流水線計(jì)算。轉(zhuǎn)化成內(nèi)聯(lián)函數(shù)從上層層面減少了stage。在FPGA中也有類似問(wèn)題,可以將具有相同迭代的多條指令放在一起執(zhí)行。

7 compute_root

Compute_at的反操作。

8 fuse

將多個(gè)循環(huán)iter融合為一個(gè)iter。

9 split

Fuse的反操作,將一次循環(huán)迭代拆分為多次。

10 reorder

調(diào)整循環(huán)計(jì)算迭代順序。

11 tile

Tile也是將循環(huán)迭代進(jìn)行拆分,拆分多次計(jì)算。是split+reorder。

12 unroll

將循環(huán)展開,增加并發(fā)執(zhí)行。

13 vectorize

將循環(huán)迭代替換成ramp,可以通過(guò)SIMD指令實(shí)現(xiàn)數(shù)據(jù)批量計(jì)算,也就是單指令多數(shù)據(jù)計(jì)算。這在AI加速中會(huì)很常用,每條指令都是多數(shù)據(jù)計(jì)算的。

14 bind

CUDA中使用的優(yōu)化方法,將iter綁定到不同線程,實(shí)現(xiàn)并發(fā)計(jì)算。

15 parallel

實(shí)現(xiàn)多設(shè)備并行.

16 pragma

可以在代碼中人為添加編譯注釋,人為干預(yù)編譯優(yōu)化。HLS中就是通過(guò)這樣的方式來(lái)實(shí)現(xiàn)c的硬件編程的。

17 prefetch

將數(shù)據(jù)計(jì)算和load后者store數(shù)據(jù)重疊起來(lái),在FPGA中是很常見(jiàn)優(yōu)化方法。

18 tensorize

將tensor作為一個(gè)整體匹配硬件的計(jì)算核心,比如一個(gè)卷積運(yùn)算就可以實(shí)現(xiàn)在FPGA上的一個(gè)匹配。

文章https://zhuanlan.zhihu.com/p/166551011 是通過(guò)官網(wǎng)的一個(gè)例子來(lái)介紹schedule的。在這個(gè)例子中,首先利用te的節(jié)點(diǎn)表達(dá)式建立了計(jì)算函數(shù),然后調(diào)用create_schedule來(lái)創(chuàng)建schedule實(shí)例,然后再調(diào)用lower函數(shù)實(shí)現(xiàn)schedule優(yōu)化。代碼如下:

# declare a matrix element-wise multiply A = te.placeholder((m, n), nam) B = te.placeholder((m, n), nam) C = te.compute((m, n), lambda i, j: A[i, j] * B[i, j], nam) s = te.create_schedule([C.op]) # lower will transform the computation from definition to the real # callable function. With argument `simple_mode=True`, it will # return you a readable C like statement, we use it here to print the # schedule result. print(tvm.lower(s, [A, B, C], simple_mode=True))

我這里依然延續(xù)上一章的內(nèi)容,看代碼中關(guān)于schedule的處理。

在上一章我們?cè)赾odegen生成中,通過(guò)以下調(diào)用鏈轉(zhuǎn)到了schedule的處理。Codegen -> VisitExpr(CallNode* op) -> relay.backend._CompileEngineLower -> LowerInternal。LowerInternal函數(shù)為:

o4YBAGAJhSOAPhF1AAF7w2uy4BE784.png

如果是外部定義的編譯器,就只是建立cache_node節(jié)點(diǎn)和cache_func。如果是使用內(nèi)部編譯器,就會(huì)調(diào)用CreateSchedule建立schedule。接下來(lái)調(diào)用鏈為CreateSchedule -> ScheduleGetter.create -> te::create_schedule -> Schedule。create_schedule函數(shù)調(diào)用在文件re/schedule.h和te/schedule_lang.cc中。

create_schedule中主要有兩件工作:

1 創(chuàng)建ReadGraph,獲取post-dfs順序的算符圖。

2 初始化stage。

TVM中引入了stage的概念,一個(gè)op相當(dāng)于一個(gè)stage,schedule優(yōu)化是對(duì)stage的一個(gè)更改,可以增加,刪減,更改其特性等。

pIYBAGAJhWKALtoXAAExsOmziHM113.png

通過(guò)createReadGraph可以遍歷op圖,返回op和其依賴的tensor列表。和遍歷有關(guān)的主要函數(shù)為:

Op -> InputTensors -> PostOrderVisit -> IRApplyVisit,在IRApplyVisit中定義了VisitExpr和VisitStmt函數(shù)用于遍歷節(jié)點(diǎn)。

pIYBAGAJhaOAPU1EAAOCUW3ZpIQ102.png

Stmt節(jié)點(diǎn)通常是節(jié)點(diǎn)中的主體實(shí)現(xiàn),PrimExpr是TIR中節(jié)點(diǎn)的一個(gè)簡(jiǎn)單表達(dá)式。比如if節(jié)點(diǎn):

o4YBAGAJheSAGUfwAAIKQRN_Atw687.png

ReadGraph創(chuàng)建完成后,通過(guò)PostDFSOrder來(lái)獲取post-dfs列表,其函數(shù)具體實(shí)現(xiàn)在graph.cc中,

o4YBAGAJhiSARaKbAAKhr5FEruU905.png

通過(guò)不斷迭代來(lái)進(jìn)行深度優(yōu)先搜索。

接下來(lái)是對(duì)stage進(jìn)行初始化。

首先對(duì)postorder中的所有op初始化一個(gè)stage對(duì)象。我們看以下stage的定義:

Stage類中主要定義了set_scope, compute_at, compute_root, bind, split, fuse等幾種優(yōu)化算法。同時(shí)定義了StageNode,在StageNode中定義了和優(yōu)化相關(guān)的變量,包括op,iter變量等。看一下stage初始化代碼:

o4YBAGAJhmOAewapAAHNRZ9z5nY829.png

關(guān)鍵的幾個(gè)變量lef_iter_vars,all_iter_vars,這些有什么作用還需要深入看優(yōu)化函數(shù)的代碼。我們看幾個(gè)schedule函數(shù),先看一個(gè)最簡(jiǎn)單的:compute_inline。代碼只有一行:

(*this)->attach_type = kInline

對(duì)于標(biāo)記了kInline的節(jié)點(diǎn),在lower的時(shí)候會(huì)進(jìn)行處理。應(yīng)該會(huì)將其直接和調(diào)用的節(jié)點(diǎn)結(jié)合,合并兩個(gè)op。

再看fuse函數(shù),其代碼為:

pIYBAGAJhqSAEGcxAAMXAmXWJb8660.png

IterVar表示計(jì)算中坐標(biāo)軸,比如一個(gè)兩級(jí)循環(huán),每級(jí)循環(huán)就是一個(gè)axis。從代碼中看出,fuse函數(shù)會(huì)對(duì)輸入的所有axis進(jìn)行合并,用fused變量替換合并后的axis。

這塊代碼比較抽象,先熟悉以下流程,之后再深入讀一下。

審核編輯:何安

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • TVM
    TVM
    +關(guān)注

    關(guān)注

    0

    文章

    19

    瀏覽量

    3964
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    半導(dǎo)體制造的激光開槽工藝介紹

    本文介紹了半導(dǎo)體后道工序的激光開槽工藝。該技術(shù)通過(guò)激光預(yù)先燒蝕材料,為后續(xù)刀片切割掃清障礙,能有效提升芯片切割質(zhì)量和效率。
    的頭像 發(fā)表于 03-17 09:36 ?801次閱讀
    半導(dǎo)體制造<b class='flag-5'>中</b>的激光開槽工藝<b class='flag-5'>介紹</b>

    BNC接頭產(chǎn)品介紹

    本文系統(tǒng)介紹了BNC接頭產(chǎn)品的結(jié)構(gòu)原理、主要特點(diǎn)、常見(jiàn)類型及應(yīng)用場(chǎng)景,幫助用戶全面了解BNC同軸連接器在射頻與視頻系統(tǒng)的實(shí)際價(jià)值。
    的頭像 發(fā)表于 01-08 17:42 ?2905次閱讀
    BNC接頭產(chǎn)品<b class='flag-5'>介紹</b>

    能否詳細(xì)介紹一下MOSFET在電機(jī)控制的作用是什么?

    能否詳細(xì)介紹一下MOSFET在電機(jī)控制的作用?
    發(fā)表于 12-22 13:11

    泰凌微:布局端側(cè)AI,產(chǎn)品支持谷歌LiteRT、TVM開源模型

    。 ? 公司發(fā)布的基于TL721X系列芯片的TL-EdgeAI平臺(tái),支持谷歌LiteRT、TVM等開源模型,是目前世界上功耗最低的智能物聯(lián)網(wǎng)連接協(xié)議平臺(tái)。其芯片已在谷歌(Google)的Pixel Bud Pro 2智能耳機(jī)方案中被采用。公司將繼續(xù)深化與谷歌的合作關(guān)系。 ? 圍繞三
    的頭像 發(fā)表于 12-15 08:21 ?1w次閱讀

    高頻OTA時(shí)代,如何用SIL測(cè)試兼顧軟件可靠性和迭代速度?

    經(jīng)緯恒潤(rùn)全新推出的軟件在環(huán)(SIL)測(cè)試平臺(tái)INTEWORK-TVM(Test platform for Virtual Machine),用于滿足用戶對(duì)軟件功能提前測(cè)試的需求。該平臺(tái)采用了云
    的頭像 發(fā)表于 12-10 17:27 ?2032次閱讀
    高頻OTA時(shí)代,如何用SIL測(cè)試兼顧軟件可靠性和迭代速度?

    關(guān)于系統(tǒng)鏈接腳本的介紹

    一、隊(duì)伍介紹 本篇為蜂鳥E203系列分享第四篇,本篇介紹的內(nèi)容是系統(tǒng)鏈接腳本。 二、如何實(shí)現(xiàn)不同的下載模式? 實(shí)現(xiàn)三種不同的程序運(yùn)行方式,可通過(guò)makefile的命令行指定不同的鏈接腳本,從而實(shí)現(xiàn)
    發(fā)表于 10-30 08:26

    HbirdV2-SoC自帶pwm配置介紹

    1 隊(duì)伍介紹 本篇主要介紹蜂鳥HbirdV2-SoC自帶外設(shè)PWM的配置 2 PWM寄存器介紹 在芯來(lái)的e203官方手冊(cè),外設(shè)部分對(duì)PWM進(jìn)行了詳細(xì)的
    發(fā)表于 10-30 06:53

    ExpeditionPCB管腳交換介紹

    mentor PCB設(shè)計(jì)器件管腳網(wǎng)絡(luò)交換介紹
    發(fā)表于 10-28 16:56 ?0次下載

    DDR200TDDR的使用與時(shí)序介紹

    SD卡和OV5640的數(shù)據(jù)搬運(yùn)進(jìn)DDR。 Setting Value Memory Type DDR3 SDRAM Max. clock period 3000ps Clock ratio 4
    發(fā)表于 10-28 07:24

    切換線程后中斷被屏蔽怎么解決?

    退出,已經(jīng)切換到main線程,但是發(fā)現(xiàn)此時(shí)中斷是被屏蔽的。 跟代碼發(fā)現(xiàn)rt_schedule最后切換線程時(shí)是先調(diào)用rt_hw_context_switch,再
    發(fā)表于 09-29 07:48

    主控采用STM32H743,外擴(kuò)一顆32MB的SDRAM,數(shù)據(jù)異常如何解決?

    裸機(jī)以及RTT初始化是可以正常讀寫的,但在線程,用了rt_thread_mdelay,SDRAM內(nèi)的數(shù)據(jù)會(huì)被清理,數(shù)據(jù)丟失,也無(wú)法讀寫了,調(diào)試發(fā)現(xiàn)是rt_schedule導(dǎo)致的,請(qǐng)問(wèn)這個(gè)該問(wèn)題如何解決?
    發(fā)表于 09-18 07:53

    rt_mb_send_wait,為什么要重新計(jì)算一次timeout?

    我最近閱讀源碼,發(fā)現(xiàn)rt_mb_send_wait,在調(diào)度結(jié)束后的代碼,又重新計(jì)算了一次timeout超時(shí)時(shí)間,看起來(lái),如果還沒(méi)有達(dá)到超時(shí)時(shí)間,就繼續(xù)等待。 可我想不出,什么情況下會(huì)出現(xiàn)這種
    發(fā)表于 08-22 06:45

    ANSACFD網(wǎng)格細(xì)化方法

    在上一篇文章中介紹了CFD網(wǎng)格細(xì)化方法之Size Field功能,在本篇文章我們將繼續(xù)介紹其他CFD網(wǎng)格細(xì)化方法。
    的頭像 發(fā)表于 08-06 15:07 ?4493次閱讀
    ANSA<b class='flag-5'>中</b>CFD網(wǎng)格細(xì)化方法

    晶圓制造的WAT測(cè)試介紹

    Wafer Acceptance Test (WAT) 是晶圓制造確保產(chǎn)品質(zhì)量和可靠性的關(guān)鍵步驟。它通過(guò)對(duì)晶圓上關(guān)鍵參數(shù)的測(cè)量和分析,幫助識(shí)別工藝的問(wèn)題,并為良率提升提供數(shù)據(jù)支持。在芯片項(xiàng)目的量產(chǎn)管理,WAT是您保持產(chǎn)線穩(wěn)
    的頭像 發(fā)表于 07-17 11:43 ?3613次閱讀

    請(qǐng)問(wèn)Einsum(opset7) 是否支持 OpenVINO??

    srcpluginsautosrcauto_schedule.cpp:443:[AUTO] compile model failed, GPU:Exception from srcinferencesrcdevplugin.cpp:53:Exception
    發(fā)表于 06-19 08:03
    蛟河市| 册亨县| 宣恩县| 五华县| 三门县| 邵阳县| 石家庄市| 屏山县| 日土县| 雅江县| 丰原市| 慈利县| 淮阳县| 武清区| 南丹县| 铁岭县| 景德镇市| 邻水| 古丈县| 汤原县| 同德县| 南宁市| 察雅县| 兴宁市| 安达市| 许昌县| 吉首市| 清水县| 贡嘎县| 彭泽县| 合阳县| 泰兴市| 南开区| 远安县| 鲁甸县| 德昌县| 衡阳县| 孙吴县| 涿鹿县| 池州市| 商水县|