日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

模型精度驗證及調優(yōu)建議

地瓜機器人 ? 2022-04-07 15:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當您在板端驗證.bin或在python端評測quantized.onnx發(fā)現(xiàn)精度不及預期時(精度損失超過4%),可參照本文第二章所述步驟排查問題。若精度損失較小,則可參考本文第三章嘗試精度調優(yōu)。

在開始定位模型精度問題之前,我們建議您可以先瀏覽一下模型轉換的內部過程解讀,這將有助于您理解并排查數(shù)據(jù)和yaml文件準備過程中的問題。

1 內部過程詳解

模型轉換完成浮點模型到地平線混合異構模型的轉換。為了使得這個異構模型能快速高效地在嵌入式端運行,模型轉換重點在解決 輸入數(shù)據(jù)處理模型優(yōu)化編譯 兩個問題。


1.1 輸入數(shù)據(jù)處理

輸入數(shù)據(jù)處理方面我們?yōu)槟P筒迦肓祟A處理節(jié)點,幫助實現(xiàn)硬件通路數(shù)據(jù)和模型輸入數(shù)據(jù)的轉換對齊。因為地平線的邊緣AI計算平臺會為某些特定類型的輸入通路提供硬件級的支撐方案, 但是這些方案的輸出不一定符合模型輸入的要求。 例如視頻通路方面就有視頻處理子系統(tǒng),為采集提供圖像裁剪、縮放和其他圖像質量優(yōu)化功能,這些子系統(tǒng)的輸出往往是yuv420格式圖像, 而我們的算法模型往往是基于bgr/rgb等一般常用圖像格式訓練得到的。為減少客戶板端部署時的工作量,我們將幾種常見的圖像格式轉換以及常用的圖像標準化操作固化進了模型當中,其表現(xiàn)為模型input節(jié)點之后插入了預處理節(jié)點HzPreprocess(您可以使用開源工具 Netron 觀察轉換過程中的中間產物)。
轉換過程中,工具會根據(jù)yaml文件中 input_type_rt input_type_train 指定的數(shù)據(jù)格式自動向HzPreprocess節(jié)點中添加數(shù)據(jù)格式轉換的操作。根據(jù)實際生產經驗, 并不是任意type組合都是需要的,為避免誤用,我們只開放了一些固定的type組合如下表所示。

poYBAGJOlA2AVBk0AAEA05quqro784.png


表格中第一行是 input_type_rt 中支持的類型,第一列是 input_type_train 支持的類型, 其中的 Y/N 表示是否支持相應的 input_type_rtinput_type_train 的轉換。 在.bin模型部署階段,您只需要關注input_type_rt的數(shù)據(jù)格式。 以下是對 input_type_rt每種格式的說明:

(1) rgb、bgr和gray都是比較常見的圖像數(shù)據(jù),注意每個數(shù)值都采用UINT8表示。

(2) yuv444是一種常見的圖像格式,注意每個數(shù)值都采用UINT8表示。

(3) nv12是常見的yuv420圖像數(shù)據(jù),每個數(shù)值都采用UINT8表示。

(4) nv12有個比較特別的情況是 input_space_and_range 設置 bt601_video (配置參數(shù)介紹可參考《horizon_ai_toolchain_user_guide》3.4. 轉換模型 章節(jié)),較于常規(guī)nv12情況,它的數(shù)值范圍由[0,255]變成了[16,235], 每個數(shù)值仍然采用UINT8表示。

(5) featuremap適用于以上列舉格式不滿足您需求的情況,此type只要求您的數(shù)據(jù)是四維的,每個數(shù)值采用float32表示。 例如雷達和語音等模型處理就常用這個格式。
圖像數(shù)據(jù)標準化操作則是根據(jù)yaml文件中的norm_typemean_value、scale_value參數(shù),判斷是否向HzPreprocess節(jié)點中添加mean/scale操作。


1.2 模型優(yōu)化編譯

模型優(yōu)化編譯方面則完成了模型解析、模型優(yōu)化、模型校準與量化、模型編譯等幾個重要過程。其內部工作過程及輸入數(shù)據(jù)準備示例如下圖所示。
暫時無法在文檔外展示此內容

poYBAGJOlA2AVh65AAHtPzWg-9Q223.png

*最右邊一列為各階段圖像輸入類模型預處理示例,主要差異在于normalize操作以及圖像格式的轉換。若為featuremap輸入,則預處理不存在上述差異。

模型解析階段 對于Caffe浮點模型會完成到ONNX浮點模型的轉換。 在原始浮點模型上會根據(jù)轉換配置中的配置參數(shù)決定是否加入HzPreprocess節(jié)點,此階段產出original_float_model.onnx。 這個ONNX模型計算精度仍然是float32,和原始浮點模型輸出結果一致。
理想狀態(tài)下,這個HzPreprocess節(jié)點應該完成 input_type_rtinput_type_train 的完整轉換, 實際情況是整個type轉換過程會配合地平線AI芯片硬件完成,ONNX模型里面并沒有包含硬件轉換的部分。 因此ONNX的真實輸入類型會使用一種中間類型,這種中間類型就是硬件對 input_type_rt 的處理結果類型, 數(shù)據(jù)layout(NCHW/NHWC)會保持和原始浮點模型的輸入layout一致。 每種 input_type_rt 都有特定的對應中間類型,如下表:

poYBAGJOlA2ACfR3AABOH3GtW9U701.png

表格中第一行是 input_type_rt 指定的數(shù)據(jù)類型,第二行是特定 input_type_rt 對應的中間類型, 這個中間類型就是original_float_model.onnx的輸入類型。每個類型解釋如下:

(1) yuv444_128/RGB_128/BGR_128/GRAY_128為對應input_type_rt減去128的結果。

(2) featuremap 是一個四維張量數(shù)據(jù),每個數(shù)值采用float32表示。

模型優(yōu)化階段 實現(xiàn)模型的一些適用于地平線平臺的算子優(yōu)化策略,例如BN融合到Conv等。 此階段的產出是optimized_float_model.onnx,這個ONNX模型的計算精度仍然是float32,經過優(yōu)化后不會影響模型的計算結果。 模型的輸入數(shù)據(jù)要求還是與前面的original_float_model一致。

模型校準階段 會使用您提供的校準數(shù)據(jù)來計算必要的量化閾值參數(shù),這些參數(shù)會直接輸入到量化階段,不會產生新的模型狀態(tài)。

模型量化階段 使用校準得到的參數(shù)完成模型量化,此階段的產出是quantized_model.onnx。 這個模型的輸入計算精度已經是int8,使用這個模型可以評估到模型量化帶來的精度損失情況。 這個模型要求輸入的基本數(shù)據(jù)格式仍然與 original_float_model 一樣,不過layout和數(shù)值表示已經發(fā)生了變化, 整體較于 original_float_model 輸入的變化情況描述如下:
(1) 數(shù)據(jù)layout均使用NHWC。

(2) 當 input_type_rt 的取值為非 featuremap 時,則輸入的數(shù)據(jù)類型均使用int8, 反之, 當 input_type_rt 取值為 featuremap 時,則輸入的數(shù)據(jù)類型為float32。

模型編譯階段 會使用地平線模型編譯器,將量化模型轉換為地平線平臺支持的計算指令和數(shù)據(jù), 這個階段的產出是***.bin模型,這個bin模型是后續(xù)將在地平線邊緣嵌入式平臺運行的模型,也就是模型轉換的最終產出結果。


2 精度問題定位建議流程

精度問題定位流程主要包括如下三個部分:

pYYBAGJOlA6AER1uAAOdfXKgdaw937.png

1)驗證Caffe/Onnx的有效性,確保其單張推理結果與原始浮點模型保持一致;
2)通過對比original_float_model.onnx與原始浮點模型的單張推理結果,確保PC端推理代碼的正確性;
3)通過比對quantized_model.onnx與.bin的單張推理結果,確保板端代碼與PC端代碼的一致性,以及模型集成(將quantized_model.onnx編譯為.bin)的過程沒有引入誤差。


2.1 驗證原始Caffe/Onnx模型有效性

這一步為了排查拿錯模型,或是導出onnx有誤等誤操作。onnx模型的正確性驗證,可參考如下代碼:


from horizon_nn import horizon_onnx
import horizon_nn.horizon_onnxruntime as rt
import numpy as np
import cv2

def preprocess(input_name):
# BGR->RGB、Resize、CenterCrop···
# HWC->CHW
# normalization
return norm_data

def main():
# 加載模型文件
onnx_model = horizon_onnx.load(MODEL_PATH)
# 創(chuàng)建推理Session
sess = rt.InferenceSession(onnx_model.SerializeToString())
# 獲取輸入&輸出節(jié)點名稱
input_names = [input.name for input in sess.get_inputs()]
output_names = [output.name for output in sess.get_outputs()]
# 準備模型輸入數(shù)據(jù)
feed_dict = dict()
for input_name in input_names:
feed_dict[input_name] = preprocess(input_name)
# 開始模型推理,推理的返回值是一個list,依次與output_names指定名稱一一對應
result = sess.run(output_names, feed_dict)
# 后處理
postprocess(result)

if __name__ == '__main__':
main()



2.2 驗證PC端推理代碼的正確性

轉換完成后,將在model_output文件夾下生成四個模型,其中*original_float_model.onnx以及*optimized_float_model.onnx的精度是與原始浮點模型完全一致的。但是由于您通過配置yaml文件中的 input_type_rt 以及norm_type等參數(shù),將圖像格式轉換以及normalize這兩項常用的預處理操作固化進了模型中,因此預處理代碼會與訓練時有所差異,具體差異及注意事項可參考前文1.2節(jié)。若發(fā)現(xiàn)推理結果與浮點模型不一致,則需再次確認預處理代碼的正確性。常見錯誤如下:

(1)已在yaml文件中配置 norm_type(scale/mean),前處理仍做了重復的normalize操作

(2)讀圖方式與浮點訓練時不一致。skimage、OpenCV、PIL讀圖差異如下表所示

pYYBAGJOlA2ASQvRAACFN6EMgEw381.png

確保PC端代碼的正確性之后,建議您可以測試一下*quantized_model.onnx的精度或單張推理結果,確認量化后精度滿足您的預期,再至板端完成應用開發(fā)。若精度不滿足預期,則可參照第三章內容嘗試精度調優(yōu)。


2.3 驗證.bin模型的正確性

通常來說,將*quantized_model.onnx編譯生成*.bin的過程不會引入誤差,但事有萬一,我們提供了 hb_model_verifier 工具幫助您驗證定點模型和runtime模型的一致性。具體使用方式因OE版本不同而有所差異,您可以通過 hb_model_verifier --help 查看幫助信息,或查閱《hb_mapper_tools_guide》文檔了解該工具的使用方式。驗證通過,終端將打印 Onnx and Arm result Strict check PASSED 提示信息。若驗證失敗,請將模型及OE版本號提供給地平線技術支持人員分析。
但是目前該工具只支持單輸入模型,若為多輸入模型則可使用板端 hrt_model_exec infer工具獲取模型原始輸出。為保證輸入數(shù)據(jù)的一致性,建議您將python端預處理好的數(shù)據(jù)通過 np.tofile() 函數(shù)保存為二進制文件,并通過 hrt_model_exec infer 工具的 --input_file 參數(shù)指定輸入數(shù)據(jù)(多個輸入文件請以“,”隔開),具體使用方式可通過在板端執(zhí)行 hrt_model_exec,查看幫助信息。若使用該工具得到的輸出結果與python端不一致,請將模型及OE版本號提供給地平線技術支持人員分析。
*目前 hrt_model_exec infer 工具不支持自動完成featuremap輸入的 padding 操作(該操作與硬件對齊規(guī)則相關,具體介紹請參考后文2.4節(jié)),您需要在PC端預處理時完成該操作,參考代碼如下:
pad_image = np.zeros((target_h, target_w, 3), dtype=np.int)
pad_image[:image_h, :image_w, :] = image
* target_h, target_w可通過hrt_model_exec model_info工具查看輸入節(jié)點的aligned shape屬性獲取


2.4 驗證板端推理代碼的正確性

確認前面所有環(huán)節(jié)都正常之后,最后我們就只需要排查板端推理代碼是否有誤了。常見問題有如下幾項:

(1)PC端與板端計算環(huán)境的差異(例如opencv讀圖差異、浮點計算精度不同等);

(2)輸入數(shù)據(jù)未對齊至轉換配置的input_type_rt和input_layout_rt;

(3)輸入數(shù)據(jù)不滿足對齊規(guī)則,且未修改InputTensor的aligned_shape屬性(僅針對圖像輸入)。(BPU對齊規(guī)則可參考下圖解析)

poYBAGJOlBGAVaZnAAdsiIYtqKQ928.png

其中,featuremap輸入時較為特殊,由于預測庫不會對featuremap數(shù)據(jù)做padding操作,因此當您的模型輸入為featuremap時,需在預處理時完成數(shù)據(jù)對齊,參考代碼如下:


if (input_w == out_w) {
memcpy(out, input, static_cast(input_h * input_w) * data_size);
} else {
for (int i = 0; i < input_h; i++) {
memcpy(out, input, static_cast(input_w) * data_size);
input += input_w;
out += out_w;
}
}


3 精度調優(yōu)


3.1 后量化調優(yōu)

對于后量化的精度誤差,我們一般會通過以下 3 種方式進行優(yōu)化,且均需要在 yaml 文件配置后重新轉換模型:

1.調整校準方式

(1)calibration_type 優(yōu)先嘗試 default,除此之外還可以嘗試 kl/max;

(2)將 calibration_type 配置為 max,并配置 max_percentile 為不同的分位數(shù),我們推薦您優(yōu)先嘗試 0.99999、0.99995、0.9999、0.9995、0.999;

(3)嘗試啟用 per_channel,可與任意校準方式配合使用。

2.調準校準數(shù)據(jù)集

(1)可以嘗試適當增加或減少數(shù)據(jù)量;

(2)嘗試換一批校準數(shù)據(jù)。

3.將部分尾部算子回退到 CPU 高精度計算

參考依據(jù)為轉換日志中模型每一層輸出的余弦相似度,若您觀察到有某一層余弦相似度異常,可嘗試在yaml文件中通過 run_on_cpu 參數(shù)配置,將該層指定到cpu進行高精度計算。一般我們僅會嘗試將模型輸出層 1~2 個算子回退至 CPU,太多的CPU算子會較大程度影響模型最終性能。


3.2 Pytorch QAT訓練

如果您的模型經過以上調優(yōu)手段還是無法解決量化精度問題,那么該模型可能確實是 后量化(post training quantization,PTQ)方案中的 corner case,只能嘗試 量化感知訓練(quantization aware training,QAT)。
目前很多開源訓練框架均已支持 QAT 訓練能力,例如 Pytorch 的 eager-mode 和 fx-graph方案,tf-lite的量化方案等等。相比于后量化,QAT 訓練在浮點模型訓練收斂后進行 finetune,其精度損失由算法同學自行訓練優(yōu)化,會更加可控,且開源社區(qū)中也有非常多的幫助資料。但 QAT 方案因為訓練成本和上手難度相對更高,所以我們更建議您在后量化實在無法解決精度問題時再選擇此方案。
地平線目前僅支持編譯 Pytorch 框架的 QAT 模型,具體示例請參考用戶手冊《horizon_ai_toolchain_user_guide》3.6.3.4 QAT模型量化編譯。

本文轉載自地平線開發(fā)者社區(qū):https://developer.horizon.ai
原作者:顏值即正義

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Nginx高并發(fā)連接調優(yōu)實戰(zhàn)手冊

    Nginx 的高性能源自其事件驅動架構。與 Apache 的"每連接一線程"模型不同,Nginx 使用單線程事件循環(huán)處理數(shù)千個并發(fā)連接。理解這套架構是調優(yōu)的前提。
    的頭像 發(fā)表于 03-16 15:28 ?498次閱讀

    解鎖Zephyr實時操作系統(tǒng)深度調優(yōu)能力

    可以說,代碼編寫只是項目開發(fā)的起點,而隨之而來的資源分析與性能調優(yōu)才是確保系統(tǒng)穩(wěn)定可靠的關鍵環(huán)節(jié)。
    的頭像 發(fā)表于 01-30 09:16 ?6320次閱讀

    Linux系統(tǒng)內核參數(shù)調優(yōu)實戰(zhàn)指南

    Linux 內核參數(shù)調優(yōu)是系統(tǒng)性能優(yōu)化的核心環(huán)節(jié)。隨著云原生架構的普及和硬件性能的飛速提升,默認的內核參數(shù)配置往往無法充分發(fā)揮系統(tǒng)潛力。在高并發(fā) Web 服務、大數(shù)據(jù)處理、容器化部署等場景下,合理的內核參數(shù)調整可帶來 30%-200% 的性能提升。
    的頭像 發(fā)表于 01-28 14:27 ?772次閱讀

    性能測試調優(yōu)實戰(zhàn)與探索(存儲模型優(yōu)化+調用鏈路分析)

    分析、流量分析、壓測實施和剖解調優(yōu)等主要環(huán)節(jié)中,引發(fā)對于系統(tǒng)能力底盤夯實和測試策略改進的諸多思考。 在性能測試階段,剖析系統(tǒng)能力實現(xiàn)及調優(yōu)方案,探索更優(yōu)解及性能測試策略的提升空間。 ? ? 二、熱點數(shù)據(jù)存儲模型壓測
    的頭像 發(fā)表于 01-12 14:46 ?2914次閱讀
    性能測試<b class='flag-5'>調</b><b class='flag-5'>優(yōu)</b>實戰(zhàn)與探索(存儲<b class='flag-5'>模型</b>優(yōu)化+調用鏈路分析)

    實戰(zhàn)RK3568性能調優(yōu):如何利用迅為資料壓榨NPU潛能-在Android系統(tǒng)中使用NPU

    《實戰(zhàn)RK3568性能調優(yōu):如何利用迅為資料壓榨NPU潛能-在Android系統(tǒng)中使用NPU》
    的頭像 發(fā)表于 11-07 13:42 ?1166次閱讀
    實戰(zhàn)RK3568性能<b class='flag-5'>調</b><b class='flag-5'>優(yōu)</b>:如何利用迅為資料壓榨NPU潛能-在Android系統(tǒng)中使用NPU

    構建CNN網(wǎng)絡模型并優(yōu)化的一般化建議

    通過實踐,本文總結了構建CNN網(wǎng)絡模型并優(yōu)化的一般化建議,這些建議將會在構建高準確率輕量級CNN神經網(wǎng)絡模型方面提供幫助。 1)避免單層神經網(wǎng)絡:我們清楚神經網(wǎng)絡本身是需要不斷抽象出
    發(fā)表于 10-28 08:02

    HarmonyOSAI編程智慧調優(yōu)

    DevEco Studio提供智慧調優(yōu)能力,支持通過自然語言交互,分析并解釋當前實例或項目中存在的性能問題,幫助開發(fā)者快速定位影響性能的具體原因。該功能從DevEco Studio 6.0.0
    發(fā)表于 09-01 15:15

    HarmonyOS AI輔助編程工具(CodeGenie)智慧調優(yōu)

    DevEco Studio提供智慧調優(yōu)能力,支持通過自然語言交互,分析并解釋當前實例或項目中存在的性能問題,幫助開發(fā)者快速定位影響性能的具體原因。該功能從DevEco Studio 6.0.0
    發(fā)表于 08-14 11:12

    Linux網(wǎng)絡性能調優(yōu)方案

    在當今高并發(fā)、大流量的互聯(lián)網(wǎng)環(huán)境下,網(wǎng)絡性能往往成為系統(tǒng)的瓶頸。作為一名資深運維工程師,我在生產環(huán)境中遇到過無數(shù)次因為TCP/IP參數(shù)配置不當導致的性能問題。今天分享一套完整的Linux網(wǎng)絡性能調優(yōu)方案,幫助大家徹底解決網(wǎng)絡性能瓶頸。
    的頭像 發(fā)表于 08-06 18:01 ?1529次閱讀

    Linux內核參數(shù)調優(yōu)方案

    在高并發(fā)微服務環(huán)境中,網(wǎng)絡性能往往成為K8s集群的瓶頸。本文將深入探討如何通過精細化的Linux內核參數(shù)調優(yōu),讓你的K8s節(jié)點網(wǎng)絡性能提升30%以上。
    的頭像 發(fā)表于 08-06 17:50 ?1194次閱讀

    Linux系統(tǒng)性能調優(yōu)方案

    關鍵要點預覽:本文將深入解析Linux系統(tǒng)性能瓶頸的根本原因,提供可直接落地的調優(yōu)方案,讓你的系統(tǒng)性能提升30-50%!
    的頭像 發(fā)表于 08-06 17:49 ?1100次閱讀

    MySQL配置調優(yōu)技巧

    上個月,我們公司的核心業(yè)務系統(tǒng)突然出現(xiàn)大面積超時,用戶投訴電話不斷。經過緊急排查,發(fā)現(xiàn)是MySQL服務器CPU飆升到99%,大量慢查詢堆積。通過一系列配置調優(yōu)和SQL優(yōu)化,最終在30分鐘內恢復了服務。
    的頭像 發(fā)表于 07-31 10:27 ?836次閱讀

    Nginx在企業(yè)環(huán)境中的調優(yōu)策略

    Nginx作為現(xiàn)代互聯(lián)網(wǎng)架構中最重要的Web服務器和反向代理服務器,其性能調優(yōu)對企業(yè)級應用的穩(wěn)定性和效率至關重要。本指南將從運維實踐角度出發(fā),詳細介紹Nginx在企業(yè)環(huán)境中的各種調優(yōu)
    的頭像 發(fā)表于 07-14 11:13 ?821次閱讀

    運行kmodel模型驗證一直報錯怎么解決?

    我這運行kmodel模型驗證一直報錯,所以沒法做kmodel模型好壞驗證,不知道怎么解決這個問題,重新訓練一個kmodel模型會和拿相同pt
    發(fā)表于 06-10 08:02

    手把手教你如何調優(yōu)Linux網(wǎng)絡參數(shù)

    在高并發(fā)網(wǎng)絡服務場景中,Linux內核的默認網(wǎng)絡參數(shù)往往無法滿足需求,導致性能瓶頸、連接超時甚至服務崩潰。本文基于真實案例分析,從參數(shù)解讀、問題診斷到優(yōu)化實踐,手把手教你如何調優(yōu)Linux網(wǎng)絡參數(shù),支撐百萬級并發(fā)連接。
    的頭像 發(fā)表于 05-29 09:21 ?1225次閱讀
    建宁县| 平和县| 唐海县| 儋州市| 工布江达县| 铁岭市| 遵化市| 商水县| 彰化县| 西昌市| 宜城市| 紫金县| 马公市| 佛学| 林芝县| 长岭县| 长乐市| 镇安县| 金秀| 夹江县| 安泽县| 鄂州市| 阳山县| 公安县| 南丰县| 遂昌县| 葫芦岛市| 兰溪市| 正阳县| 敦化市| 保德县| 博乐市| 防城港市| 郸城县| 育儿| 海原县| 威远县| 景谷| 郴州市| 盐亭县| 瑞丽市|