青青草华人在线,九九精品视频2,9118禁

阿里近日正式開源了輕量級深度學習端側(cè)推理引擎“MNN”。與 Tensorflow、Caffe2 等同時覆蓋訓練和推理的通用框架相比，MNN 更注重在推理時的加速和優(yōu)化，在大規(guī)模機器學習應用中具有優(yōu)勢。本文詳細闡述了MNN背后的技術(shù)框架和規(guī)劃。

近日，阿里正式開源輕量級深度學習端側(cè)推理引擎“MNN”。

AI科學家賈揚清如此評價道：

“與 Tensorflow、Caffe2 等同時覆蓋訓練和推理的通用框架相比，MNN 更注重在推理時的加速和優(yōu)化，解決在模型部署的階段的效率問題，從而在移動端更高效地實現(xiàn)模型背后的業(yè)務。這和服務器端 TensorRT 等推理引擎的想法不謀而合。

在大規(guī)模機器學習應用中，考慮到大規(guī)模的模型部署，機器學習的推理側(cè)計算量往往是訓練側(cè)計算量的十倍以上，所以推理側(cè)的優(yōu)化尤其重要?！?/p>

MNN背后的技術(shù)框架如何設計？未來有哪些規(guī)劃？今天一起來深入了解。

開源地址

https://github.com/alibaba/MNN

1、MNN 是什么？

MNN 是一個輕量級的深度學習端側(cè)推理引擎，核心解決深度神經(jīng)網(wǎng)絡模型在端側(cè)推理運行問題，涵蓋深度神經(jīng)網(wǎng)絡模型的優(yōu)化、轉(zhuǎn)換和推理。目前，MNN 已經(jīng)在手淘、手貓、優(yōu)酷、聚劃算、UC、飛豬、千牛等 20 多個 App 中使用，覆蓋直播、短視頻、搜索推薦、商品圖像搜索、互動營銷、權(quán)益發(fā)放、安全風控等場景，每天穩(wěn)定運行上億次。此外，菜鳥自提柜等 IoT 設備中也有應用。在2018 年雙十一購物節(jié)中，MNN 在天貓晚會笑臉紅包、掃一掃明星猜拳大戰(zhàn)等場景中使用。

2、MNN 的優(yōu)勢

MNN 負責加載網(wǎng)絡模型，推理預測返回相關(guān)結(jié)果，整個推理過程可以分為模型的加載解析、計算圖的調(diào)度、在異構(gòu)后端上高效運行。MNN 具有通用性、輕量性、高性能、易用性的特征：

通用性：

支持 Tensorflow、Caffe、ONNX 等主流模型格式，支持 CNN、RNN、GAN 等常用網(wǎng)絡；

支持 86 個 TensorflowOp、34 個 CaffeOp ；各計算設備支持的 MNN Op 數(shù)：CPU 71 個，Metal 55 個，OpenCL 40 個，Vulkan 35 個；

支持 iOS 8.0+、Android 4.3+ 和具有 POSIX 接口的嵌入式設備；

支持異構(gòu)設備混合計算，目前支持 CPU 和 GPU，可以動態(tài)導入 GPU Op 插件，替代 CPU Op 的實現(xiàn)；

輕量性：

針對端側(cè)設備特點深度定制和裁剪，無任何依賴，可以方便地部署到移動設備和各種嵌入式設備中；

iOS 平臺上，armv7+arm64 靜態(tài)庫大小 5MB 左右，鏈接生成可執(zhí)行文件增加大小 620KB 左右，metallib 文件 600KB 左右；

Android 平臺上，so 大小 400KB 左右，OpenCL 庫 400KB 左右，Vulkan 庫 400KB 左右；

高性能：

不依賴任何第三方計算庫，依靠大量手寫匯編實現(xiàn)核心運算，充分發(fā)揮 ARM CPU 的算力；

iOS 設備上可以開啟 GPU 加速（Metal），支持 iOS 8.0 以上版本，常用模型上快于蘋果原生的 CoreML；

Android 上提供了 OpenCL、Vulkan、OpenGL 三套方案，盡可能多地滿足設備需求，針對主流 GPU（Adreno 和 Mali）做了深度調(diào)優(yōu)；

卷積、轉(zhuǎn)置卷積算法高效穩(wěn)定，對于任意形狀的卷積均能高效運行，廣泛運用了 Winograd 卷積算法，對 3x3 -> 7x7 之類的對稱卷積有高效的實現(xiàn)；

針對 ARM v8.2 的新架構(gòu)額外作了優(yōu)化，新設備可利用半精度計算的特性進一步提速；

易用性：

完善的文檔和實例；

有高效的圖像處理模塊，覆蓋常見的形變、轉(zhuǎn)換等需求，一般情況下，無需額外引入 libyuv 或 opencv 庫處理圖像；

支持回調(diào)機制，方便提取數(shù)據(jù)或者控制運行走向；

支持運行網(wǎng)絡模型中的部分路徑，或者指定 CPU 和 GPU 間并行運行；

3、MNN 核心介紹

3.1 模塊設計

如上圖所示，MNN 可以分為Converter和Interpreter兩部分。

Converter由Frontends和Graph Optimize構(gòu)成。前者負責支持不同的訓練框架，MNN 當前支持 Tensorflow (Lite)、Caffe 和 ONNX；后者通過算子融合、算子替代、布局調(diào)整等方式優(yōu)化圖。

Interpreter由Engine和Backends構(gòu)成。前者負責模型的加載、計算圖的調(diào)度；后者包含各計算設備下的內(nèi)存分配、Op 實現(xiàn)。在Engine和Backends中，MNN 應用了多種優(yōu)化方案，包括在卷積和反卷積中應用 Winograd 算法、在矩陣乘法中應用 Strassen 算法、低精度計算、Neon 優(yōu)化、手寫匯編、多線程優(yōu)化、內(nèi)存復用、異構(gòu)計算等。

3.2 性能比較

采用業(yè)務常用的 MobileNet、SqueezeNet 和主流開源框架進行比較，結(jié)果如下圖：

MNN 相比于 NCNN、Mace、Tensorflow Lite、Caffe2 都有 20% 以上的優(yōu)勢。我們其實更加聚焦在內(nèi)部使用的業(yè)務模型優(yōu)化上，針對人臉檢測等模型進行深入優(yōu)化，iPhone6 可以達到單幀檢測 5ms 左右。

注：Mace、Tensorflow Lite、Caffe2 均使用截止 2019 年 3 月 1 日 GitHub 代碼倉庫的 master 分支；NCNN 由于編譯問題采用20181228 Release 預編譯庫。

4、MNN 的開源歷史

4.1 我們?yōu)槭裁匆龆藗?cè)推理

隨著手機算力的不斷提升，以及深度學習的快速發(fā)展，特別是小網(wǎng)絡模型不斷成熟，原本在云端執(zhí)行的推理預測就可以轉(zhuǎn)移到端上來做。端智能即在端側(cè)部署運行 AI 算法，相比服務端智能，端智能具有低延時、兼顧數(shù)據(jù)隱私、節(jié)省云端資源等優(yōu)勢。目前端智能正逐漸變?yōu)橼厔?，從業(yè)界來看，它已經(jīng)在 AI 攝像、視覺特效等場景發(fā)揮了巨大價值。

手淘作為電商的超級 App ，業(yè)務形態(tài)豐富，拍立淘、直播短視頻、互動營銷、試妝、個性化推薦搜索等業(yè)務場景都有端智能訴求，結(jié)合端智能能力，可以給用戶帶來新的交互體驗，助力業(yè)務創(chuàng)新突破。

一般來說，端側(cè)深度學習的應用可以分成如下幾個階段：

模型訓練階段，主要解決模型訓練，利用標注數(shù)據(jù)訓練出對應的模型文件。面向端側(cè)設計模型時，需要考慮模型大小和計算量；

模型壓縮階段，主要優(yōu)化模型大小，可以通過剪枝、量化等手段降低模型大小，以便在端上使用；

模型部署階段，主要實現(xiàn)模型部署，包括模型管理和部署、運維監(jiān)控等；

端側(cè)推理階段，主要完成模型推理，即加載模型，完成推理相關(guān)的所有計算；

由上可知，端側(cè)推理引擎是端智能應用的核心模塊，需要在有限算力、有限內(nèi)存等限制下，高效地利用資源，快速完成推理。可以說，端側(cè)推理引擎實現(xiàn)的優(yōu)劣，直接決定了算法模型能否在端側(cè)運行，決定了業(yè)務能否上線。因此，我們需要一個端側(cè)推理引擎，一個優(yōu)秀的端側(cè)推理引擎。

4.2 我們?yōu)槭裁匆_源 MNN

在 2017 年初，我們在開始引擎研發(fā)之前，重點調(diào)研了系統(tǒng)方案和開源方案，從通用性、輕量性、高性能、安全性等方面深入分。CoreML 是 Apple 的系統(tǒng)框架，MLKit 和 NNAPI 是 Android 的系統(tǒng)框架，系統(tǒng)框架最大的優(yōu)勢是輕量性 —— 在包大小方面相對寬裕。而最大的劣勢是通用性，CoreML 需要 iOS 11+，MLKit 和 NNAPI 需要 Android 8.1+，可以覆蓋的機型非常有限，同時難以支持嵌入式設備的使用場景。此外，系統(tǒng)框架支持的網(wǎng)絡類型、Op 類型都較少，可拓展性又較差，還未能充分利用設備的算力，加之存在模型安全方面的問題。綜上種種，系統(tǒng)框架不是一個很好的選擇。開源方案中 Tensorflow Lite 宣而未發(fā)，Caffe 較成熟但不是面向端側(cè)場景設計和開發(fā)的，NCNN 則剛剛發(fā)布還不夠成熟?？偟膩碚f，我們找不到一套面向不同訓練框架，不同部署環(huán)境，簡單高效安全的端側(cè)推理引擎。

因此，我們希望提供面向不同業(yè)務算法場景，不同訓練框架，不同部署環(huán)境的簡單、高效、安全的端側(cè)推理引擎 MNN 。能夠抹平 Android 和 iOS 的差異，碎片設備之間的差異，不同訓練框架的差異，實現(xiàn)快速的在端側(cè)部署運行，并且能夠根據(jù)業(yè)務模型進行 OP 靈活添加和 CPU/GPU 等異構(gòu)設備深入性能優(yōu)化。

隨著時間推移，NCNN、Tensorflow Lite、Mace、Anakin 等逐步升級和開源，給與我們很好的輸入和借鑒。我們隨著業(yè)務需求也在不斷迭代和優(yōu)化，并且經(jīng)歷了雙十一考驗，已經(jīng)相對成熟和完善，所以開源給社區(qū)，希望給應用和 IoT 開發(fā)者貢獻我們的力量。

5、應用場景

目前，MNN 已經(jīng)在手淘、貓客、優(yōu)酷、聚劃算、UC、飛豬、千牛等 20 + 集團 App 中集成，在拍立淘、直播短視頻、互動營銷、實人認證、試妝、搜索推薦等場景使用，每天穩(wěn)定運行上億次。2018 年雙十一購物節(jié)中，MNN 也在貓晚笑臉紅包、掃一掃明星猜拳大戰(zhàn)等場景中使用。

拍立淘是在手淘里面的一個圖像搜索和識別產(chǎn)品，從 14 年首次上線經(jīng)過不斷迭代發(fā)展目前已經(jīng)成長為 UV 超過千萬的應用。其中的技術(shù)也在不斷迭代更新，從最早的拍照上傳圖片云端識別，演進到目前在端上做物體識別和摳圖再上傳云端識別，有效的提升了用戶體驗同時節(jié)省了服務端計算成本。針對一些簡單的物體分類萬物識別和 logo 識別，目前也已經(jīng)支持直接通過端上的模型進行實時識別。

笑臉紅包是 18 年雙十一貓晚開場的第一個節(jié)目，這個玩法是基于實時人臉檢測和表情識別能力做的，相比之前各種通過屏幕觸控的交互玩法，這個活動通過攝像頭實時人臉檢測算法實現(xiàn)從傳統(tǒng)觸控交互玩法到自然交互玩法的跨越，給用戶帶來新的用戶體驗。

集五福是 19 年春節(jié)的活動，也是手淘第一次通過掃年貨的方式加入到這個活動中來。通過掃一掃商品識別能力，識別紅色年貨，除了?？ㄖ猓€能得到羽絨被、五糧液、茅臺、帝王蟹等實物大獎和貓超、天貓精靈等無門檻優(yōu)惠券，讓家里的年貨變成下金蛋的 “母雞”。

6、Roadmap

我們計劃每兩個月 Release 一個穩(wěn)定版本。當前規(guī)劃如下：

模型優(yōu)化方面

完善 Converter 圖優(yōu)化

完善對量化的支持，增加對稀疏的支持

調(diào)度優(yōu)化方面

增加模型 flops 統(tǒng)計

針對設備硬件特性動態(tài)調(diào)度運行策略

計算優(yōu)化

現(xiàn)有 Backend 持續(xù)優(yōu)化（CPU/OpenGL/OpenCL/Vulkan/Metal）

優(yōu)化 Arm v8.2 Backend，支持量化模型

使用 NNAPI，增加 NPU Backend

應用快速矩陣乘法、Winograd 算法優(yōu)化性能

其他

文檔和示例

完善 test、benchmark 相關(guān)工具

支持更多 Op

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

開源

開源

+關(guān)注

關(guān)注
3

文章
4368

瀏覽量
46464
深度學習

深度學習

+關(guān)注

關(guān)注
73

文章
5610

瀏覽量
124654
阿里

阿里

+關(guān)注

關(guān)注
6

文章
468

瀏覽量
34239

原文標題：賈揚清推薦：阿里開源輕量級深度學習框架 MNN，側(cè)重推理加速和優(yōu)化

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

阿里正式開源輕量級深度學習端側(cè)推理引擎“MNN”

評論