久久久久久91大香蕉,91作爱·

這些數(shù)字重要嗎？它們中的大多數(shù)都是在實驗室類型的環(huán)境中生產(chǎn)的，其中理想的條件和工作負載允許被測設(shè)備（SUT）產(chǎn)生用于營銷目的的最高分數(shù)。另一方面，大多數(shù)工程師可能不太關(guān)心這些理論可能性。他們更關(guān)心的是技術(shù)如何影響其推理設(shè)備的準確性、吞吐量和/或延遲。

將計算元素與特定工作負載進行比較的行業(yè)標準基準測試更有用。例如，圖像分類工程師可以確定滿足其性能要求的多個選項，然后根據(jù)功耗、成本等對其進行縮減。語音識別設(shè)計人員可以使用基準測試結(jié)果來分析各種處理器和內(nèi)存組合，然后決定是在本地還是在云中合成語音。

但是，AI和ML模型，開發(fā)框架和工具的快速引入使這種比較復(fù)雜化。如圖 1 所示，AI 技術(shù)堆棧中越來越多的選項也意味著可用于判斷推理性能的排列呈指數(shù)級增長。這是在考慮模型和算法可以針對給定系統(tǒng)架構(gòu)進行優(yōu)化的所有方法之前。

圖 1.AI開發(fā)堆棧中越來越多的選項使行業(yè)標準基準測試變得復(fù)雜。

毋庸置疑，制定這樣一個全面的基準超出了大多數(shù)公司的能力或愿望。即使有人能夠完成這一壯舉，工程界真的會接受它作為“標準基準”嗎？

機器學(xué)習(xí)成果：人工智能推理的更好基準

更廣泛地說，在過去幾年中，工業(yè)界和學(xué)術(shù)界已經(jīng)開發(fā)了幾個推理基準，但他們傾向于關(guān)注新興人工智能市場的更多利基領(lǐng)域。一些例子包括EEMBC用于嵌入式圖像分類和對象檢測的MLMark，蘇黎世聯(lián)邦理工學(xué)院的AI基準測試，針對Android 智能手機上的計算機視覺，以及哈佛的Fathom基準測試，強調(diào)各種神經(jīng)網(wǎng)絡(luò)的吞吐量，但不是準確性。

對 AI 推理格局的更完整評估可以在 MLPerf 最近發(fā)布的推理 v0.5 基準測試中找到。MLPerf 推理是社區(qū)開發(fā)的測試套件，可用于測量 AI 硬件、軟件、系統(tǒng)和服務(wù)的推理性能。這是來自30多家公司的200多名工程師合作的結(jié)果。

正如您對任何基準測試所期望的那樣，MLPerf 推理定義了一套標準化工作負載，這些工作負載被組織成圖像分類、對象檢測和機器翻譯用例的“任務(wù)”。每個任務(wù)都由與正在執(zhí)行的功能相關(guān)的 AI 模型和數(shù)據(jù)集組成，其中圖像分類任務(wù)支持 ResNet-50 和 MobileNet-v1 模型，對象檢測任務(wù)利用具有 ResNet34 或 MobileNet-v1 主干的 SSD 模型，以及使用 GNMT 模型的機器轉(zhuǎn)換任務(wù)。

除了這些任務(wù)之外，MLPerf 推理開始偏離傳統(tǒng)基準測試的規(guī)范。由于準確性、延遲、吞吐量和成本的重要性在不同用例中具有不同的權(quán)重，因此 MLPerf 推理通過在移動設(shè)備、自動駕駛汽車、機器人和云這四個關(guān)鍵應(yīng)用領(lǐng)域中根據(jù)質(zhì)量目標對推理性能進行分級來權(quán)衡。

為了在盡可能接近在這些應(yīng)用領(lǐng)域中運行的真實系統(tǒng)的上下文中有效地對任務(wù)進行分級，MLPerf 推理引入了一個負載生成器工具，該工具根據(jù)四種不同的方案生成查詢流量：

樣本大小為 1 的連續(xù)單流查詢，在移動設(shè)備中很常見

連續(xù)的多流查詢，每個流有多個樣本，就像在延遲至關(guān)重要的自動駕駛汽車中發(fā)現(xiàn)的那樣

請求隨機到達的服務(wù)器查詢，例如在延遲也很重要的 Web 服務(wù)中

執(zhí)行批處理且吞吐量是一個突出考慮因素的脫機查詢

負載生成器在測試準確性和吞吐量（性能）的模式下提供這些方案。圖 2 描述了 SUT 如何從負載生成器接收請求，相應(yīng)地將數(shù)據(jù)集中的樣本加載到內(nèi)存中，運行基準測試并將結(jié)果返回到負載生成器。然后，準確性腳本將驗證結(jié)果。

圖 2. MLPerf 推理基準測試依賴于負載生成器，該負載生成器根據(jù)許多實際方案查詢被測系統(tǒng) （SUT）。

作為基準測試的一部分，每個 SUT 必須執(zhí)行最少數(shù)量的查詢，以確保統(tǒng)計置信度。

提高靈活性

如前所述，人工智能技術(shù)市場中使用的各種框架和工具是任何推理基準測試的關(guān)鍵挑戰(zhàn)。前面提到的另一個考慮因素是調(diào)整模型和算法，以從AI推理系統(tǒng)中擠出最高的準確性，吞吐量或最低延遲。就后者而言，量化和圖像重塑等技術(shù)現(xiàn)在是常見的做法。

MLPerf 推理是一種語義級基準測試，這意味著，雖然基準測試提供了特定的工作負載（或一組工作負載）以及執(zhí)行它的一般規(guī)則，但實際實現(xiàn)取決于執(zhí)行基準測試的公司。公司可以優(yōu)化提供的參考模型，使用他們想要的工具鏈，并在他們選擇的硬件目標上運行基準測試，只要它們保持在特定的指導(dǎo)方針之內(nèi)。

但是，重要的是要注意，這并不意味著提交公司可以對MLPerf模型或數(shù)據(jù)集采取任何和所有自由，并且仍然有資格獲得主要基準。MLPerf 推理基準分為兩個部分 - 封閉式和開放式 - 封閉式部門對可以使用哪些類型的優(yōu)化技術(shù)以及其他禁止的優(yōu)化技術(shù)有更嚴格的要求。

要獲得封閉分區(qū)的資格，提交者必須使用提供的模型和數(shù)據(jù)集，但允許量化。為了確保兼容性，封閉部門的參賽者不能使用重新訓(xùn)練或修剪的模型，也不能使用緩存或已調(diào)整為基準或數(shù)據(jù)集感知的網(wǎng)絡(luò)。

另一方面，開放式劃分旨在促進AI模型和算法的創(chuàng)新。仍需要向開放分區(qū)提交以執(zhí)行相同的任務(wù)，但可以更改模型類型、重新訓(xùn)練和修剪其模型、使用緩存等。

盡管封閉式劃分可能聽起來很嚴格，但超過 150 個條目成功獲得了 MLPerf 推理 v0.5 發(fā)布資格。圖3和圖4展示了參賽者使用的AI技術(shù)堆棧的多樣性，這些堆棧幾乎涵蓋了從ONNX和PyTorch到TensorFlow，OpenVINO和Arm NN的各種處理器架構(gòu)和軟件框架。

圖 3.數(shù)字信號處理器、FPGA、CPU、ASIC 和 GPU 都成功完成了 MLPerf 推理封閉式除法要求。

圖 4. 人工智能軟件開發(fā)框架，如 ONNX、畢拓、張量流、OpenVINO、Arm NN 等，被用于開發(fā)符合封閉分區(qū)基準測試的 MLPerf 推理系統(tǒng)。

消除評估中的猜測

雖然 MLPerf 推理的初始版本包含一組有限的模型和用例，但基準測試套件是以模塊化、可擴展的方式構(gòu)建的。這將使MLPerf能夠隨著技術(shù)和行業(yè)的發(fā)展而擴展任務(wù)，模型和應(yīng)用領(lǐng)域，并且組織已經(jīng)計劃這樣做。

最新的AI推理基準顯然是目前可用的最接近真實世界AI推理性能的衡量標準。但隨著它的成熟并吸引更多的提交，它也將成為成功部署的技術(shù)堆棧的晴雨表，以及新實施的試驗場。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
20362

瀏覽量
255504
AI

AI

+關(guān)注

關(guān)注
91

文章
41768

瀏覽量
302952
人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50459

瀏覽量
267556

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

MLPerf：邊緣AI推理的新行業(yè)基準

評論