五月宗合啪啪,亚洲骚逼午夜逼日日

作者：Shaoni Mukherjee

編譯：ronghuaiyang，來(lái)源：AI公園

導(dǎo)讀

在本文中，我們將探討一種廣泛采用的技術(shù)，用于減小大型語(yǔ)言模型（LLM）的大小和計(jì)算需求，以便將這些模型部署到邊緣設(shè)備上。這項(xiàng)技術(shù)稱為模型量化。它使得人工智能模型能夠在資源受限的設(shè)備上高效部署。

在當(dāng)今世界，人工智能和機(jī)器學(xué)習(xí)的應(yīng)用已成為解決實(shí)際問(wèn)題不可或缺的一部分。大型語(yǔ)言模型或視覺(jué)模型因其卓越的表現(xiàn)和實(shí)用性而備受關(guān)注。如果這些模型運(yùn)行在云端或大型設(shè)備上，并不會(huì)造成太大問(wèn)題。然而，它們的大小和計(jì)算需求在將這些模型部署到邊緣設(shè)備或用于實(shí)時(shí)應(yīng)用時(shí)構(gòu)成了重大挑戰(zhàn)。
邊緣設(shè)備，如我們所說(shuō)的智能手表或Fitbits，擁有有限的資源，而量化是一個(gè)將大型模型轉(zhuǎn)換為可以輕松部署到小型設(shè)備上的過(guò)程。隨著人工智能技術(shù)的進(jìn)步，模型復(fù)雜度呈指數(shù)增長(zhǎng)。將這些復(fù)雜的模型容納在智能手機(jī)、物聯(lián)網(wǎng)設(shè)備和邊緣服務(wù)器等小型設(shè)備上是一項(xiàng)重大挑戰(zhàn)。然而，量化是一種減少機(jī)器學(xué)習(xí)模型大小和計(jì)算需求的技術(shù)，同時(shí)不會(huì)顯著犧牲其性能。量化已被證明在提高大型語(yǔ)言模型的內(nèi)存和計(jì)算效率方面非常有用，從而使這些強(qiáng)大的模型更加實(shí)用和易于日常使用。

模型量化涉及將神經(jīng)網(wǎng)絡(luò)的參數(shù)（如權(quán)重和激活）從高精度（例如32位浮點(diǎn)數(shù)）表示轉(zhuǎn)換為較低精度（例如8位整數(shù)）格式。這種精度的降低可以帶來(lái)顯著的好處，包括減少內(nèi)存使用、加快推理時(shí)間和降低能耗。

什么是模型量化？模型量化的益處

模型量化是一種減少模型參數(shù)精度的技術(shù)，從而降低了存儲(chǔ)每個(gè)參數(shù)所需的位數(shù)。例如，考慮一個(gè)32位精度的參數(shù)值7.892345678，它可以被近似為8位精度下的整數(shù)8。這一過(guò)程顯著減小了模型的大小，使得模型能夠在內(nèi)存有限的設(shè)備上更快地執(zhí)行。

除了減少內(nèi)存使用和提高計(jì)算效率外，量化還可以降低能耗，這對(duì)于電池供電的設(shè)備尤為重要。通過(guò)降低模型參數(shù)的精度，量化還能加快推理速度，因?yàn)樗鼫p少了存儲(chǔ)和訪問(wèn)這些參數(shù)所需的內(nèi)存。

模型量化有多種類(lèi)型，包括均勻量化和非均勻量化，以及訓(xùn)練后的量化和量化感知訓(xùn)練。每種方法都有其自身的模型大小、速度和準(zhǔn)確性之間的權(quán)衡，這使得量化成為在廣泛的硬件平臺(tái)上部署高效AI模型的一個(gè)靈活且必不可少的工具。

不同的模型量化技術(shù)

模型量化涉及各種技術(shù)來(lái)減少模型參數(shù)的大小，同時(shí)保持性能。

以下是幾種常見(jiàn)的技術(shù)：

1. 訓(xùn)練后的量化

訓(xùn)練后的量化（PTQ）是在模型完全訓(xùn)練之后應(yīng)用的。PTQ可能會(huì)降低模型的準(zhǔn)確性，因?yàn)樵谀Ｐ捅粔嚎s時(shí)，原始浮點(diǎn)值中的一些詳細(xì)信息可能會(huì)丟失。

準(zhǔn)確性損失：當(dāng)PTQ壓縮模型時(shí)，可能會(huì)丟失一些重要的細(xì)節(jié)，這會(huì)降低模型的準(zhǔn)確性。
平衡：為了在使模型更小和保持高準(zhǔn)確性之間找到合適的平衡，需要仔細(xì)調(diào)優(yōu)和評(píng)估。這對(duì)于那些準(zhǔn)確性至關(guān)重要的應(yīng)用尤其重要。

簡(jiǎn)而言之，PTQ可以使模型變得更小，但也可能降低其準(zhǔn)確性，因此需要謹(jǐn)慎校準(zhǔn)以維持性能。

這是一種簡(jiǎn)單且廣泛使用的方法，包括幾種子方法：

靜態(tài)量化：將模型的權(quán)重和激活轉(zhuǎn)換為較低精度。使用校準(zhǔn)數(shù)據(jù)來(lái)確定激活值的范圍，這有助于適當(dāng)?shù)乜s放它們。
動(dòng)態(tài)量化：僅量化權(quán)重，而在推理期間激活保持較高精度。根據(jù)推理時(shí)觀察到的范圍動(dòng)態(tài)量化激活。

2. 量化感知訓(xùn)練

量化感知訓(xùn)練（QAT）將量化集成到訓(xùn)練過(guò)程中。模型在前向傳播中模擬量化，使模型能夠?qū)W會(huì)適應(yīng)降低的精度。這通常比訓(xùn)練后的量化產(chǎn)生更高的準(zhǔn)確性，因?yàn)槟Ｐ湍軌蚋玫匮a(bǔ)償量化誤差。QAT在訓(xùn)練過(guò)程中增加了額外的步驟來(lái)模擬模型被壓縮后的表現(xiàn)。這意味著調(diào)整模型以準(zhǔn)確處理這種模擬。這些額外步驟和調(diào)整使訓(xùn)練過(guò)程更具計(jì)算要求。它需要更多的時(shí)間和計(jì)算資源。訓(xùn)練后，模型需要經(jīng)過(guò)徹底的測(cè)試和微調(diào)，以確保不會(huì)失去準(zhǔn)確性。這為整個(gè)訓(xùn)練過(guò)程增加了更多的復(fù)雜性。

3. 均勻量化

在均勻量化中，值范圍被劃分為等間距的間隔。這是最簡(jiǎn)單的量化形式，通常應(yīng)用于權(quán)重和激活。

4. 非均勻量化

非均勻量化為不同的區(qū)間分配不同的大小，通常使用諸如對(duì)數(shù)或k均值聚類(lèi)等方法來(lái)確定區(qū)間。這種方法對(duì)于參數(shù)具有非均勻分布的情況更為有效，可能在關(guān)鍵范圍內(nèi)保留更多信息。

均勻量化和非均勻量化

5. 權(quán)重共享

權(quán)重共享涉及將相似的權(quán)重聚類(lèi)，并在它們之間共享相同的量化值。這種技術(shù)減少了唯一權(quán)重的數(shù)量，從而實(shí)現(xiàn)了進(jìn)一步的壓縮。權(quán)重共享量化是一種通過(guò)限制大型神經(jīng)網(wǎng)絡(luò)中唯一權(quán)重的數(shù)量來(lái)節(jié)省能量的技術(shù)。

益處：

抗噪性：該方法更好地處理噪聲。
可壓縮性：可以在不犧牲準(zhǔn)確性的情況下縮小網(wǎng)絡(luò)的規(guī)模。

6. 混合量化

混合量化在同一模型中結(jié)合了不同的量化技術(shù)。例如，權(quán)重可以被量化到8位精度，而激活則保持較高的精度，或者不同的層可以根據(jù)它們對(duì)量化的敏感性使用不同級(jí)別的精度。這種技術(shù)通過(guò)將量化應(yīng)用于模型的權(quán)重（模型的參數(shù)）和激活（中間輸出）來(lái)減小神經(jīng)網(wǎng)絡(luò)的大小并加快速度。

量化兩個(gè)部分：它同時(shí)壓縮模型的權(quán)重和計(jì)算的數(shù)據(jù)激活。這意味著兩者都使用較少的位數(shù)存儲(chǔ)和處理，從而節(jié)省了內(nèi)存并加快了計(jì)算速度。
內(nèi)存和速度提升：通過(guò)減少模型需要處理的數(shù)據(jù)量，混合量化使得模型更小、更快。
復(fù)雜性：因?yàn)樗瑫r(shí)影響權(quán)重和激活，所以實(shí)施起來(lái)可能比僅僅量化其中一個(gè)更復(fù)雜。它需要精心調(diào)優(yōu)以確保模型在保持高效的同時(shí)仍然保持準(zhǔn)確性。

7. 僅整數(shù)量化

在僅整數(shù)量化中，權(quán)重和激活都被轉(zhuǎn)換為整數(shù)格式，并且所有計(jì)算都使用整數(shù)算術(shù)完成。這種技術(shù)對(duì)于優(yōu)化整數(shù)操作的硬件加速器特別有用。

8. 按張量和按通道量化

按張量量化：在整個(gè)張量（例如，一層中的所有權(quán)重）上應(yīng)用相同的量化尺度。

按通道量化：在一個(gè)張量的不同通道上使用不同的尺度。這種方法可以通過(guò)允許卷積神經(jīng)網(wǎng)絡(luò)中的量化更細(xì)粒度，從而提供更好的準(zhǔn)確性。

9. 自適應(yīng)量化

自適應(yīng)量化方法根據(jù)輸入數(shù)據(jù)分布動(dòng)態(tài)調(diào)整量化參數(shù)。這些方法通過(guò)針對(duì)數(shù)據(jù)的具體特征定制量化，有可能達(dá)到更高的準(zhǔn)確性。
每種技術(shù)都有其在模型大小、速度和準(zhǔn)確性之間的權(quán)衡。選擇適當(dāng)?shù)牧炕椒ㄈQ于部署環(huán)境的具體要求和約束。

模型量化面臨的挑戰(zhàn)與考慮因素

在AI中實(shí)施模型量化涉及到應(yīng)對(duì)幾個(gè)挑戰(zhàn)和考慮因素。主要的問(wèn)題之一是準(zhǔn)確性權(quán)衡，因?yàn)闇p少模型數(shù)值數(shù)據(jù)的精度可能會(huì)降低其性能，特別是對(duì)于需要高精度的任務(wù)。為了管理這一點(diǎn)，采用的技術(shù)包括量化感知訓(xùn)練、混合方法（結(jié)合不同精度級(jí)別）以及量化參數(shù)的迭代優(yōu)化，以保持準(zhǔn)確性。此外，不同硬件和軟件平臺(tái)之間的兼容性可能存在問(wèn)題，因?yàn)椴⒎撬衅脚_(tái)都支持量化。解決這個(gè)問(wèn)題需要廣泛的跨平臺(tái)測(cè)試，使用標(biāo)準(zhǔn)化框架（如TensorFlow或PyTorch）以獲得更廣泛的兼容性，有時(shí)還需要為特定硬件開(kāi)發(fā)定制解決方案以確保最佳性能。

實(shí)際應(yīng)用案例

模型量化在各種實(shí)際應(yīng)用中廣泛使用，其中效率和性能至關(guān)重要。

以下是一些示例：

移動(dòng)應(yīng)用：量化模型用于移動(dòng)應(yīng)用中的任務(wù)，如圖像識(shí)別、語(yǔ)音識(shí)別和增強(qiáng)現(xiàn)實(shí)。例如，量化神經(jīng)網(wǎng)絡(luò)可以在智能手機(jī)上高效運(yùn)行，以識(shí)別照片中的目標(biāo)或提供實(shí)時(shí)的語(yǔ)言翻譯，即使在計(jì)算資源有限的情況下也是如此。
自動(dòng)駕駛汽車(chē)：在自動(dòng)駕駛汽車(chē)中，量化模型幫助實(shí)時(shí)處理傳感器數(shù)據(jù)，如識(shí)別障礙物、讀取交通標(biāo)志和做出駕駛決策。量化模型的效率使得這些計(jì)算可以快速完成，并且功耗較低，這對(duì)于自動(dòng)駕駛汽車(chē)的安全性和可靠性至關(guān)重要。
邊緣設(shè)備：量化對(duì)于將AI模型部署到無(wú)人機(jī)、物聯(lián)網(wǎng)設(shè)備和智能攝像頭等邊緣設(shè)備至關(guān)重要。這些設(shè)備通常具有有限的處理能力和內(nèi)存，因此量化模型使它們能夠高效地執(zhí)行復(fù)雜的任務(wù)，如監(jiān)控、異常檢測(cè)和環(huán)境監(jiān)測(cè)。
醫(yī)療保?。?/strong>在醫(yī)學(xué)影像和診斷中，量化模型用于分析醫(yī)學(xué)掃描和檢測(cè)異常，如腫瘤或骨折。這有助于在硬件計(jì)算能力有限的情況下提供更快、更準(zhǔn)確的診斷，例如便攜式醫(yī)療設(shè)備。
語(yǔ)音助手：數(shù)字語(yǔ)音助手如Siri、Alexa和Google Assistant使用量化模型處理語(yǔ)音命令、理解自然語(yǔ)言并提供響應(yīng)。量化使這些模型能夠在家庭設(shè)備上快速高效地運(yùn)行，確保順暢且響應(yīng)迅速的用戶體驗(yàn)。
推薦系統(tǒng)：在線平臺(tái)如Netflix、Amazon和YouTube使用量化模型提供實(shí)時(shí)推薦。這些模型處理大量用戶數(shù)據(jù)以建議電影、產(chǎn)品或視頻，量化有助于管理計(jì)算負(fù)載，同時(shí)及時(shí)提供個(gè)性化推薦。

量化提高了AI模型的效率，使它們能夠在資源受限的環(huán)境中部署，而不顯著犧牲性能，從而改善了廣泛應(yīng)用中的用戶體驗(yàn)。

總結(jié)思考

量化是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的一項(xiàng)關(guān)鍵技術(shù)，解決了將大型模型部署到邊緣設(shè)備的挑戰(zhàn)。量化顯著減少了神經(jīng)網(wǎng)絡(luò)的內(nèi)存占用和計(jì)算需求，使它們能夠在資源受限的設(shè)備和實(shí)時(shí)應(yīng)用中部署。正如本文討論的，量化的一些好處包括減少內(nèi)存使用、加快推理時(shí)間和降低功耗。技術(shù)如均勻量化和非均勻量化，以及創(chuàng)新方法如權(quán)重共享和混合量化。盡管量化具有優(yōu)勢(shì)，但也帶來(lái)了挑戰(zhàn)，特別是在保持模型準(zhǔn)確性方面。然而，隨著近期的研究和量化方法的發(fā)展，研究人員繼續(xù)致力于解決這些問(wèn)題，推動(dòng)低精度計(jì)算的可能性邊界。隨著深度學(xué)習(xí)社區(qū)不斷創(chuàng)新發(fā)展，量化將在部署強(qiáng)大且高效的AI模型中扮演關(guān)鍵角色，使先進(jìn)的AI功能能夠廣泛應(yīng)用于更多的應(yīng)用場(chǎng)景和設(shè)備?？傊?，量化不僅僅是技術(shù)優(yōu)化那么簡(jiǎn)單——它在AI進(jìn)步中扮演著至關(guān)重要的角色。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50367

瀏覽量
267060

語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
575

瀏覽量
11345

LLM

LLM

+關(guān)注

關(guān)注
1

文章
350

瀏覽量
1397

收藏人收藏

掃一掃，分享給好友

復(fù)制鏈接分享

加入交流群

掃碼添加小助手

加入工程師交流群

評(píng)論

發(fā)布評(píng)論請(qǐng)先登錄

相關(guān)推薦

熱點(diǎn)推薦

后量化模型在 iMX93 NPU 上運(yùn)行，但輸出不正確怎么解決

我正在使用 MobileNet 的自定義實(shí)現(xiàn)，旨在對(duì) spark 進(jìn)行二進(jìn)制分類(lèi)。轉(zhuǎn)換為 tflite 并將其量化為 int8 后，模型按預(yù)期在 NPU 上運(yùn)行，但輸出沒(méi)有意義。該模型在量化

發(fā)表于 03-18 07:53

Google正式發(fā)布LLM評(píng)測(cè)基準(zhǔn)Android Bench

LLM 在 Android 開(kāi)發(fā)任務(wù)中的表現(xiàn)?，F(xiàn)在，我們發(fā)布了 Android Bench 的首個(gè)版本，這是 Google 官方專門(mén)針對(duì) Android 開(kāi)發(fā)打造的 LLM 排行榜。

發(fā)表于 03-14 16:00 ?1924次閱讀

AWQ/GPTQ量化模型加載與顯存優(yōu)化實(shí)戰(zhàn)

大語(yǔ)言模型（LLM）推理顯存需求呈指數(shù)級(jí)增長(zhǎng)，70B參數(shù)的模型需要約140GB顯存（FP16），遠(yuǎn)超單卡GPU容量。量化技術(shù)通過(guò)降低模型參數(shù)

發(fā)表于 03-13 09:45 ?736次閱讀

【CIE全國(guó)RISC-V創(chuàng)新應(yīng)用大賽】+ 一種基于LLM的可通過(guò)圖像語(yǔ)音控制的元件庫(kù)管理工具

一種基于LLM的可通過(guò)圖像語(yǔ)音控制的元件庫(kù)管理工具項(xiàng)目概述 ? 庫(kù)存管理在我們的生活中幾乎無(wú)處不在，在許多小型的庫(kù)存當(dāng)中，比如實(shí)驗(yàn)室中的庫(kù)存管理，往往沒(méi)有人去專職維護(hù)，這就會(huì)導(dǎo)致在日積月累中

發(fā)表于 11-12 19:32

NVIDIA TensorRT LLM 1.0推理框架正式上線

TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架，核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo)，其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑：一方面，針對(duì)需

發(fā)表于 10-21 11:04 ?1462次閱讀

廣和通發(fā)布端側(cè)情感對(duì)話大模型FiboEmo-LLM

9月，廣和通正式發(fā)布自主研發(fā)的端側(cè)情感對(duì)話大模型FiboEmo-LLM。該模型專注于情感計(jì)算與自然語(yǔ)言交互融合，致力于為AI玩具、智能陪伴設(shè)備等終端場(chǎng)景提供“情感理解-情感響應(yīng)”一體化

發(fā)表于 09-26 13:37 ?2047次閱讀

米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

qwen2_5_vl_3b_vision_rk3576.rknn 模型（本文）。核心作用：將輸入圖像壓縮為視覺(jué) token 如 256 個(gè)視覺(jué) token，直接輸入至大語(yǔ)言模型中，實(shí)現(xiàn)圖像信息向語(yǔ)言

發(fā)表于 09-05 17:25

3萬(wàn)字長(zhǎng)文！深度解析大語(yǔ)言模型LLM原理

我們正在參加全球電子成就獎(jiǎng)的評(píng)選，歡迎大家?guī)臀覀兺镀薄x謝支持本文轉(zhuǎn)自：騰訊技術(shù)工程作者：royceshao大語(yǔ)言模型LLM的精妙之處在于很好地利用數(shù)學(xué)解決了工業(yè)場(chǎng)景的問(wèn)題，筆者基于過(guò)往工程經(jīng)驗(yàn)

發(fā)表于 09-02 13:34 ?3624次閱讀

DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

。我們?cè)谥暗牟┛蚚1] 中介紹了 DeepSeek-R1 模型實(shí)現(xiàn)超低推理延遲的關(guān)鍵優(yōu)化措施。本文將深入探討 TensorRT-LLM 中的 MTP 實(shí)現(xiàn)與優(yōu)化。

發(fā)表于 08-30 15:47 ?4735次閱讀

基于米爾瑞芯微RK3576開(kāi)發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評(píng)測(cè)

，為開(kāi)發(fā)者與研究者提供一份兼具實(shí)踐參考與技術(shù)洞察的端側(cè) AI 部署指南。本文目錄一、基本介紹端側(cè) LLM 模型與云端 LLM 瑞芯微 RK3576：6TOPS NPU 的能效比標(biāo)桿，重新定義

發(fā)表于 08-29 18:08

如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù)，可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。

發(fā)表于 07-04 14:38 ?2472次閱讀

瑞芯微模型量化文件構(gòu)建

模型是一張圖片輸入時(shí)，量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型，他的輸入是四個(gè)輸入。該模型訓(xùn)練時(shí)數(shù)據(jù)集只標(biāo)注

發(fā)表于 06-13 09:07

使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

針對(duì)基于 Diffusion 和 LLM 類(lèi)別的 TTS 模型，NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace

發(fā)表于 06-12 15:37 ?2107次閱讀

LM Studio使用NVIDIA技術(shù)加速LLM性能

隨著 AI 使用場(chǎng)景不斷擴(kuò)展（從文檔摘要到定制化軟件代理），開(kāi)發(fā)者和技術(shù)愛(ài)好者正在尋求以更快、更靈活的方式來(lái)運(yùn)行大語(yǔ)言模型（LLM）。

發(fā)表于 06-06 15:14 ?1484次閱讀

使用瑞薩MPU芯片RZ/V2H部署DeepSeek-R1模型

DeepSeek大語(yǔ)言模型（LLM）可用于理解人類(lèi)語(yǔ)言的交互方式，思考，并給出合適的回應(yīng)。

發(fā)表于 05-15 14:40 ?1164次閱讀

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

理解LLM中的模型量化

評(píng)論