日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用自壓縮實現(xiàn)大型語言模型高效縮減

穎脈Imgtec ? 2025-07-28 09:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個直接且效果出人意料的解決方案是剪除那些對任務(wù)貢獻(xiàn)甚微的完整通道(channel)。我們早期的研究提出了一種訓(xùn)練階段的方法 —— 自壓縮(Self-Compression)[1, 4],它通過反向傳播自動決定每個通道的比特寬度,從而逐步“淡化”那些無用的通道。這種方法可同時減少模型參數(shù)、數(shù)值精度,甚至可調(diào)超參數(shù)的數(shù)量,而不會影響模型的預(yù)測質(zhì)量。

當(dāng)我們將這一想法擴(kuò)展應(yīng)用于 Transformer 架構(gòu) [5] 時,觀察到了一個耐人尋味的現(xiàn)象:當(dāng)某個通道的學(xué)習(xí)精度降低至零比特,所得模型的緊湊程度甚至超過了使用固定三值編碼(ternary code)的模型。由于該方法僅作用于標(biāo)準(zhǔn)的線性層,壓縮后的網(wǎng)絡(luò)無需修改運行時堆棧,便可在 CPU、GPUDSP 和 NPU 上直接獲得性能提升,從而實現(xiàn)一個輕量模型在多種硬件平臺上的通用部署。

在本項工作中,我們更進(jìn)一步,引入了基于塊的稀疏性模式(block-based sparsity pattern)。接下來的章節(jié)將介紹如何將自壓縮機制整合進(jìn)基礎(chǔ)模型、它所產(chǎn)生的權(quán)重分布模式,以及這一方法在資源受限部署環(huán)境中的潛在影響。


自壓縮大型語言模型(LLM)

我們的參考模型是 nanoGPT [2],這是一個精簡版的 GPT 變體,訓(xùn)練數(shù)據(jù)集為 shakespeare_char 語料庫。該模型擁有約 1100 萬個可訓(xùn)練參數(shù),規(guī)模足夠小以實現(xiàn)快速運行,同時又足夠大以展現(xiàn)完整的 Transformer 計算模式。

該模型包含以下結(jié)構(gòu):

詞嵌入層:將每個 token 映射為一個多維向量;

6 個相同的 Transformer 塊,每個塊包括:因果型多頭注意力機制(包含輸入和輸出的線性層),層歸一化(Layer Normalisation),一個前饋模塊,內(nèi)部又包含兩個線性層;

輸出部分:最后的層歸一化,一個線性層,一個 Softmax 層,用于輸出各個候選 token 的概率分布。

在 Transformer 網(wǎng)絡(luò)中,90% 以上的權(quán)重——也就是大部分的內(nèi)存帶寬、DRAM 占用以及功耗——集中在 Transformer 塊內(nèi)的四個大型線性層中。因此,在我們的實驗中,自壓縮僅針對這幾層線性層進(jìn)行,其余的基準(zhǔn)模型部分保持不變。

56b8494c-6b53-11f0-a486-92fbcf53809c.png

量化后的 Transformer 架構(gòu),基于文獻(xiàn) [3] 中的圖示,并由作者修改。

后續(xù)章節(jié)將分析在各個塊(blocks)和通道(channels)中出現(xiàn)的稀疏性特征。了解哪些層最先變得稀疏,可以為我們提供有關(guān)大型語言模型(LLM)中哪些層相對不那么重要的有價值見解。這一發(fā)現(xiàn)可能有助于未來優(yōu)化工作的定向開展,特別是在那些冗余自然積累的部分。


自壓縮的工作原理

自壓縮方法 [1, 4] 使網(wǎng)絡(luò)在常規(guī)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中自主學(xué)習(xí)其通道寬度和數(shù)值精度。每個輸出通道都通過一個可微分的函數(shù)進(jìn)行量化。

56dbd588-6b53-11f0-a486-92fbcf53809c.png

其中,比特深度 b≥0 和縮放指數(shù) e 是可學(xué)習(xí)參數(shù),其地位與神經(jīng)網(wǎng)絡(luò)權(quán)重相同。我們使用直通估計器(straight-through estimator),將取整操作的導(dǎo)數(shù)視為 1,從而使 b 和 e 能夠接收正常的梯度。這種做法在如 PyTorch 等深度學(xué)習(xí)框架中實現(xiàn)起來非常簡單。

訓(xùn)練過程旨在最小化原始任務(wù)損失 L(0),但我們額外引入了一個模型規(guī)模懲罰項 Q:

56eadfba-6b53-11f0-a486-92fbcf53809c.png

其中,Q 表示模型中每個通道平均使用的比特數(shù),

γ 是由用戶設(shè)定的懲罰系數(shù)。

在適當(dāng)選擇 γ 的情況下,該方法能夠在保留基線精度的同時顯著壓縮模型總比特數(shù),并且整個流程仍屬于標(biāo)準(zhǔn)的訓(xùn)練范式。


自壓縮后的權(quán)重表現(xiàn)

隨著訓(xùn)練的進(jìn)行,網(wǎng)絡(luò)中的平均比特數(shù)逐步下降,同時驗證損失也不斷降低。訓(xùn)練初期,我們?yōu)槊總€權(quán)重分配了 4 比特,但在數(shù)百個 epoch 內(nèi),這一數(shù)值便下降了一半,最終逐漸穩(wěn)定在約 每個權(quán)重 0.55 比特左右。

56f7fa74-6b53-11f0-a486-92fbcf53809c.png

圖示:訓(xùn)練過程中平均比特寬度的變化(藍(lán)色,左軸)與驗證損失(紅色,右軸),在施加壓縮懲罰項 γ 的條件下。

更有趣的現(xiàn)象出現(xiàn)在稀疏率及其隨模型深度的變化上。我們觀察到:稀疏性在模型更深層逐漸增強,這表明后期層的“信息密度”較低。在注意力模塊中,深層 block 的線性層變得極為稀疏,第 4 和第 5 個 block 中有超過 95% 的權(quán)重被移除;前饋網(wǎng)絡(luò)(feed-forward)中的線性層也變得非常稀疏,約有 85% 的權(quán)重被剪除;相比之下,第 0 層(最前層)保留了超過一半的權(quán)重,這可能是因為淺層在捕捉數(shù)據(jù)中的基本模式時至關(guān)重要。

5709c3b2-6b53-11f0-a486-92fbcf53809c.png

所有 Transformer 塊中各線性層的稀疏率(即被清零權(quán)重所占百分比)。

如果這一現(xiàn)象能夠推廣到其他語言模型和任務(wù)中,那么即使不使用自壓縮機制,也有可能通過在網(wǎng)絡(luò)后段減少特征維度來獲得性能收益。

5719debe-6b53-11f0-a486-92fbcf53809c.png

第0、1和5號塊中,第一個前饋線性層的量化權(quán)重直方圖。

當(dāng)我們觀察這三個塊中權(quán)重的直方圖時,會發(fā)現(xiàn)非零權(quán)重主要集中在靠近零的小數(shù)值附近,尤其是在較深的塊中。這表明即使權(quán)重未被置零,模型也傾向于保持權(quán)重較小。塊越深,剩余的大權(quán)重越少。這說明模型并不會通過增大剩余權(quán)重的幅度來彌補被剪除通道的損失。

57306828-6b53-11f0-a486-92fbcf53809c.png

第0、1和5號塊中,第一個前饋線性層的二值掩碼圖,黑色表示被剪除的權(quán)重,白色表示保留的權(quán)重。

稀疏掩碼展示了被剪除權(quán)重的分布情況。在第0塊,剪枝較為分散,呈現(xiàn)小間隙和細(xì)線條狀,反映出個別通道被移除;在第1塊,較大范圍的權(quán)重被同時剪除,形成了橫向帶狀區(qū)域,顯示整個輸出通道被刪除;到第5塊時,該層大部分權(quán)重已被剪除,只剩下少數(shù)幾個通道保留。


結(jié)論

自壓縮(Self-Compression)[1, 4] 同時降低了權(quán)重的比特寬度和活躍權(quán)重數(shù)量,同時形成了易于理解且在硬件上高效利用的通道稀疏模式。淺層大多保持稠密,以保留重要信息,而深層則變得高度稀疏。剩余的少數(shù)權(quán)重保持較小且接近零。這些結(jié)果表明,自壓縮有助于構(gòu)建更小、更快的模型,使其適合在資源受限的環(huán)境中運行,如邊緣設(shè)備。

本文所展示的實驗驗證了自壓縮方法能夠成功縮減 Transformer 模型(此處以在字符級莎士比亞數(shù)據(jù)集上訓(xùn)練的 nanoGPT [3] 為例),且不會損害其預(yù)測質(zhì)量。通過讓模型自主決定保留哪些通道和權(quán)重,該方法避免了繁瑣的手動調(diào)優(yōu),同時生成了結(jié)構(gòu)清晰的塊稀疏(block-sparse)模型,便于在 CPU、GPU、NPU 及其他硬件上高效部署。這意味著同一個緊湊模型可以無須額外修改,即可在整個邊緣計算棧中通用。

未來的工作可以探索將該方法應(yīng)用于更大型的語言模型、多模態(tài) Transformer,或針對特定任務(wù)微調(diào)的模型,同時也可以嘗試將自壓縮與知識蒸餾等其他技術(shù)結(jié)合,以進(jìn)一步提升效率。

關(guān)于作者

Jakub Przybyl是 Imagination Technologies 的中期實習(xí)生。他在弗羅茨瓦夫理工大學(xué)(Wroc?aw University of Science and Technology,簡稱 WUST)完成了機電一體化(Mechatronics)學(xué)士學(xué)位,同時攻讀 IT 自動化系統(tǒng)碩士學(xué)位,專攻人工智能方向。他的研究興趣包括機器學(xué)習(xí)、語言建模以及先進(jìn)的網(wǎng)絡(luò)壓縮技術(shù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    575

    瀏覽量

    11345
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    350

    瀏覽量

    1397
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    大型語言模型在關(guān)鍵任務(wù)和實際應(yīng)用中的挑戰(zhàn)

    大型語言模型的出現(xiàn)極大地推動了自然語言處理領(lǐng)域的進(jìn)步,但同時也存在一些局限性,比如模型可能會產(chǎn)生看似合理但實際上是錯誤或虛假的內(nèi)容,這一現(xiàn)象
    的頭像 發(fā)表于 08-15 09:33 ?2445次閱讀
    <b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>在關(guān)鍵任務(wù)和實際應(yīng)用中的挑戰(zhàn)

    探索高效大型語言模型大型語言模型高效學(xué)習(xí)方法

    大型語言模型(LLMs)的應(yīng)用中,提示工程(Prompt Engineering)是一種關(guān)鍵技術(shù),用于引導(dǎo)模型生成特定輸出或執(zhí)行特定任務(wù)。通過精心設(shè)計的提示,可以顯著提高LLMs的性
    發(fā)表于 12-13 14:21 ?1527次閱讀
    探索<b class='flag-5'>高效</b>的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>!<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>的<b class='flag-5'>高效</b>學(xué)習(xí)方法

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    更好地擬合訓(xùn)練數(shù)據(jù),并在推理和泛化時表現(xiàn)出色。此外,特征復(fù)用通過共享參數(shù)提高效率和性能,使得大語言模型能夠更有效地利用學(xué)到的特征。最后,優(yōu)化效果則通過使用更復(fù)雜的優(yōu)化算法和更長的訓(xùn)練時
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    就無法修改,因此難以靈活應(yīng)用于下游文本的挖掘中。 詞嵌入表示:將每個詞映射為一個低維稠密的實值向量。不同的是,基于預(yù)訓(xùn)練的詞嵌入表示先在語料庫中利用某種語言模型進(jìn)行預(yù)訓(xùn)練,然后將其應(yīng)用到下游任務(wù)中,詞
    發(fā)表于 05-05 12:17

    如何實現(xiàn)對圖像的高效壓縮?

    JPEG2000標(biāo)準(zhǔn)基本原理是什么?如何實現(xiàn)對圖像的高效壓縮
    發(fā)表于 06-03 06:24

    KT利用NVIDIA AI平臺訓(xùn)練大型語言模型

    韓國先進(jìn)的移動運營商構(gòu)建包含數(shù)百億個參數(shù)的大型語言模型,并使用 NVIDIA DGX SuperPOD 平臺和 NeMo Megatron 框架訓(xùn)練該模型。
    的頭像 發(fā)表于 09-27 09:24 ?2278次閱讀

    大型語言模型有哪些用途?

    大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。 AI 應(yīng)用在大型語言模型的幫助下,可
    的頭像 發(fā)表于 02-23 19:50 ?6285次閱讀

    大型語言模型有哪些用途?大型語言模型如何運作呢?

    大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。
    的頭像 發(fā)表于 03-08 13:57 ?9616次閱讀

    利用語言模型做多模態(tài)任務(wù)

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數(shù)據(jù)。
    的頭像 發(fā)表于 05-10 16:53 ?2121次閱讀
    <b class='flag-5'>利用</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>做多模態(tài)任務(wù)

    淺析AI大型語言模型研究的發(fā)展歷程

    大型語言模型研究的發(fā)展有三條技術(shù)路線:Bert 模式、GPT 模式、混合模式。其中國內(nèi)大多采用混合模式, 多數(shù)主流大型語言
    發(fā)表于 06-09 12:34 ?6554次閱讀
    淺析AI<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>研究的發(fā)展歷程

    基于Transformer的大型語言模型(LLM)的內(nèi)部機制

    本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內(nèi)部機制,以提高它們的可靠性和可解釋性。 隨著大型語言
    的頭像 發(fā)表于 06-25 15:08 ?2625次閱讀
    基于Transformer的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)的內(nèi)部機制

    大型語言模型的應(yīng)用

    ?? 大型語言模型(LLM) 是一種深度學(xué)習(xí)算法,可以通過大規(guī)模數(shù)據(jù)集訓(xùn)練來學(xué)習(xí)識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。大語言模型(LL
    的頭像 發(fā)表于 07-05 10:27 ?3020次閱讀

    基于CPU的大型語言模型推理實驗

    隨著計算和數(shù)據(jù)處理變得越來越分散和復(fù)雜,AI 的重點正在從初始訓(xùn)練轉(zhuǎn)向更高效的AI 推理。Meta 的 Llama3 是功能強大的公開可用的大型語言模型 (LLM)。本次測試采用開源
    的頭像 發(fā)表于 07-18 14:28 ?1594次閱讀
    基于CPU的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>推理實驗

    如何利用大型語言模型驅(qū)動的搜索為公司創(chuàng)造價值

    大型語言模型LLMs具有自動化內(nèi)容創(chuàng)建、提高內(nèi)容質(zhì)量及多樣化的潛力,可重塑企業(yè)與信息的交互方式。通過利用LLMs,企業(yè)能提升工作效率,降低運營成本,并獲得深入洞察。來自EgeGürde
    的頭像 發(fā)表于 10-13 08:07 ?773次閱讀
    如何<b class='flag-5'>利用</b><b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>驅(qū)動的搜索為公司創(chuàng)造價值

    如何利用NPU與模型壓縮技術(shù)優(yōu)化邊緣AI

    ,AI 模型體積龐大,部署在 NPU上常常面臨困難,這凸顯了模型壓縮技術(shù)的重要性。要實現(xiàn)高效的實時邊緣 AI,需要深入探討NPU 與
    的頭像 發(fā)表于 11-07 15:26 ?1444次閱讀
    如何<b class='flag-5'>利用</b>NPU與<b class='flag-5'>模型</b><b class='flag-5'>壓縮</b>技術(shù)優(yōu)化邊緣AI
    桑植县| 长汀县| 齐齐哈尔市| 内乡县| 前郭尔| 宁阳县| 金沙县| 信阳市| 南澳县| 巴彦淖尔市| 于田县| 柘城县| 宝坻区| 孟州市| 富民县| 图们市| 合江县| 湘潭县| 收藏| 天柱县| 湖北省| 长顺县| 平罗县| 老河口市| 苏尼特右旗| 通化县| 大邑县| 衡东县| 宁化县| 黎平县| 斗六市| 吉安市| 崇州市| 刚察县| 勃利县| 广元市| 七台河市| 逊克县| 南木林县| 平谷区| 延边|