01【ACL-2026】BWLA:面向LLMs的1-bit權(quán)重與低比特激活后訓(xùn)練量化框架

后摩智能芯片算法團隊提出BWLA(Binarized Weights and Low-bit Activations),這是首個在無需重訓(xùn)練的后訓(xùn)練量化框架下,同時實現(xiàn)1-bit權(quán)重與低比特激活(如6-bit)的大語言模型壓縮方法?,F(xiàn)有二值化方法雖然能夠?qū)?quán)重壓縮到接近1bit,但大多無法有效處理激活中的重尾離群值,因此仍需保留高精度激活,推理時還需要進行權(quán)重反量化,難以真正實現(xiàn)端到端加速。BWLA從權(quán)重與激活的統(tǒng)計分布出發(fā),通過聯(lián)合重塑權(quán)重分布與抑制激活離群值,顯著提升了W1AX場景下的量化精度與部署效率。
隨著 LLMs 參數(shù)規(guī)模持續(xù)擴大,模型推理對顯存、帶寬和計算資源的需求不斷上升,極大限制了其在端側(cè)設(shè)備、嵌入式系統(tǒng)和邊緣計算平臺中的部署。二值化是最具潛力的極限壓縮方案之一,可將權(quán)重存儲降低到1bit,從根本上減少模型存儲與訪存開銷。然而,LLM的權(quán)重通常呈現(xiàn)單峰、近似高斯分布,與 {-1, +1} 二值碼本天然不匹配,直接二值化會引入嚴重誤差;同時,激活分布存在顯著重尾與極端離群值,在低比特量化時會造成嚴重數(shù)值失真。這兩個問題使得已有方法難以在保持模型精度的同時實現(xiàn)真正的W1AX量化。
BWLA以“權(quán)重雙峰化、激活去離群、低開銷部署”為核心目標,構(gòu)建了一個無需微調(diào)、面向端側(cè)推理友好的統(tǒng)一后訓(xùn)練量化框架,主要包含兩大核心創(chuàng)新:
核心創(chuàng)新一:正交Kronecker變換(Orthogonal-Kronecker Transformation, OKT)。OKT通過學(xué)習(xí)嚴格正交的Kronecker結(jié)構(gòu)變換,將原本單峰的權(quán)重分布顯式重塑為更適合二值碼本的對稱雙峰分布,從而降低權(quán)重二值化誤差。與普通稠密正交矩陣相比,OKT將大矩陣分解為兩個小型正交矩陣的Kronecker積,在保持正交可逆性的同時,大幅降低計算與存儲開銷。由于正交變換滿足逆矩陣等于轉(zhuǎn)置矩陣,OKT可以在保持前向計算等價性的前提下作用于激活空間,有效打散激活相干性并抑制重尾離群值,為低比特激活量化創(chuàng)造更穩(wěn)定的數(shù)值條件。
核心創(chuàng)新二:近端SVD投影(Proximal SVD Projection, PSP)。在OKT 完成全局分布對齊后,仍可能存在部分結(jié)構(gòu)化殘差不利于二值化。PSP進一步引入輕量級低秩殘差修正,通過近端優(yōu)化與截斷SVD投影吸收殘余離群成分,使變換后的權(quán)重分布更加接近對稱雙峰結(jié)構(gòu)。該模塊僅帶來極小的額外參數(shù)開銷,卻能進一步增強權(quán)重量化可分性與模型穩(wěn)定性,與OKT形成互補:OKT負責(zé)全局分布重塑與激活平滑,PSP負責(zé)局部殘差校正與量化誤差細化補償。
實驗表明,BWLA在多個主流LLM家族上均顯著優(yōu)于現(xiàn)有二值化與低比特量化方法。在Qwen3-32B上,BWLA在6-bit激活量化下的WikiText2困惑度達到11.92,顯著優(yōu)于現(xiàn)有SOTA方法約38的結(jié)果;在五個zero-shot任務(wù)上,BWLA相比已有方法帶來超過70%的性能提升,并實現(xiàn)3.26×的推理加速,展示出強大的實際部署潛力。相比W4A4量化方法,BWLA也能取得更高吞吐,體現(xiàn)出1-bit權(quán)重在訪存受限推理場景中的突出優(yōu)勢。
總體而言,BWLA首次在純后訓(xùn)練量化框架下打通了1-bit權(quán)重 + 低比特激活的高精度壓縮路徑,解決了傳統(tǒng)二值化方法無法處理激活重尾、難以端到端加速的核心難題。該方法為LLMs在車載、嵌入式、移動終端和邊緣設(shè)備等資源受限場景中的高效部署提供了關(guān)鍵技術(shù)支撐,也進一步完善了后摩智能在端側(cè)AI 芯片與大模型壓縮算法協(xié)同優(yōu)化方向的技術(shù)布局。
文章鏈接:https://arxiv.org/abs/2605.00422
02【ICML-2026】TWLA:突破W1.58A4后訓(xùn)練量化瓶頸,推動三值化大模型邁向端側(cè)高效推理

繼在大模型壓縮、低比特量化與端側(cè)部署方向持續(xù)取得突破后,后摩智能芯片算法團隊進一步提出TWLA(Ternarized Weights and Low-bit Activations),面向大語言模型在資源受限場景中的高效部署需求,系統(tǒng)解決三值化權(quán)重與低比特激活聯(lián)合量化中的精度坍塌問題。該方法在無需重訓(xùn)練的后訓(xùn)練量化框架下,實現(xiàn)1.58-bit權(quán)重壓縮與4-bit激活量化,在顯著降低模型存儲與推理成本的同時,保持了強大的模型精度與任務(wù)泛化能力。
隨著大語言模型參數(shù)規(guī)模不斷增長,模型推理對顯存容量、訪存帶寬和計算資源提出了極高要求。三值化作為一種極具潛力的極低比特壓縮技術(shù),將權(quán)重約束到{-1, 0, +1},相比二值化具備更強的表達能力,同時仍能顯著減少乘法計算和模型存儲開銷。然而,現(xiàn)有三值化方法大多停留在權(quán)重量化層面,通常保留高精度激活以避免精度損失,導(dǎo)致推理過程中仍需進行權(quán)重反量化,難以真正釋放低比特計算帶來的端到端加速潛力。更具挑戰(zhàn)的是,在W1.58A4這一極限壓縮配置下,大模型同時面臨三類關(guān)鍵瓶頸:第一,預(yù)訓(xùn)練權(quán)重通常呈單峰近高斯分布,與三值碼本天然不匹配,直接三值化會造成較大投影誤差;第二,激活分布存在顯著重尾和極端離群值,4-bit激活量化極易引發(fā)數(shù)值失真;第三,不同層在低比特激活量化下的敏感性差異明顯,少數(shù)“薄弱層”可能觸發(fā)誤差級聯(lián),導(dǎo)致整體性能快速下降。TWLA正是圍繞這些問題構(gòu)建了一個完整的三值權(quán)重與低比特激活協(xié)同優(yōu)化框架。
TWLA以“精準三值化、分布重塑、層間協(xié)同分配”為核心思路,設(shè)計了三個相互配合的關(guān)鍵模塊:
核心創(chuàng)新一:歐氏到流形的非對稱三值量化器(E2M-ATQ)。針對預(yù)訓(xùn)練權(quán)重存在非零均值、直接對稱三值化難以準確擬合的問題,TWLA提出 Euclidean-to-Manifold Asymmetric Ternary Quantizer。該模塊首先在歐氏權(quán)重空間中進行穩(wěn)定初始化,獲得可靠的三值模式;隨后固定三值結(jié)構(gòu),在由校準激活二階統(tǒng)計量定義的度量空間中重新定位行級偏移與縮放參數(shù),使量化權(quán)重不僅在數(shù)值上接近原始權(quán)重,更能在層輸出層面對齊浮點模型。相比單純最小化權(quán)重重構(gòu)誤差,E2M-ATQ更關(guān)注實際前向輸出誤差,從而顯著提升三值化后的可校準性和模型穩(wěn)定性。
核心創(chuàng)新二:Kronecker正交三峰分布塑形(KOTMS)。為了從根源上緩解權(quán)重分布與三值碼本之間的不匹配,TWLA進一步提出Kronecker Orthogonal Tri-Modal Shaping。KOTMS通過輕量級Kronecker結(jié)構(gòu)正交變換,將原本單峰的權(quán)重分布重塑為更適合{-1, 0, +1}三值碼本的對稱三峰分布,使權(quán)重在量化前就具備更好的三值可分性。與直接學(xué)習(xí)大規(guī)模輔助矩陣不同,KOTMS將正交矩陣拆解為兩個小型Kronecker因子,在保持嚴格可逆和前向等價的同時,大幅降低額外計算與存儲開銷。同時,該正交變換也會對激活進行共享混合,從統(tǒng)計上削弱激活相干性與重尾離群值,為4-bit激活量化提供更平滑的動態(tài)范圍。
核心創(chuàng)新三:層間感知激活混合精度分配(ILA-AMP)。與傳統(tǒng)混合精度量化方法不同,TWLA并不簡單地將每一層視為獨立對象,而是顯式建模相鄰層之間的誤差傳播。由于激活量化會改變當前層輸出分布,并進一步影響下一層輸入統(tǒng)計,低比特量化誤差往往具有明顯的層間耦合效應(yīng)。ILA-AMP將單層敏感性損失與相鄰層二階交互損失統(tǒng)一到一個動態(tài)規(guī)劃友好的目標函數(shù)中,在全局比特預(yù)算約束下,為不同層分配合適的激活精度。該設(shè)計能夠識別并保護對 4-bit激活量化更敏感的關(guān)鍵層,避免少數(shù)薄弱層引發(fā)全模型性能坍塌。
實驗結(jié)果表明,TWLA在LLaMA與Qwen3系列模型上均顯著優(yōu)于現(xiàn)有2-bit 和 sub-2-bit后訓(xùn)練量化方法。在A16設(shè)置下,TWLA以更低的1.58-bit權(quán)重精度取得了優(yōu)于GPTQ、QuaRot、SliM-LLM、PB-LLM和PT2-LLM的性能。例如在LLaMA3-8B上,TWLA將seven zero-shot平均準確率提升至62.98%,同時將WikiText2困惑度降低至9.39,相比PT2-LLM展現(xiàn)出明顯優(yōu)勢。在更具挑戰(zhàn)性的W1.58A4設(shè)置下,已有方法普遍出現(xiàn)困惑度爆炸和任務(wù)精度坍塌,而TWLA仍能保持穩(wěn)定表現(xiàn)。以LLaMA2-70B為例,TWLA在4-bit激活量化下達到71.10%的seven zero-shot平均準確率,超過FP16模型性能的92%,同時顯著降低模型內(nèi)存開銷。相比同樣關(guān)注激活混合精度的ResQ,TWLA在精度和壓縮率上均展現(xiàn)出更強的綜合優(yōu)勢。
總體來看,TWLA將三值化大模型從“權(quán)重壓縮”進一步推進到“權(quán)重—激活聯(lián)合低比特推理”的新階段。通過E2M-ATQ提升三值參數(shù)校準能力,通過KOTMS 重塑權(quán)重與激活分布,通過ILA-AMP控制低比特激活下的層間誤差傳播,TWLA在W1.58A4這一極具挑戰(zhàn)性的配置下實現(xiàn)了高精度、低內(nèi)存與高吞吐的統(tǒng)一。該成果為大語言模型在車載、邊緣設(shè)備、嵌入式終端和隱私敏感型本地推理場景中的規(guī)?;渴鹛峁┝岁P(guān)鍵技術(shù)支撐,也進一步豐富了后摩智能在端側(cè) AI 芯片與低比特算法協(xié)同設(shè)計方向的技術(shù)體系。
文章鏈接:https://icml.cc/virtual/2026/poster/61264
03【ICML-2026】DLLMQuant:面向擴散大語言模型的專屬后訓(xùn)練量化框架

繼在低比特量化與端側(cè)部署方向持續(xù)突破后,后摩智能芯片算法團隊進一步提出DLLMQuant,面向基于擴散的大語言模型(DLLM)的獨特生成機制,系統(tǒng)性解決傳統(tǒng)后訓(xùn)練量化(PTQ)方法在該類模型上精度坍塌的問題,實現(xiàn)高效、無損的模型壓縮與推理加速。
隨著大語言模型技術(shù)的演進,擴散式大語言模型(DLLM)憑借其非自回歸并行生成的優(yōu)勢,在文本生成、代碼補全與復(fù)雜推理任務(wù)中展現(xiàn)出巨大潛力。然而,其龐大的模型規(guī)模、高昂的推理成本,以及迭代生成過程中獨特的動態(tài)掩碼機制,為其規(guī)?;渴饚砹藝谰魬?zhàn)。后訓(xùn)練量化(PTQ)作為大模型部署的關(guān)鍵技術(shù),在標準自回歸大模型上已被證明行之有效,但直接應(yīng)用于DLLM時,會出現(xiàn)嚴重的精度損失,例如在W4A4配置下,AWQ、GPTQ等主流方法在LLADA模型上的精度暴跌超過16%,甚至引發(fā)困惑度爆炸。
深入分析發(fā)現(xiàn),傳統(tǒng)PTQ方法失效的根源,在于其設(shè)計與DLLM的核心特性存在三重不匹配:DLLM的生成過程是多步迭代的,不同解碼步的令牌掩碼比例和激活分布持續(xù)變化,靜態(tài)的校準數(shù)據(jù)無法覆蓋完整的分布空間;量化誤差并非一次性的,而是會隨著迭代解碼過程不斷放大,形成級聯(lián)效應(yīng),導(dǎo)致模型性能隨解碼步數(shù)增加持續(xù)惡化;模型中同時存在已解掩碼的確定性令牌與待預(yù)測的掩碼令牌,特征分布呈現(xiàn)多峰、混雜狀態(tài),不適用于常規(guī)的PTQ誤差優(yōu)化策略。這些不匹配共同導(dǎo)致現(xiàn)有量化方案難以適配DLLM的運行機理,進而出現(xiàn)顯著的精度下降。
DLLMQuant正是圍繞這些核心痛點,構(gòu)建了一套完整的、專為DLLM設(shè)計的量化優(yōu)化框架。
核心創(chuàng)新一:時間-掩碼自適應(yīng)采樣(TMAS)。針對DLLM在不同解碼步與掩碼比例下的分布漂移問題,DLLMQuant提出了Temporal-Mask Adaptive Sampling (TMAS)。該方法打破了傳統(tǒng)校準數(shù)據(jù)靜態(tài)采樣的局限,設(shè)計了一種兼顧時間步與掩碼比例的動態(tài)校準策略。通過在不同解碼階段、不同掩碼比例下采集校準數(shù)據(jù),構(gòu)建覆蓋完整生成過程的動態(tài)分布圖譜,使量化器能夠精準捕捉模型在整個推理流程中的統(tǒng)計特征,為后續(xù)的權(quán)重與激活量化提供可靠的分布依據(jù)。
核心創(chuàng)新二:交互感知激活量化(IA-AQ)。為了從根源上抑制量化誤差在迭代生成中的累積與傳播,DLLMQuant提出了Interaction-Aware Activation Quantization (IA-AQ)。該模塊聚焦于DLLM中誤差最敏感的注意力機制,通過分析注意力權(quán)重與令牌交互模式,識別出對最終結(jié)果影響最大的關(guān)鍵令牌區(qū)域。在激活量化過程中,對這些關(guān)鍵區(qū)域施加更嚴格的誤差約束,優(yōu)先降低其量化噪聲,從而打破誤差傳播鏈,避免少數(shù)薄弱層引發(fā)全模型性能坍塌。
核心創(chuàng)新三:確定性引導(dǎo)量化(CGQ)。針對DLLM中確定性與概率性令牌混雜的分布特性,DLLMQuant提出了Certainty-Guided Quantization (CGQ)。該方法以令牌的掩碼狀態(tài)與置信度為核心,構(gòu)建了一個動態(tài)誤差加權(quán)機制。對于高置信度的已解碼令牌,優(yōu)先保證其量化精度;對于低置信度的掩碼令牌,則在可接受的誤差范圍內(nèi)進行壓縮。通過這種方式,將有限的比特預(yù)算精準分配給最關(guān)鍵的令牌,使量化優(yōu)化目標與DLLM的生成邏輯深度對齊,顯著提升了量化后模型的整體穩(wěn)定性。
實驗結(jié)果表明,DLLMQuant在LLaDA、LLADA-1.5與DREAM等主流DLLM 模型上,均顯著優(yōu)于RTN、AWQ、GPTQ與QuaRot等傳統(tǒng)量化方法。在極具挑戰(zhàn)性的W4A4配置下,DLLMQuant在LLaDA-8B模型的GSM8K數(shù)學(xué)推理任務(wù)上,實現(xiàn)了超過10個百分點的精度提升,同時帶來了約1.6倍的推理加速與 3.2倍的內(nèi)存節(jié)省。在涵蓋文本生成、代碼補全與常識推理的9項基準任務(wù)中,DLLMQuant均實現(xiàn)了平均超過2%的性能提升,且在長文本生成任務(wù)上展現(xiàn)出更強的穩(wěn)定性,驗證了其方法的通用性與有效性。
總體來看,DLLMQuant將大模型后訓(xùn)練量化技術(shù),從 “自回歸模型” 成功拓展到 “擴散式模型” 這一全新領(lǐng)域。通過TMAS、IA-AQ與CGQ三大核心技術(shù),系統(tǒng)性解決了動態(tài)分布漂移、誤差累積傳播與令牌狀態(tài)混雜三大難題,在4比特極限量化下實現(xiàn)了高精度、低內(nèi)存與高吞吐的統(tǒng)一。該成果為基于擴散的大語言模型在邊緣設(shè)備、嵌入式終端與隱私敏感場景中的規(guī)?;渴?,提供了關(guān)鍵技術(shù)支撐,也進一步豐富了后摩智能在端側(cè)AI芯片與低比特算法協(xié)同設(shè)計方向的技術(shù)體系。
文章鏈接:https://icml.cc/virtual/2026/poster/61264
-
人工智能
+關(guān)注
關(guān)注
1821文章
50436瀏覽量
267429 -
模型
+關(guān)注
關(guān)注
1文章
3850瀏覽量
52306 -
后摩智能
+關(guān)注
關(guān)注
0文章
59瀏覽量
1772
原文標題:后摩前沿丨后摩智能3篇論文入選ACL、ICML兩大人工智能頂會,持續(xù)突破大模型端側(cè)部署核心技術(shù)瓶頸
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
后摩智能全國總部正式落地北京經(jīng)開區(qū)
地平線11篇論文強勢入選CVPR 2026
西井科技攜手同濟大學(xué) 三篇AI研究成果入選頂會ICLR 2026
后摩智能4篇論文入選人工智能頂會ICLR 2026
后摩智能斬獲多項人工智能行業(yè)大獎
主線科技入選“人工智能+”創(chuàng)新應(yīng)用實踐案例
MediaTek多篇論文入選全球前沿國際學(xué)術(shù)會議
理想汽車12篇論文入選全球五大AI頂會
Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026
挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器
挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!
思必馳與上海交大聯(lián)合實驗室研究成果入選兩大頂級會議
云知聲四篇論文入選自然語言處理頂會ACL 2025
后摩智能三篇論文入選ACL和ICML兩大人工智能頂會
評論