青青草超碰在线,亚洲五区六区七区毛片,这里精品视频观看

01【ACL-2026】BWLA：面向LLMs的1-bit權(quán)重與低比特激活后訓(xùn)練量化框架

后摩智能芯片算法團隊提出BWLA（Binarized Weights and Low-bit Activations），這是首個在無需重訓(xùn)練的后訓(xùn)練量化框架下，同時實現(xiàn)1-bit權(quán)重與低比特激活（如6-bit）的大語言模型壓縮方法?，F(xiàn)有二值化方法雖然能夠?qū)?quán)重壓縮到接近1bit，但大多無法有效處理激活中的重尾離群值，因此仍需保留高精度激活，推理時還需要進行權(quán)重反量化，難以真正實現(xiàn)端到端加速。BWLA從權(quán)重與激活的統(tǒng)計分布出發(fā)，通過聯(lián)合重塑權(quán)重分布與抑制激活離群值，顯著提升了W1AX場景下的量化精度與部署效率。

隨著 LLMs 參數(shù)規(guī)模持續(xù)擴大，模型推理對顯存、帶寬和計算資源的需求不斷上升，極大限制了其在端側(cè)設(shè)備、嵌入式系統(tǒng)和邊緣計算平臺中的部署。二值化是最具潛力的極限壓縮方案之一，可將權(quán)重存儲降低到1bit，從根本上減少模型存儲與訪存開銷。然而，LLM的權(quán)重通常呈現(xiàn)單峰、近似高斯分布，與 {-1, +1} 二值碼本天然不匹配，直接二值化會引入嚴重誤差；同時，激活分布存在顯著重尾與極端離群值，在低比特量化時會造成嚴重數(shù)值失真。這兩個問題使得已有方法難以在保持模型精度的同時實現(xiàn)真正的W1AX量化。

BWLA以“權(quán)重雙峰化、激活去離群、低開銷部署”為核心目標，構(gòu)建了一個無需微調(diào)、面向端側(cè)推理友好的統(tǒng)一后訓(xùn)練量化框架，主要包含兩大核心創(chuàng)新：

核心創(chuàng)新一：正交Kronecker變換（Orthogonal-Kronecker Transformation, OKT）。OKT通過學(xué)習(xí)嚴格正交的Kronecker結(jié)構(gòu)變換，將原本單峰的權(quán)重分布顯式重塑為更適合二值碼本的對稱雙峰分布，從而降低權(quán)重二值化誤差。與普通稠密正交矩陣相比，OKT將大矩陣分解為兩個小型正交矩陣的Kronecker積，在保持正交可逆性的同時，大幅降低計算與存儲開銷。由于正交變換滿足逆矩陣等于轉(zhuǎn)置矩陣，OKT可以在保持前向計算等價性的前提下作用于激活空間，有效打散激活相干性并抑制重尾離群值，為低比特激活量化創(chuàng)造更穩(wěn)定的數(shù)值條件。

核心創(chuàng)新二：近端SVD投影（Proximal SVD Projection, PSP）。在OKT 完成全局分布對齊后，仍可能存在部分結(jié)構(gòu)化殘差不利于二值化。PSP進一步引入輕量級低秩殘差修正，通過近端優(yōu)化與截斷SVD投影吸收殘余離群成分，使變換后的權(quán)重分布更加接近對稱雙峰結(jié)構(gòu)。該模塊僅帶來極小的額外參數(shù)開銷，卻能進一步增強權(quán)重量化可分性與模型穩(wěn)定性，與OKT形成互補：OKT負責(zé)全局分布重塑與激活平滑，PSP負責(zé)局部殘差校正與量化誤差細化補償。

實驗表明，BWLA在多個主流LLM家族上均顯著優(yōu)于現(xiàn)有二值化與低比特量化方法。在Qwen3-32B上，BWLA在6-bit激活量化下的WikiText2困惑度達到11.92，顯著優(yōu)于現(xiàn)有SOTA方法約38的結(jié)果；在五個zero-shot任務(wù)上，BWLA相比已有方法帶來超過70%的性能提升，并實現(xiàn)3.26×的推理加速，展示出強大的實際部署潛力。相比W4A4量化方法，BWLA也能取得更高吞吐，體現(xiàn)出1-bit權(quán)重在訪存受限推理場景中的突出優(yōu)勢。

總體而言，BWLA首次在純后訓(xùn)練量化框架下打通了1-bit權(quán)重 + 低比特激活的高精度壓縮路徑，解決了傳統(tǒng)二值化方法無法處理激活重尾、難以端到端加速的核心難題。該方法為LLMs在車載、嵌入式、移動終端和邊緣設(shè)備等資源受限場景中的高效部署提供了關(guān)鍵技術(shù)支撐，也進一步完善了后摩智能在端側(cè)AI 芯片與大模型壓縮算法協(xié)同優(yōu)化方向的技術(shù)布局。

文章鏈接：https://arxiv.org/abs/2605.00422

02【ICML-2026】TWLA：突破W1.58A4后訓(xùn)練量化瓶頸，推動三值化大模型邁向端側(cè)高效推理

繼在大模型壓縮、低比特量化與端側(cè)部署方向持續(xù)取得突破后，后摩智能芯片算法團隊進一步提出TWLA（Ternarized Weights and Low-bit Activations），面向大語言模型在資源受限場景中的高效部署需求，系統(tǒng)解決三值化權(quán)重與低比特激活聯(lián)合量化中的精度坍塌問題。該方法在無需重訓(xùn)練的后訓(xùn)練量化框架下，實現(xiàn)1.58-bit權(quán)重壓縮與4-bit激活量化，在顯著降低模型存儲與推理成本的同時，保持了強大的模型精度與任務(wù)泛化能力。

隨著大語言模型參數(shù)規(guī)模不斷增長，模型推理對顯存容量、訪存帶寬和計算資源提出了極高要求。三值化作為一種極具潛力的極低比特壓縮技術(shù)，將權(quán)重約束到{-1, 0, +1}，相比二值化具備更強的表達能力，同時仍能顯著減少乘法計算和模型存儲開銷。然而，現(xiàn)有三值化方法大多停留在權(quán)重量化層面，通常保留高精度激活以避免精度損失，導(dǎo)致推理過程中仍需進行權(quán)重反量化，難以真正釋放低比特計算帶來的端到端加速潛力。更具挑戰(zhàn)的是，在W1.58A4這一極限壓縮配置下，大模型同時面臨三類關(guān)鍵瓶頸：第一，預(yù)訓(xùn)練權(quán)重通常呈單峰近高斯分布，與三值碼本天然不匹配，直接三值化會造成較大投影誤差；第二，激活分布存在顯著重尾和極端離群值，4-bit激活量化極易引發(fā)數(shù)值失真；第三，不同層在低比特激活量化下的敏感性差異明顯，少數(shù)“薄弱層”可能觸發(fā)誤差級聯(lián)，導(dǎo)致整體性能快速下降。TWLA正是圍繞這些問題構(gòu)建了一個完整的三值權(quán)重與低比特激活協(xié)同優(yōu)化框架。

TWLA以“精準三值化、分布重塑、層間協(xié)同分配”為核心思路，設(shè)計了三個相互配合的關(guān)鍵模塊：

核心創(chuàng)新一：歐氏到流形的非對稱三值量化器（E2M-ATQ）。針對預(yù)訓(xùn)練權(quán)重存在非零均值、直接對稱三值化難以準確擬合的問題，TWLA提出 Euclidean-to-Manifold Asymmetric Ternary Quantizer。該模塊首先在歐氏權(quán)重空間中進行穩(wěn)定初始化，獲得可靠的三值模式；隨后固定三值結(jié)構(gòu)，在由校準激活二階統(tǒng)計量定義的度量空間中重新定位行級偏移與縮放參數(shù)，使量化權(quán)重不僅在數(shù)值上接近原始權(quán)重，更能在層輸出層面對齊浮點模型。相比單純最小化權(quán)重重構(gòu)誤差，E2M-ATQ更關(guān)注實際前向輸出誤差，從而顯著提升三值化后的可校準性和模型穩(wěn)定性。

核心創(chuàng)新二：Kronecker正交三峰分布塑形（KOTMS）。為了從根源上緩解權(quán)重分布與三值碼本之間的不匹配，TWLA進一步提出Kronecker Orthogonal Tri-Modal Shaping。KOTMS通過輕量級Kronecker結(jié)構(gòu)正交變換，將原本單峰的權(quán)重分布重塑為更適合{-1, 0, +1}三值碼本的對稱三峰分布，使權(quán)重在量化前就具備更好的三值可分性。與直接學(xué)習(xí)大規(guī)模輔助矩陣不同，KOTMS將正交矩陣拆解為兩個小型Kronecker因子，在保持嚴格可逆和前向等價的同時，大幅降低額外計算與存儲開銷。同時，該正交變換也會對激活進行共享混合，從統(tǒng)計上削弱激活相干性與重尾離群值，為4-bit激活量化提供更平滑的動態(tài)范圍。

核心創(chuàng)新三：層間感知激活混合精度分配（ILA-AMP）。與傳統(tǒng)混合精度量化方法不同，TWLA并不簡單地將每一層視為獨立對象，而是顯式建模相鄰層之間的誤差傳播。由于激活量化會改變當前層輸出分布，并進一步影響下一層輸入統(tǒng)計，低比特量化誤差往往具有明顯的層間耦合效應(yīng)。ILA-AMP將單層敏感性損失與相鄰層二階交互損失統(tǒng)一到一個動態(tài)規(guī)劃友好的目標函數(shù)中，在全局比特預(yù)算約束下，為不同層分配合適的激活精度。該設(shè)計能夠識別并保護對 4-bit激活量化更敏感的關(guān)鍵層，避免少數(shù)薄弱層引發(fā)全模型性能坍塌。

實驗結(jié)果表明，TWLA在LLaMA與Qwen3系列模型上均顯著優(yōu)于現(xiàn)有2-bit 和 sub-2-bit后訓(xùn)練量化方法。在A16設(shè)置下，TWLA以更低的1.58-bit權(quán)重精度取得了優(yōu)于GPTQ、QuaRot、SliM-LLM、PB-LLM和PT2-LLM的性能。例如在LLaMA3-8B上，TWLA將seven zero-shot平均準確率提升至62.98%，同時將WikiText2困惑度降低至9.39，相比PT2-LLM展現(xiàn)出明顯優(yōu)勢。在更具挑戰(zhàn)性的W1.58A4設(shè)置下，已有方法普遍出現(xiàn)困惑度爆炸和任務(wù)精度坍塌，而TWLA仍能保持穩(wěn)定表現(xiàn)。以LLaMA2-70B為例，TWLA在4-bit激活量化下達到71.10%的seven zero-shot平均準確率，超過FP16模型性能的92%，同時顯著降低模型內(nèi)存開銷。相比同樣關(guān)注激活混合精度的ResQ，TWLA在精度和壓縮率上均展現(xiàn)出更強的綜合優(yōu)勢。

總體來看，TWLA將三值化大模型從“權(quán)重壓縮”進一步推進到“權(quán)重—激活聯(lián)合低比特推理”的新階段。通過E2M-ATQ提升三值參數(shù)校準能力，通過KOTMS 重塑權(quán)重與激活分布，通過ILA-AMP控制低比特激活下的層間誤差傳播，TWLA在W1.58A4這一極具挑戰(zhàn)性的配置下實現(xiàn)了高精度、低內(nèi)存與高吞吐的統(tǒng)一。該成果為大語言模型在車載、邊緣設(shè)備、嵌入式終端和隱私敏感型本地推理場景中的規(guī)?；渴鹛峁┝岁P(guān)鍵技術(shù)支撐，也進一步豐富了后摩智能在端側(cè) AI 芯片與低比特算法協(xié)同設(shè)計方向的技術(shù)體系。

文章鏈接：https://icml.cc/virtual/2026/poster/61264

03【ICML-2026】DLLMQuant：面向擴散大語言模型的專屬后訓(xùn)練量化框架

繼在低比特量化與端側(cè)部署方向持續(xù)突破后，后摩智能芯片算法團隊進一步提出DLLMQuant，面向基于擴散的大語言模型（DLLM）的獨特生成機制，系統(tǒng)性解決傳統(tǒng)后訓(xùn)練量化（PTQ）方法在該類模型上精度坍塌的問題，實現(xiàn)高效、無損的模型壓縮與推理加速。

隨著大語言模型技術(shù)的演進，擴散式大語言模型（DLLM）憑借其非自回歸并行生成的優(yōu)勢，在文本生成、代碼補全與復(fù)雜推理任務(wù)中展現(xiàn)出巨大潛力。然而，其龐大的模型規(guī)模、高昂的推理成本，以及迭代生成過程中獨特的動態(tài)掩碼機制，為其規(guī)?；渴饚砹藝谰魬?zhàn)。后訓(xùn)練量化（PTQ）作為大模型部署的關(guān)鍵技術(shù)，在標準自回歸大模型上已被證明行之有效，但直接應(yīng)用于DLLM時，會出現(xiàn)嚴重的精度損失，例如在W4A4配置下，AWQ、GPTQ等主流方法在LLADA模型上的精度暴跌超過16%，甚至引發(fā)困惑度爆炸。

深入分析發(fā)現(xiàn)，傳統(tǒng)PTQ方法失效的根源，在于其設(shè)計與DLLM的核心特性存在三重不匹配：DLLM的生成過程是多步迭代的，不同解碼步的令牌掩碼比例和激活分布持續(xù)變化，靜態(tài)的校準數(shù)據(jù)無法覆蓋完整的分布空間；量化誤差并非一次性的，而是會隨著迭代解碼過程不斷放大，形成級聯(lián)效應(yīng)，導(dǎo)致模型性能隨解碼步數(shù)增加持續(xù)惡化；模型中同時存在已解掩碼的確定性令牌與待預(yù)測的掩碼令牌，特征分布呈現(xiàn)多峰、混雜狀態(tài)，不適用于常規(guī)的PTQ誤差優(yōu)化策略。這些不匹配共同導(dǎo)致現(xiàn)有量化方案難以適配DLLM的運行機理，進而出現(xiàn)顯著的精度下降。

DLLMQuant正是圍繞這些核心痛點，構(gòu)建了一套完整的、專為DLLM設(shè)計的量化優(yōu)化框架。

核心創(chuàng)新一：時間-掩碼自適應(yīng)采樣（TMAS）。針對DLLM在不同解碼步與掩碼比例下的分布漂移問題，DLLMQuant提出了Temporal-Mask Adaptive Sampling (TMAS)。該方法打破了傳統(tǒng)校準數(shù)據(jù)靜態(tài)采樣的局限，設(shè)計了一種兼顧時間步與掩碼比例的動態(tài)校準策略。通過在不同解碼階段、不同掩碼比例下采集校準數(shù)據(jù)，構(gòu)建覆蓋完整生成過程的動態(tài)分布圖譜，使量化器能夠精準捕捉模型在整個推理流程中的統(tǒng)計特征，為后續(xù)的權(quán)重與激活量化提供可靠的分布依據(jù)。

核心創(chuàng)新二：交互感知激活量化（IA-AQ）。為了從根源上抑制量化誤差在迭代生成中的累積與傳播，DLLMQuant提出了Interaction-Aware Activation Quantization (IA-AQ)。該模塊聚焦于DLLM中誤差最敏感的注意力機制，通過分析注意力權(quán)重與令牌交互模式，識別出對最終結(jié)果影響最大的關(guān)鍵令牌區(qū)域。在激活量化過程中，對這些關(guān)鍵區(qū)域施加更嚴格的誤差約束，優(yōu)先降低其量化噪聲，從而打破誤差傳播鏈，避免少數(shù)薄弱層引發(fā)全模型性能坍塌。

核心創(chuàng)新三：確定性引導(dǎo)量化（CGQ）。針對DLLM中確定性與概率性令牌混雜的分布特性，DLLMQuant提出了Certainty-Guided Quantization (CGQ)。該方法以令牌的掩碼狀態(tài)與置信度為核心，構(gòu)建了一個動態(tài)誤差加權(quán)機制。對于高置信度的已解碼令牌，優(yōu)先保證其量化精度；對于低置信度的掩碼令牌，則在可接受的誤差范圍內(nèi)進行壓縮。通過這種方式，將有限的比特預(yù)算精準分配給最關(guān)鍵的令牌，使量化優(yōu)化目標與DLLM的生成邏輯深度對齊，顯著提升了量化后模型的整體穩(wěn)定性。

實驗結(jié)果表明，DLLMQuant在LLaDA、LLADA-1.5與DREAM等主流DLLM 模型上，均顯著優(yōu)于RTN、AWQ、GPTQ與QuaRot等傳統(tǒng)量化方法。在極具挑戰(zhàn)性的W4A4配置下，DLLMQuant在LLaDA-8B模型的GSM8K數(shù)學(xué)推理任務(wù)上，實現(xiàn)了超過10個百分點的精度提升，同時帶來了約1.6倍的推理加速與 3.2倍的內(nèi)存節(jié)省。在涵蓋文本生成、代碼補全與常識推理的9項基準任務(wù)中，DLLMQuant均實現(xiàn)了平均超過2%的性能提升，且在長文本生成任務(wù)上展現(xiàn)出更強的穩(wěn)定性，驗證了其方法的通用性與有效性。

總體來看，DLLMQuant將大模型后訓(xùn)練量化技術(shù)，從 “自回歸模型” 成功拓展到 “擴散式模型” 這一全新領(lǐng)域。通過TMAS、IA-AQ與CGQ三大核心技術(shù)，系統(tǒng)性解決了動態(tài)分布漂移、誤差累積傳播與令牌狀態(tài)混雜三大難題，在4比特極限量化下實現(xiàn)了高精度、低內(nèi)存與高吞吐的統(tǒng)一。該成果為基于擴散的大語言模型在邊緣設(shè)備、嵌入式終端與隱私敏感場景中的規(guī)?；渴?，提供了關(guān)鍵技術(shù)支撐，也進一步豐富了后摩智能在端側(cè)AI芯片與低比特算法協(xié)同設(shè)計方向的技術(shù)體系。

文章鏈接：https://icml.cc/virtual/2026/poster/61264

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴