在线人妻少妇视频,99热这里免费精品

電子發(fā)燒友網(wǎng)報(bào)道（文/梁浩斌）又一“Deepseek時(shí)刻”來了？谷歌在3月24日發(fā)布了一項(xiàng)名為TurboQuant的先進(jìn)向量量化壓縮算法，旨在解決大語言模型和向量搜索引擎中的內(nèi)存瓶頸問題，令KV Cache內(nèi)存占用降低至原來的1/6且?guī)缀鯚o精度損失。

隨后在當(dāng)?shù)貢r(shí)間3月25日，美光科技開盤最高跌幅超6%，收盤跌3.4%，四天累計(jì)跌幅超過13%；閃迪當(dāng)天收跌3.5%；3月26日三星電子跌近5%，SK海力士跌超6%。

而這一輪存儲(chǔ)股價(jià)下跌，谷歌近期推出的TurboQuant可能就是主因。

TurboQuant如何降低AI對(duì)內(nèi)存的需求？

根據(jù)Google Research在官網(wǎng)發(fā)布的技術(shù)資料，TurboQuant是通過解決高維向量處理中的內(nèi)存瓶頸，在不損失精度的前提下，提升大語言模型和向量搜索引擎的效率，讓大型AI系統(tǒng)運(yùn)行得更快、更省錢。

在計(jì)算力領(lǐng)域中，“量化”通常是指數(shù)據(jù)從高精度轉(zhuǎn)換為低精度的過程，其核心目的在于通過犧牲極微小的數(shù)值精度，換取顯著的存儲(chǔ)空間節(jié)省與計(jì)算效率提升。低精度意味著對(duì)內(nèi)存占用空間更小，以節(jié)省GPU以及AI芯片上DRAM（主要是HBM）用量。

舉個(gè)例子，比如一張照片中可能有數(shù)百萬種顏色，如果要完整記錄下來，每一種顏色都需要用不同的數(shù)字來記錄下來，那么這就會(huì)產(chǎn)生大量數(shù)據(jù)，非常占內(nèi)存。那么經(jīng)過量化后，可以指定這張照片只能使用16種顏色，此前的數(shù)百萬種顏色各自取這16種顏色中最接近的一種來進(jìn)行存儲(chǔ)，盡管丟失了顏色精度，但圖片依然保留了大致的畫面信息，同時(shí)圖片體積也大幅縮小。

而在大語言模型中，在對(duì)話過程中，模型推理產(chǎn)生的對(duì)話記憶則存儲(chǔ)在KV Cache中。雖然 KV Cache 極大地加快了生成速度，但它帶來了嚴(yán)重的內(nèi)存挑戰(zhàn)，KV Cache的大小隨著對(duì)話長(zhǎng)度線性增長(zhǎng)，對(duì)話越長(zhǎng)，占用的顯存就越多。

這也是很多模型有所謂的“上下文限制”的原因，限制的背后是顯存不夠用了。因此一般也會(huì)用到量化的方式對(duì)KV Cache進(jìn)行壓縮，比如從FP16（16位浮點(diǎn)數(shù)）的精度壓縮到INT4（4位整數(shù)）。

那么TurboQuant，實(shí)際上就是針對(duì)這里的KV Cache進(jìn)行了極致壓縮。傳統(tǒng)的量化技術(shù)雖然能減少數(shù)據(jù)大小，但往往需要為每個(gè)小數(shù)據(jù)塊計(jì)算并存儲(chǔ)額外的“量化常數(shù)”（如縮放因子），這會(huì)產(chǎn)生額外的內(nèi)存開銷，抵消了量化帶來的好處。就好比你創(chuàng)造了一種暗號(hào)，那么為了讀懂這個(gè)暗號(hào)，還需要一個(gè)對(duì)照表來進(jìn)行解密，同時(shí)就需要額外的存儲(chǔ)空間去收納這個(gè)對(duì)照表。

TurboQuant解決的其中一個(gè)問題就是“對(duì)照表”帶來的額外內(nèi)存開銷。TurboQuant利用PolarQuant技術(shù)，改變了傳統(tǒng)的笛卡爾坐標(biāo)（X, Y, Z）視角，將向量轉(zhuǎn)換為極坐標(biāo)（半徑和角度）。由于角度分布在數(shù)學(xué)上是可預(yù)測(cè)且集中的，更適合數(shù)據(jù)壓縮，模型不再需要存儲(chǔ)昂貴的數(shù)據(jù)歸一化參數(shù)，從而消除了內(nèi)存開銷。

另外一項(xiàng)核心的技術(shù)是QJL（Quantized Johnson-Lindenstrauss），這是一種基于Johnson-Lindenstrauss 變換的壓縮方式。將向量壓縮到僅用符號(hào)位（+1 或 -1）的1-bit表示，同時(shí)保留向量間的距離關(guān)系。通過一個(gè)專門的估計(jì)器來準(zhǔn)確計(jì)算注意力分?jǐn)?shù)，并用極少的 1-bit殘差壓縮消除隱藏誤差，實(shí)現(xiàn)零內(nèi)存開銷的壓縮。

最終，評(píng)估結(jié)果顯示，通過TurboQuant可以將LLM的 KV cache 壓縮到3-bit，內(nèi)存占用至少減少6倍，而模型準(zhǔn)確性零損失。

在4-bit模式下，在英偉達(dá)H100 GPU上，注意力logit 計(jì)算速度可比32-bit未量化版本快8倍，整體推理速度也比原始模型更快。

在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval等長(zhǎng)文本基準(zhǔn)測(cè)試中，表現(xiàn)接近無損。在相同的內(nèi)存占用下，向量搜索的召回率（recall）也優(yōu)于傳統(tǒng)方法如 PQ、KIVI 等。

值得一提的是，Google Research表示，它可以直接應(yīng)用到現(xiàn)有的開源模型中，不需要重新訓(xùn)練或微調(diào)。這項(xiàng)技術(shù)也非常適用于邊緣AI設(shè)備，包括智能手機(jī)等DRAM有限的設(shè)備中高效運(yùn)行LLM；同時(shí)能夠大幅提升LLM的長(zhǎng)上下文能力，讓LLM擁有更長(zhǎng)久的記憶。

總體來說，TurboQuant有望推動(dòng)LLM在更多智能硬件上的部署和應(yīng)用，助力AI硬件的創(chuàng)新。

又一個(gè)“deepseek時(shí)刻”？

對(duì)于內(nèi)存開銷需求的大幅降低，很容易讓人將TurboQuant與2025年初Deepseek R1的發(fā)布聯(lián)想起來。因?yàn)镈eepseek R1的目標(biāo)同樣是在更少的硬件資源下保證LLM的高性能，通過引入MLA架構(gòu)和優(yōu)化訓(xùn)練策略等創(chuàng)新降低了算力硬件上的需求；TurboQuant則同樣是通過極致的壓縮算法來減少緩存，降低了對(duì)內(nèi)存的需求。

但另一方面，從deepseek R1推出一年后的今天來看，實(shí)際上這種提高硬件利用效率的技術(shù)，并不意味著算力硬件就不再重要。反而這些技術(shù)是更多推動(dòng)了應(yīng)用層面的落地，硬件利用率高意味著LLM的訓(xùn)練和推理成本降低，能夠吸引更多應(yīng)用端的開發(fā)和商業(yè)落地。

實(shí)際上，存儲(chǔ)需求確實(shí)仍在不斷高漲，產(chǎn)能擴(kuò)張也在持續(xù)加速。韓國(guó)金融監(jiān)督院近日披露，三星和SK海力士?jī)纱蟠鎯?chǔ)巨頭在中國(guó)投資總額超過1.5萬億韓元，同比大幅增長(zhǎng)。

2025年，三星電子在西安工廠投資4654億韓元用于擴(kuò)產(chǎn)，這一數(shù)字相比2024年大幅增長(zhǎng)67.5%。西安工廠是三星電子在海外的唯一NAND Flash生產(chǎn)基地，產(chǎn)量約占三星總產(chǎn)量的40%左右。

據(jù)了解，自2020年開始到2023年，三星電子都沒有對(duì)西安工廠進(jìn)行任何大規(guī)模投資，但從2024年恢復(fù)了投資計(jì)劃，開始升級(jí)產(chǎn)線擴(kuò)大產(chǎn)能。三星電子目前計(jì)劃將其西安NAND芯片廠的制造工藝從128層（第六代）升級(jí)為236層（第八代）。

有韓國(guó)官員稱，為了防止國(guó)家核心技術(shù)的泄露，海外工廠與韓國(guó)工廠在技術(shù)發(fā)展上會(huì)保持大約兩代產(chǎn)品的差距?！坝捎谌怯?jì)劃在今年在韓國(guó)生產(chǎn)第4代（10代）NAND產(chǎn)品，因此中國(guó)工廠向第8代技術(shù)升級(jí)的進(jìn)程很可能會(huì)加快?！?br />
而SK海力士2025年在無錫DRAM工廠和大連NAND Flash工廠共投入了超過1萬億韓元，其中無錫的DRAM工廠上的投資達(dá)到了5810億韓元，比2024年的2873億韓元增加了102%；而在大連的NAND閃存工廠上的投資則為4406億韓元，同比增長(zhǎng)了52%。這是自2022年SK海力士收購(gòu)英特爾在大連的NAND閃存工廠以來，該公司首次在中國(guó)工廠上進(jìn)行規(guī)模達(dá)萬億韓元的投資。

類似地，SK海力士也將其位于無錫的工廠中DRAM的生產(chǎn)工藝從10納米級(jí)的第三代（1z）工藝升級(jí)到了第四代（1a）工藝，未來可以大規(guī)模生產(chǎn)DDR5內(nèi)存芯片。

因此，從存儲(chǔ)廠商的擴(kuò)產(chǎn)動(dòng)作來看，存儲(chǔ)需求并不會(huì)因?yàn)長(zhǎng)LM算法和架構(gòu)的迭代而有所降低，反之，算法和架構(gòu)層面的創(chuàng)新，將幫助LLM的使用成本降低，從而加速在更多領(lǐng)域中的應(yīng)用落地。

小結(jié)：

過去存儲(chǔ)和算力是端側(cè)AI硬件落地的最大門檻之一，在先進(jìn)制程進(jìn)入2nm時(shí)代后，內(nèi)存成為了端側(cè)AI的顯著障礙，因此能降低內(nèi)存需求的TurboQuant對(duì)于端側(cè)AI硬件的意義更為重大。歷史表明，算法效率提升往往能夠降低應(yīng)用門檻，刺激需求增長(zhǎng)而非抑制硬件需求，未來存儲(chǔ)產(chǎn)業(yè)在AI效率革命與應(yīng)用爆發(fā)的雙輪驅(qū)動(dòng)下，也將繼續(xù)狂飆。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6259

瀏覽量
111996
AI

AI

+關(guān)注

關(guān)注
91

文章
41315

瀏覽量
302688
存儲(chǔ)芯片

存儲(chǔ)芯片

+關(guān)注

關(guān)注
11

文章
1061

瀏覽量
44873

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

存儲(chǔ)芯片閃崩！谷歌發(fā)布新算法，AI內(nèi)存占用只需原來1/6？

評(píng)論

搜索歷史

存儲(chǔ)芯片閃崩！谷歌發(fā)布新算法，AI內(nèi)存占用只需原來1/6？

評(píng)論

存儲(chǔ)芯片閃崩！谷歌發(fā)布新算法，AI內(nèi)存占用只需原來1/6？