日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

存儲(chǔ)芯片閃崩!谷歌發(fā)布新算法,AI內(nèi)存占用只需原來1/6?

Hobby觀察 ? 來源:電子發(fā)燒友網(wǎng) ? 作者:梁浩斌 ? 2026-03-27 13:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)又一“Deepseek時(shí)刻”來了?谷歌在3月24日發(fā)布了一項(xiàng)名為TurboQuant的先進(jìn)向量量化壓縮算法,旨在解決大語言模型和向量搜索引擎中的內(nèi)存瓶頸問題,令KV Cache內(nèi)存占用降低至原來的1/6且?guī)缀鯚o精度損失。

隨后在當(dāng)?shù)貢r(shí)間3月25日,美光科技開盤最高跌幅超6%,收盤跌3.4%,四天累計(jì)跌幅超過13%;閃迪當(dāng)天收跌3.5%;3月26日三星電子跌近5%,SK海力士跌超6%。

而這一輪存儲(chǔ)股價(jià)下跌,谷歌近期推出的TurboQuant可能就是主因。

TurboQuant如何降低AI對(duì)內(nèi)存的需求?

根據(jù)Google Research在官網(wǎng)發(fā)布的技術(shù)資料,TurboQuant是通過解決高維向量處理中的內(nèi)存瓶頸,在不損失精度的前提下,提升大語言模型和向量搜索引擎的效率,讓大型AI系統(tǒng)運(yùn)行得更快、更省錢。

在計(jì)算力領(lǐng)域中,“量化”通常是指數(shù)據(jù)從高精度轉(zhuǎn)換為低精度的過程,其核心目的在于通過犧牲極微小的數(shù)值精度,換取顯著的存儲(chǔ)空間節(jié)省與計(jì)算效率提升。低精度意味著對(duì)內(nèi)存占用空間更小,以節(jié)省GPU以及AI芯片上DRAM(主要是HBM)用量。

舉個(gè)例子,比如一張照片中可能有數(shù)百萬種顏色,如果要完整記錄下來,每一種顏色都需要用不同的數(shù)字來記錄下來,那么這就會(huì)產(chǎn)生大量數(shù)據(jù),非常占內(nèi)存。那么經(jīng)過量化后,可以指定這張照片只能使用16種顏色,此前的數(shù)百萬種顏色各自取這16種顏色中最接近的一種來進(jìn)行存儲(chǔ),盡管丟失了顏色精度,但圖片依然保留了大致的畫面信息,同時(shí)圖片體積也大幅縮小。

而在大語言模型中,在對(duì)話過程中,模型推理產(chǎn)生的對(duì)話記憶則存儲(chǔ)在KV Cache中。雖然 KV Cache 極大地加快了生成速度,但它帶來了嚴(yán)重的內(nèi)存挑戰(zhàn),KV Cache的大小隨著對(duì)話長(zhǎng)度線性增長(zhǎng),對(duì)話越長(zhǎng),占用的顯存就越多。

這也是很多模型有所謂的“上下文限制”的原因,限制的背后是顯存不夠用了。因此一般也會(huì)用到量化的方式對(duì)KV Cache進(jìn)行壓縮,比如從FP16(16位浮點(diǎn)數(shù))的精度壓縮到INT4(4位整數(shù))。

那么TurboQuant,實(shí)際上就是針對(duì)這里的KV Cache進(jìn)行了極致壓縮。傳統(tǒng)的量化技術(shù)雖然能減少數(shù)據(jù)大小,但往往需要為每個(gè)小數(shù)據(jù)塊計(jì)算并存儲(chǔ)額外的“量化常數(shù)”(如縮放因子),這會(huì)產(chǎn)生額外的內(nèi)存開銷,抵消了量化帶來的好處。就好比你創(chuàng)造了一種暗號(hào),那么為了讀懂這個(gè)暗號(hào),還需要一個(gè)對(duì)照表來進(jìn)行解密,同時(shí)就需要額外的存儲(chǔ)空間去收納這個(gè)對(duì)照表。

TurboQuant解決的其中一個(gè)問題就是“對(duì)照表”帶來的額外內(nèi)存開銷。TurboQuant利用PolarQuant技術(shù),改變了傳統(tǒng)的笛卡爾坐標(biāo)(X, Y, Z)視角,將向量轉(zhuǎn)換為極坐標(biāo)(半徑和角度)。由于角度分布在數(shù)學(xué)上是可預(yù)測(cè)且集中的,更適合數(shù)據(jù)壓縮,模型不再需要存儲(chǔ)昂貴的數(shù)據(jù)歸一化參數(shù),從而消除了內(nèi)存開銷。

另外一項(xiàng)核心的技術(shù)是QJL(Quantized Johnson-Lindenstrauss),這是一種基于Johnson-Lindenstrauss 變換的壓縮方式。將向量壓縮到僅用符號(hào)位(+1 或 -1)的1-bit表示,同時(shí)保留向量間的距離關(guān)系。通過一個(gè)專門的估計(jì)器來準(zhǔn)確計(jì)算注意力分?jǐn)?shù),并用極少的 1-bit殘差壓縮消除隱藏誤差,實(shí)現(xiàn)零內(nèi)存開銷的壓縮。

最終,評(píng)估結(jié)果顯示,通過TurboQuant可以將LLM的 KV cache 壓縮到3-bit,內(nèi)存占用至少減少6倍,而模型準(zhǔn)確性零損失。

在4-bit模式下,在英偉達(dá)H100 GPU上,注意力logit 計(jì)算速度可比32-bit未量化版本快8倍,整體推理速度也比原始模型更快。

在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval等長(zhǎng)文本基準(zhǔn)測(cè)試中,表現(xiàn)接近無損。在相同的內(nèi)存占用下,向量搜索的召回率(recall)也優(yōu)于傳統(tǒng)方法如 PQ、KIVI 等。

值得一提的是,Google Research表示,它可以直接應(yīng)用到現(xiàn)有的開源模型中,不需要重新訓(xùn)練或微調(diào)。這項(xiàng)技術(shù)也非常適用于邊緣AI設(shè)備,包括智能手機(jī)等DRAM有限的設(shè)備中高效運(yùn)行LLM;同時(shí)能夠大幅提升LLM的長(zhǎng)上下文能力,讓LLM擁有更長(zhǎng)久的記憶。

總體來說,TurboQuant有望推動(dòng)LLM在更多智能硬件上的部署和應(yīng)用,助力AI硬件的創(chuàng)新。

又一個(gè)“deepseek時(shí)刻”?

對(duì)于內(nèi)存開銷需求的大幅降低,很容易讓人將TurboQuant與2025年初Deepseek R1的發(fā)布聯(lián)想起來。因?yàn)镈eepseek R1的目標(biāo)同樣是在更少的硬件資源下保證LLM的高性能,通過引入MLA架構(gòu)和優(yōu)化訓(xùn)練策略等創(chuàng)新降低了算力硬件上的需求;TurboQuant則同樣是通過極致的壓縮算法來減少緩存,降低了對(duì)內(nèi)存的需求。

但另一方面,從deepseek R1推出一年后的今天來看,實(shí)際上這種提高硬件利用效率的技術(shù),并不意味著算力硬件就不再重要。反而這些技術(shù)是更多推動(dòng)了應(yīng)用層面的落地,硬件利用率高意味著LLM的訓(xùn)練和推理成本降低,能夠吸引更多應(yīng)用端的開發(fā)和商業(yè)落地。

實(shí)際上,存儲(chǔ)需求確實(shí)仍在不斷高漲,產(chǎn)能擴(kuò)張也在持續(xù)加速。韓國(guó)金融監(jiān)督院近日披露,三星和SK海力士?jī)纱蟠鎯?chǔ)巨頭在中國(guó)投資總額超過1.5萬億韓元,同比大幅增長(zhǎng)。

2025年,三星電子在西安工廠投資4654億韓元用于擴(kuò)產(chǎn),這一數(shù)字相比2024年大幅增長(zhǎng)67.5%。西安工廠是三星電子在海外的唯一NAND Flash生產(chǎn)基地,產(chǎn)量約占三星總產(chǎn)量的40%左右。

據(jù)了解,自2020年開始到2023年,三星電子都沒有對(duì)西安工廠進(jìn)行任何大規(guī)模投資,但從2024年恢復(fù)了投資計(jì)劃,開始升級(jí)產(chǎn)線擴(kuò)大產(chǎn)能。三星電子目前計(jì)劃將其西安NAND芯片廠的制造工藝從128層(第六代)升級(jí)為236層(第八代)。

有韓國(guó)官員稱,為了防止國(guó)家核心技術(shù)的泄露,海外工廠與韓國(guó)工廠在技術(shù)發(fā)展上會(huì)保持大約兩代產(chǎn)品的差距?!坝捎谌怯?jì)劃在今年在韓國(guó)生產(chǎn)第4代(10代)NAND產(chǎn)品,因此中國(guó)工廠向第8代技術(shù)升級(jí)的進(jìn)程很可能會(huì)加快?!?br />
而SK海力士2025年在無錫DRAM工廠和大連NAND Flash工廠共投入了超過1萬億韓元,其中無錫的DRAM工廠上的投資達(dá)到了5810億韓元,比2024年的2873億韓元增加了102%;而在大連的NAND閃存工廠上的投資則為4406億韓元,同比增長(zhǎng)了52%。這是自2022年SK海力士收購(gòu)英特爾在大連的NAND閃存工廠以來,該公司首次在中國(guó)工廠上進(jìn)行規(guī)模達(dá)萬億韓元的投資。

類似地,SK海力士也將其位于無錫的工廠中DRAM的生產(chǎn)工藝從10納米級(jí)的第三代(1z)工藝升級(jí)到了第四代(1a)工藝,未來可以大規(guī)模生產(chǎn)DDR5內(nèi)存芯片。

因此,從存儲(chǔ)廠商的擴(kuò)產(chǎn)動(dòng)作來看,存儲(chǔ)需求并不會(huì)因?yàn)長(zhǎng)LM算法和架構(gòu)的迭代而有所降低,反之,算法和架構(gòu)層面的創(chuàng)新,將幫助LLM的使用成本降低,從而加速在更多領(lǐng)域中的應(yīng)用落地。

小結(jié):

過去存儲(chǔ)和算力是端側(cè)AI硬件落地的最大門檻之一,在先進(jìn)制程進(jìn)入2nm時(shí)代后,內(nèi)存成為了端側(cè)AI的顯著障礙,因此能降低內(nèi)存需求的TurboQuant對(duì)于端側(cè)AI硬件的意義更為重大。歷史表明,算法效率提升往往能夠降低應(yīng)用門檻,刺激需求增長(zhǎng)而非抑制硬件需求,未來存儲(chǔ)產(chǎn)業(yè)在AI效率革命與應(yīng)用爆發(fā)的雙輪驅(qū)動(dòng)下,也將繼續(xù)狂飆。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6259

    瀏覽量

    111996
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41315

    瀏覽量

    302688
  • 存儲(chǔ)芯片
    +關(guān)注

    關(guān)注

    11

    文章

    1061

    瀏覽量

    44873
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    漢思新材料:存儲(chǔ)芯片“高燒、震動(dòng)、掉速”?底部填充膠才是破局關(guān)鍵!

    最近存儲(chǔ)芯片火到出圈,不管是AI服務(wù)器的HBM高帶寬內(nèi)存、數(shù)據(jù)中心的企業(yè)級(jí)SSD,還是消費(fèi)電子的高密度閃存,都在往更高容量、更快速度、更小體積沖刺。但行業(yè)里藏著一個(gè)扎心真相:存儲(chǔ)芯片
    的頭像 發(fā)表于 04-17 15:43 ?411次閱讀
    漢思新材料:<b class='flag-5'>存儲(chǔ)芯片</b>“高燒、震動(dòng)、掉速”?底部填充膠才是破局關(guān)鍵!

    憶聯(lián)自研芯片以壓縮技術(shù)重塑KV Cache存儲(chǔ)效率

    2026年3月,谷歌研究院發(fā)布TurboQuant壓縮算法技術(shù),迅速在存儲(chǔ)AI基礎(chǔ)設(shè)施領(lǐng)域引發(fā)熱議。該
    的頭像 發(fā)表于 04-10 14:10 ?434次閱讀

    成都匯陽投資關(guān)于AI 算力引爆需求,存儲(chǔ)芯片漲價(jià)周期來襲

    AI 算力黑洞來襲 ,存儲(chǔ)需求呈爆炸式增長(zhǎng) AI算力基礎(chǔ)設(shè)施的爆發(fā)成為存儲(chǔ)芯片需求的核心驅(qū)動(dòng)力,單臺(tái) AI服務(wù)器 DRAM 用量是普通服務(wù)器
    的頭像 發(fā)表于 03-27 17:12 ?495次閱讀

    什么是DRAM存儲(chǔ)芯片

    在現(xiàn)代存儲(chǔ)芯片領(lǐng)域中,主要有兩大類型占據(jù)市場(chǎng)主導(dǎo):DRAM(動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)和NAND閃存。二者合計(jì)占據(jù)了全球存儲(chǔ)芯片市場(chǎng)的95%以上份額,其他存儲(chǔ)類型則多用于特定或輔助場(chǎng)景。
    的頭像 發(fā)表于 01-13 16:52 ?1865次閱讀

    剖析存儲(chǔ)芯片及技術(shù)在AI領(lǐng)域的應(yīng)用

    。在此背景下,深入理解驅(qū)動(dòng) AI 革命的存儲(chǔ)技術(shù)變得至關(guān)重要。本文將系統(tǒng)梳理與 AI 緊密相關(guān)的核心存儲(chǔ)芯片及技術(shù),剖析它們?nèi)绾卧诓煌瑘?chǎng)景下支撐起智能計(jì)算的海量數(shù)據(jù)需求。
    的頭像 發(fā)表于 12-29 15:24 ?3061次閱讀
    剖析<b class='flag-5'>存儲(chǔ)芯片</b>及技術(shù)在<b class='flag-5'>AI</b>領(lǐng)域的應(yīng)用

    近期熱瘋了都在收內(nèi)存芯片,囤存儲(chǔ)芯片風(fēng)險(xiǎn)點(diǎn)有這些?

    存儲(chǔ)芯片
    芯廣場(chǎng)
    發(fā)布于 :2025年11月28日 11:27:22

    存儲(chǔ)芯片(煥發(fā)生機(jī))

    ,都屬于集成電路里的核心成員。要是按“斷電后數(shù)據(jù)能不能留在器件里”來分,存儲(chǔ)芯片能分成易失性和非易失性兩種。易失性存儲(chǔ)芯片就像電腦的內(nèi)存(像SRAM、DRAM這類
    的頭像 發(fā)表于 11-17 16:35 ?3848次閱讀
    <b class='flag-5'>存儲(chǔ)芯片</b>(煥發(fā)生機(jī))

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    、現(xiàn)階段更智能、更接近AGI的6算法與模型 1、MoE模型 MoE模型作為Transfomer模型的后繼者,代表著AI技術(shù)的一項(xiàng)重大創(chuàng)新和發(fā)展。 優(yōu)勢(shì): 在于能處理龐大的參數(shù)規(guī)模,顯
    發(fā)表于 09-18 15:31

    半導(dǎo)體存儲(chǔ)芯片核心解析

    CPU、內(nèi)存和加速器,可能改變內(nèi)存池化、共享的架構(gòu)。 國(guó)產(chǎn)化:中國(guó)在存儲(chǔ)芯片領(lǐng)域(尤其是DRAM和NAND)投入巨大,長(zhǎng)江存儲(chǔ)(NAND)和長(zhǎng)鑫
    發(fā)表于 06-24 09:09

    請(qǐng)問STM32N6 cubeAI部署時(shí)用的內(nèi)存是在內(nèi)部還是外部?

    STM32N6用cube AI部署模型的時(shí)候,用n6-allmems-O3之后analyse得到了RAM和FLASH的內(nèi)存占用,這里展示的
    發(fā)表于 06-09 06:19

    劃片機(jī)在存儲(chǔ)芯片制造中的應(yīng)用

    劃片機(jī)(DicingSaw)在半導(dǎo)體制造中主要用于將晶圓切割成單個(gè)芯片(Die),這一過程在內(nèi)存儲(chǔ)存卡(如NAND閃存芯片、SSD、SD卡等)的生產(chǎn)中至關(guān)重要。以下是劃片機(jī)在存儲(chǔ)芯片
    的頭像 發(fā)表于 06-03 18:11 ?1601次閱讀
    劃片機(jī)在<b class='flag-5'>存儲(chǔ)芯片</b>制造中的應(yīng)用

    請(qǐng)問STM32N6 cubeAI部署時(shí)用的內(nèi)存是在內(nèi)部還是外部?

    STM32N6用cube AI部署模型的時(shí)候,用n6-allmems-O3之后analyse得到了RAM和FLASH的內(nèi)存占用,這里展示的
    發(fā)表于 06-03 12:13
    万山特区| 安岳县| 双柏县| 怀来县| 武夷山市| 肇州县| 梁平县| 永仁县| 鄂州市| 建昌县| 石阡县| 富锦市| 来宾市| 沐川县| 彭水| 镇原县| 成安县| 类乌齐县| 浮山县| 金坛市| 永嘉县| 乐都县| 阳新县| 青浦区| 湖北省| 岳池县| 安岳县| 罗江县| 南通市| 北宁市| 长春市| 浮山县| 黔西| 渝中区| 江永县| 长宁县| 阿克苏市| 宜兰县| 鹤岗市| 平顶山市| 杭锦旗|