你有沒有想過一個問題:
一塊價值幾十萬的AI加速卡,滿功耗跑著千億參數(shù)的大模型訓練,突然電網(wǎng)抖了一下,就抖了不到50毫秒——結(jié)果是什么?
不是“畫面卡了一下”。而是訓練進度條直接歸零,三天白干。
這不是危言聳聽。國內(nèi)某云廠商去年公開過一組數(shù)據(jù):訓練集群因供電質(zhì)量問題導致的任務(wù)中斷,平均每次造成約17小時的有效訓練時間損失。換算成算力成本,一臺千卡集群中斷一次的損失,夠買一輛豪華品牌的中型轎車。
我們今天就從這個角度展開,聊聊AI芯片到底有多“挑電”,以及為什么一顆不起眼的霍爾閉環(huán)電流傳感器,會成為這個鏈條里最后一道防線的關(guān)鍵節(jié)點。
一、AI芯片對電壓的容忍度,比你想象的苛刻得多
先說一個概念,在電源行業(yè)里叫“電壓紋波容忍度”。
普通家電,比如你家里的空調(diào)、冰箱,供電電壓在額定值上下浮動10%,基本不影響使用。服務(wù)器電源要求高一些,動態(tài)響應(yīng)要做到毫秒級。到了AI訓練芯片這個層面,事情完全不一樣了。
拿目前市面上主流的AI訓練卡舉例:
核心工作電壓只有0.8V到1.2V,有的先進封裝芯片甚至更低
單卡瞬時電流可以飆到幾千安,注意單位是“安”,不是“毫安”
電壓紋波必須控制在±1%以內(nèi),精密計算單元甚至要求±0.5%
負載從10%跳到100%,電壓跌落后必須在微秒級拉回來
換算一下,1V供電、±1%的紋波容限,就是±10毫伏。什么概念?你手機充電線接觸不良時產(chǎn)生的電壓抖動,都可能比這個幅度大。
這就是為什么我們說AI芯片有“電壓潔癖”——它是個胃口巨大、但對食物品質(zhì)要求極端的“電老虎”。稍有不合胃口,輕則計算錯誤、數(shù)據(jù)靜默損壞,重則芯片直接觸發(fā)保護停機。
大模型訓練的人最怕什么?不是電費貴,是訓練到第15天了,因為一次電壓閃變,所有checkpoint都廢了,從頭再來。
二、UPS不是“有電就行”,得“有對的電”
很多人的認知里,UPS就是個大號充電寶——市電掉了,它能頂上。
這個理解對,但不全對。
對AI數(shù)據(jù)中心來說,UPS真正的價值不是“有電”,而是“送出純凈的電”。因為市電電網(wǎng)的波形本來就臟,諧波、浪涌、瞬變什么都有。UPS要做的,是把這些臟東西濾掉,輸出一個干凈的正弦波給后面的設(shè)備。
UPS內(nèi)部是怎么工作的?簡單說是三步:
交流輸入 → 整流成直流 → 再逆變成干凈的交流輸出
這里面最吃力的環(huán)節(jié)是“逆變”。逆變器要實時知道:現(xiàn)在輸出的電流是多少?波形對不對?有沒有畸變?后面那個負載突然拉高電流了,我跟上沒跟上?
這些信息誰給它的?——電流傳感器。
傳感器把電流信號采回來,送給控制器,控制器根據(jù)這個信號去調(diào)整開關(guān)管的導通時間。整一套閉環(huán)控制跑下來,快的要幾十微秒一個周期,慢的也就幾百微秒。
問題來了:如果傳感器采回來的信號不準、有延遲、溫度一高就漂了,控制器還怎么調(diào)?
傳感器看不清 → 控制器調(diào)不準 → 輸出波形畸變 → AI芯片崩了
這條鏈上每一環(huán)的誤差都會被后面逐級放大,最終打到價格不菲的算力硬件上。所以我說電流傳感器是UPS的“神經(jīng)末梢”——它不輸出功率,但它決定了功率以什么品質(zhì)輸出。
三、為什么得是閉環(huán)霍爾?
電流檢測方案不少,分流的、開環(huán)霍爾的、閉環(huán)霍爾的,各有各的適用場景。但在高端UPS的逆變輸出端,圈內(nèi)基本有個共識:閉環(huán)霍爾是首選。
為什么?直接上對比:
開環(huán)霍爾的短板在哪?它的精度受磁芯材料的B-H曲線限制。溫度一上去,磁芯特性變了,輸出信號就跟著漂。而且大電流下非線性誤差明顯,得在控制軟件里做一堆補償算法,費勁還不一定準。
閉環(huán)霍爾的思路不一樣。它用的是磁平衡原理,也叫零磁通原理:
初級電流產(chǎn)生一個磁場,次級線圈通上反向電流,產(chǎn)生的磁場剛好把原邊的磁場抵消掉。霍爾元件不直接測磁場有多大,而是檢測“磁場歸零了沒有”。次級電流正比于初級電流,精度由匝數(shù)比和采樣電阻決定,跟磁芯的非線性關(guān)系不大。
這么做的好處有兩個:
一是精度不依賴磁芯。磁芯始終在零磁通點附近工作,B-H曲線那堆麻煩事基本被繞過去了。線性度好,全量程精度能做到0.3%、0.5%這個級別。
二是溫漂天然就小。因為工作原理決定了它對溫度不敏感,不像開環(huán)那樣需要額外做溫度補償。AI數(shù)據(jù)中心是7×24小時滿負荷,UPS機柜內(nèi)部常年四五十度是家常便飯,低溫漂意味著全年運行下來,采樣信號基本不跑偏。
還有一點容易被忽略:閉環(huán)的響應(yīng)速度快,帶寬能做到200kHz這個級別。大模型訓練時負載波動極其劇烈,瞬時電流跳變幅度大、速度快,傳感器跟得上跟不上,直接決定了控制器能不能及時反應(yīng)。
四、芯森的產(chǎn)品怎么匹配這個場景?
說回我們自己。芯森有多款閉環(huán)霍爾傳感器,跟這個場景高度匹配:
CMxA包含多個系列:量程100A到2000A,精度高達±0.3%。主要打大功率UPS的逆變輸出、直流屏的母線檢測。1000A滿量程下,最大測量誤差只有3A。對于需要精確做波形控制的UPS來說,這個余量足夠奢侈。
CR1A系列:量程50A到300A,精度±0.5%。適合中小功率UPS、模塊化電源。成本更友好,但精度在這個功率段完全夠用。

選哪個,看你的UPS功率等級和成本預(yù)算。但核心邏輯不變:AI數(shù)據(jù)中心的供電設(shè)備,不該在傳感器這顆料上摳精度。
我們在實驗室做過對比測試:同樣的UPS平臺,用開環(huán)方案和閉環(huán)方案在同一溫箱里跑,從常溫升到55°C,開環(huán)的輸出偏差肉眼可見地變大,閉環(huán)的基本紋絲不動。這就是原理決定的差異,不是靠調(diào)參數(shù)能彌補的。
五、寫到最后
行業(yè)里有句話流傳很廣:AI的盡頭是算力,算力的盡頭是電力。
我想在后面補一句:電力的盡頭,是精準的檢測與控制。
大多數(shù)人討論算力基建,話題都圍著芯片、光模塊、液冷這些熱門詞轉(zhuǎn)。但真正在一線做運維的工程師知道,很多時候讓整個集群“掛掉”的原因,不是芯片燒了,不是網(wǎng)絡(luò)斷了,而是某個不起眼的供電環(huán)節(jié)出了問題——比如一臺UPS的電流采樣信號漂了,導致輸出波形畸變,觸發(fā)了下游設(shè)備的保護。
這種故障最難排查,也最容易被人忽視。
所以,下次當你看到大模型又完成了一輪驚艷的訓練,不妨想想那些悶在機柜里、24小時盯著電流波動的傳感器。它們不產(chǎn)生算力,但沒了它們,算力連穩(wěn)定運行都做不到。
這就是精密檢測的意義——看不見,但離不開。
-
傳感器
+關(guān)注
關(guān)注
2578文章
55663瀏覽量
794590 -
霍爾電流傳感器
+關(guān)注
關(guān)注
3文章
449瀏覽量
15769 -
UPS不間斷電源
+關(guān)注
關(guān)注
0文章
340瀏覽量
11896 -
AI算力
+關(guān)注
關(guān)注
1文章
181瀏覽量
10045
發(fā)布評論請先 登錄
閉環(huán)霍爾電流傳感器的工作原理
閉環(huán)霍爾電流傳感器的主要性能
元器件霍爾電流傳感器的應(yīng)用
閉環(huán)式霍爾電流傳感器與開環(huán)式霍爾電流傳感器的主要區(qū)別
霍爾傳感器芯片選擇和使用的影響
電流傳感器的開環(huán)和閉環(huán)
閉環(huán)霍爾傳感器的工作原理
霍爾閉環(huán)電流傳感器的具體應(yīng)用
基于霍爾閉環(huán)原理的電流傳感器應(yīng)用案例
閉環(huán)式霍爾電流傳感器和開環(huán)式霍爾電流傳感器
智慧路燈桿:筑牢城市物聯(lián)網(wǎng)的安全神經(jīng)末梢
電力中壓電纜局部放電在線監(jiān)測傳感器:精準感知電網(wǎng)安全的“神經(jīng)末梢”
開環(huán)式霍爾電流傳感器及閉環(huán)霍爾電流傳感器的多匝穿心利弊分析
AI芯片的“電壓潔癖”有多嚴重?霍爾閉環(huán)傳感器——UPS的神經(jīng)末梢
評論