福利AV主播午夜,久久人妻精品

在10月29日由中國電子工業(yè)標準化技術協(xié)會舉辦的數(shù)據(jù)存儲專業(yè)委員會（簡稱“數(shù)據(jù)存儲專委會”）成立大會上，匯聚了產業(yè)界代表、專委會成員及多位院士專家，共逾百人，共同探討了數(shù)據(jù)存儲產業(yè)的發(fā)展，并見證了數(shù)據(jù)存儲專業(yè)委員會的正式成立。會上，中國工程院院士、數(shù)據(jù)存儲專委會名譽會長鄭緯民發(fā)表了題為“AI存儲：人工智能大模型的基石”的主旨演講。

鄭緯民院士指出，人工智能進入大模型時代展現(xiàn)出兩大特征：一是基礎大模型邁入多模態(tài)時代，實現(xiàn)了從單一文本到圖片、視頻等多模態(tài)信息的綜合應用；二是大模型已在金融、醫(yī)療、智能制造等多個領域得到實際應用。

針對大模型的四個關鍵環(huán)節(jié)，鄭緯民院士詳細闡述了存儲在大模型訓練和推理應用中所面臨的挑戰(zhàn)及相關技術：

首先，數(shù)據(jù)獲取階段，大模型訓練需要海量的原始數(shù)據(jù)，這些數(shù)據(jù)需被存儲設備妥善保存。隨著大模型從單模態(tài)向多模態(tài)發(fā)展，產生了數(shù)以百億計的小文件，這對文件系統(tǒng)的目錄擴展性、讀寫速度以及存儲的低延遲和高可擴展性提出了更高要求。

其次，數(shù)據(jù)預處理階段，由于原始數(shù)據(jù)質量參差不齊，存在大量重復和低質量數(shù)據(jù)，因此需要進行預處理以提升數(shù)據(jù)質量。以ChatGPT4級別的大模型為例，其訓練過程可能需要1萬塊A100顯卡耗時11個月，其中數(shù)據(jù)預處理可能占據(jù)一半以上的時間，這與數(shù)據(jù)存儲的性能密切相關。

再次，模型訓練階段，大規(guī)模訓練系統(tǒng)（如10萬塊顯卡組成的系統(tǒng)）的可靠性難以保證，頻繁出現(xiàn)故障，導致集群可用度低下。為了快速恢復訓練，需要依賴高性能的存儲系統(tǒng)來快速讀取CheckPoint數(shù)據(jù)。華為與清華大學MADSys實驗室聯(lián)合開發(fā)的高性能AI存儲系統(tǒng)在此方面表現(xiàn)出色，曾在國際權威機構MLPerf Storage基準評測中獲得第一名，性能密度是第二名的兩倍。

最后，模型推理階段，這是與AI應用最直接相關的環(huán)節(jié)。更高效的人工智能需要處理更多數(shù)據(jù)、使用更大模型以及更長的上下文窗口，但這同時也帶來了極重的推理負載。模型參數(shù)以及推理過程中產生的KV-Cache需要巨大的存儲空間。為此，國內優(yōu)秀的大模型應用Kimi與清華大學MADSys實驗室共同推出了Mooncake分離式推理架構，通過保存共享的KV-Cache，采用以存換算的策略大幅提升系統(tǒng)吞吐。

鄭緯民院士強調，模型推理過程是一個復雜的存儲系統(tǒng)工程，關鍵在于存儲容量大、傳輸速度快以及性價比高。清華大學MADSys實驗室聯(lián)合華為數(shù)據(jù)存儲、9#AISoft、阿里云、面壁、趨境等公司共同開發(fā)的高性能內存型長記憶存儲系統(tǒng)即將開源發(fā)布，該系統(tǒng)能夠實現(xiàn)大范圍全局共享與持久化KV-Cache，以存換算，共同構建大模型時代下的高性能內存型長記憶存儲系統(tǒng)生態(tài)。

最后，鄭緯民院士總結指出，AI存儲是人工智能大模型的基石，貫穿于大模型生命周期的每一個環(huán)節(jié)。通過以存強算、以存換算，先進的AI存儲能夠提升訓練集群的可用度，降低推理成本，提升用戶體驗。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

存儲

存儲

+關注

關注
13

文章
4897

瀏覽量
90313
AI

AI

+關注

關注
91

文章
41326

瀏覽量
302723
人工智能

人工智能

+關注

關注
1821

文章
50367

瀏覽量
267066

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

鄭緯民院士:內存型長記憶存儲以存換算是AI推理新趨勢

評論