亚洲精品综合色网,日韩欧美人妻熟女在线

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）近年來(lái)，有關(guān)大語(yǔ)言模型（LLM）的開(kāi)發(fā)非常活躍，尤其是在中國(guó)、美國(guó)等市場(chǎng)。以O(shè)penAI開(kāi)發(fā)的ChatGPT為例，其迅速普及極大影響了技術(shù)研發(fā)、經(jīng)濟(jì)系統(tǒng)等，為此不少國(guó)家政府也投入到LLM的計(jì)算資源整合中來(lái)，從而不至于落后這輪新的全球技術(shù)軍備戰(zhàn)。同樣的計(jì)算資源競(jìng)爭(zhēng)也發(fā)生在超算領(lǐng)域，而兩者的計(jì)算資源存在一定的重合，不少人開(kāi)始借助超算來(lái)進(jìn)行LLM的開(kāi)發(fā)。

超算訓(xùn)練大模型的天然優(yōu)勢(shì)

大語(yǔ)言模型的訓(xùn)練經(jīng)常會(huì)撞上GPU的內(nèi)存墻，比如訓(xùn)練一個(gè)萬(wàn)億參數(shù)的模型，就需要至少24TB的GPU內(nèi)存。好在對(duì)于現(xiàn)代超算系統(tǒng)而言，GPU已經(jīng)成為不可或缺的算力資源之一，不少超算的GPU規(guī)模與云服務(wù)廠商的數(shù)據(jù)中心相比，也不遑多讓。以目前排名第一的Frontier超算為例，就集成了37888塊AMD MI250X GPU。

美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的研究人員除了用Frontier完成科學(xué)計(jì)算任務(wù)以外，也使用了一部分GPU資源訓(xùn)練一個(gè)萬(wàn)億級(jí)參數(shù)的LLM。據(jù)他們發(fā)布的論文，使用3072塊MI250X GPU，他們訓(xùn)練了一個(gè)一萬(wàn)億參數(shù)的大語(yǔ)言模型，這樣的規(guī)模已經(jīng)與OpenAI的GPT-4在同一水平線上了。

絕大多數(shù)模型的內(nèi)存要求，除了來(lái)自參數(shù)量外，也來(lái)自梯度和優(yōu)化器狀態(tài)。盡管對(duì)大模型訓(xùn)練的任務(wù)進(jìn)行了并行分解，美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的研究人員發(fā)現(xiàn)訓(xùn)練一個(gè)萬(wàn)億級(jí)別的大模型還是需要14TB的內(nèi)存，好在單個(gè)MI250X就擁有64GB的顯存，足以滿足訓(xùn)練要求。

富岳大模型

日前，一隊(duì)日本研究員發(fā)布了富岳-LLM，一個(gè)專門針對(duì)日語(yǔ)能力進(jìn)行加強(qiáng)的大語(yǔ)言模型，由RIKEN的超算系統(tǒng)富岳訓(xùn)練。盡管目前GPU才是訓(xùn)練LLM的首選硬件，而富岳超算是基于自研的Arm架構(gòu)處理器構(gòu)筑的，只有CPU并沒(méi)有GPU。

為了在富岳上訓(xùn)練大語(yǔ)言模型，研究員們開(kāi)發(fā)了分布式的訓(xùn)練方案，將深度學(xué)習(xí)框架Megatron-DeepSpeed移植到富岳上，從而優(yōu)化Transformer模型在富岳上的性能表現(xiàn)。通過(guò)加速Transformer的密集矩陣乘法庫(kù)，并結(jié)合三種并行化技術(shù)優(yōu)化富岳的通信性能，富岳的并行訓(xùn)練能力得到了最大化。

富岳大模型有130億參數(shù)，比目前已經(jīng)在日本廣泛使用的70億參數(shù)模型規(guī)模還要大，盡管市面上早已出現(xiàn)參數(shù)更大的模型，但對(duì)于富岳超算來(lái)說(shuō)，這已經(jīng)是一個(gè)平衡高性能與計(jì)算資源的選擇了。

除此之外，不少日本公司開(kāi)發(fā)的大模型采用持續(xù)學(xué)習(xí)，采用海外開(kāi)發(fā)的公開(kāi)模型，用日本數(shù)據(jù)進(jìn)行持續(xù)訓(xùn)練。而富岳大模型則是采用團(tuán)隊(duì)自己的數(shù)據(jù)從頭開(kāi)始訓(xùn)練的，所以在透明度和安全性上更高一籌。

富岳大模型用到了3800萬(wàn)個(gè)Token和富岳超算的13824個(gè)節(jié)點(diǎn)，其數(shù)據(jù)60%為日語(yǔ)，并與英語(yǔ)、數(shù)學(xué)運(yùn)算和代碼結(jié)合。該模型在人文和社會(huì)科學(xué)任務(wù)中獲得了9.18的基準(zhǔn)跑分，可以結(jié)合敬語(yǔ)或日語(yǔ)的其他特征進(jìn)行自然對(duì)話。

寫(xiě)在最后

隨著各地區(qū)紛紛開(kāi)始建設(shè)超算智算資源，如何提高這些計(jì)算資源的利用率也成了關(guān)鍵。而訓(xùn)練大模型恰好需要用到如此龐大的計(jì)算資源，也有助于為各行各業(yè)提供可用大模型應(yīng)用，由此看來(lái)，未來(lái)超算上大模型訓(xùn)練的場(chǎng)景也會(huì)越來(lái)越普遍。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴