日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

超算訓(xùn)練大模型,不浪費(fèi)一丁點(diǎn)計(jì)算資源

E4Life ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚(yáng) ? 2024-05-20 07:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))近年來(lái),有關(guān)大語(yǔ)言模型(LLM)的開(kāi)發(fā)非常活躍,尤其是在中國(guó)、美國(guó)等市場(chǎng)。以O(shè)penAI開(kāi)發(fā)的ChatGPT為例,其迅速普及極大影響了技術(shù)研發(fā)、經(jīng)濟(jì)系統(tǒng)等,為此不少國(guó)家政府也投入到LLM的計(jì)算資源整合中來(lái),從而不至于落后這輪新的全球技術(shù)軍備戰(zhàn)。同樣的計(jì)算資源競(jìng)爭(zhēng)也發(fā)生在超算領(lǐng)域,而兩者的計(jì)算資源存在一定的重合,不少人開(kāi)始借助超算來(lái)進(jìn)行LLM的開(kāi)發(fā)。

超算訓(xùn)練大模型的天然優(yōu)勢(shì)

大語(yǔ)言模型的訓(xùn)練經(jīng)常會(huì)撞上GPU的內(nèi)存墻,比如訓(xùn)練一個(gè)萬(wàn)億參數(shù)的模型,就需要至少24TB的GPU內(nèi)存。好在對(duì)于現(xiàn)代超算系統(tǒng)而言,GPU已經(jīng)成為不可或缺的算力資源之一,不少超算的GPU規(guī)模與云服務(wù)廠商的數(shù)據(jù)中心相比,也不遑多讓。以目前排名第一的Frontier超算為例,就集成了37888塊AMD MI250X GPU。

美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的研究人員除了用Frontier完成科學(xué)計(jì)算任務(wù)以外,也使用了一部分GPU資源訓(xùn)練一個(gè)萬(wàn)億級(jí)參數(shù)的LLM。據(jù)他們發(fā)布的論文,使用3072塊MI250X GPU,他們訓(xùn)練了一個(gè)一萬(wàn)億參數(shù)的大語(yǔ)言模型,這樣的規(guī)模已經(jīng)與OpenAI的GPT-4在同一水平線上了。

絕大多數(shù)模型的內(nèi)存要求,除了來(lái)自參數(shù)量外,也來(lái)自梯度和優(yōu)化器狀態(tài)。盡管對(duì)大模型訓(xùn)練的任務(wù)進(jìn)行了并行分解,美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的研究人員發(fā)現(xiàn)訓(xùn)練一個(gè)萬(wàn)億級(jí)別的大模型還是需要14TB的內(nèi)存,好在單個(gè)MI250X就擁有64GB的顯存,足以滿足訓(xùn)練要求。

富岳大模型

日前,一隊(duì)日本研究員發(fā)布了富岳-LLM,一個(gè)專門針對(duì)日語(yǔ)能力進(jìn)行加強(qiáng)的大語(yǔ)言模型,由RIKEN的超算系統(tǒng)富岳訓(xùn)練。盡管目前GPU才是訓(xùn)練LLM的首選硬件,而富岳超算是基于自研的Arm架構(gòu)處理器構(gòu)筑的,只有CPU并沒(méi)有GPU。

為了在富岳上訓(xùn)練大語(yǔ)言模型,研究員們開(kāi)發(fā)了分布式的訓(xùn)練方案,將深度學(xué)習(xí)框架Megatron-DeepSpeed移植到富岳上,從而優(yōu)化Transformer模型在富岳上的性能表現(xiàn)。通過(guò)加速Transformer的密集矩陣乘法庫(kù),并結(jié)合三種并行化技術(shù)優(yōu)化富岳的通信性能,富岳的并行訓(xùn)練能力得到了最大化。

富岳大模型有130億參數(shù),比目前已經(jīng)在日本廣泛使用的70億參數(shù)模型規(guī)模還要大,盡管市面上早已出現(xiàn)參數(shù)更大的模型,但對(duì)于富岳超算來(lái)說(shuō),這已經(jīng)是一個(gè)平衡高性能與計(jì)算資源的選擇了。

除此之外,不少日本公司開(kāi)發(fā)的大模型采用持續(xù)學(xué)習(xí),采用海外開(kāi)發(fā)的公開(kāi)模型,用日本數(shù)據(jù)進(jìn)行持續(xù)訓(xùn)練。而富岳大模型則是采用團(tuán)隊(duì)自己的數(shù)據(jù)從頭開(kāi)始訓(xùn)練的,所以在透明度和安全性上更高一籌。

富岳大模型用到了3800萬(wàn)個(gè)Token和富岳超算的13824個(gè)節(jié)點(diǎn),其數(shù)據(jù)60%為日語(yǔ),并與英語(yǔ)、數(shù)學(xué)運(yùn)算和代碼結(jié)合。該模型在人文和社會(huì)科學(xué)任務(wù)中獲得了9.18的基準(zhǔn)跑分,可以結(jié)合敬語(yǔ)或日語(yǔ)的其他特征進(jìn)行自然對(duì)話。

寫(xiě)在最后

隨著各地區(qū)紛紛開(kāi)始建設(shè)超算智算資源,如何提高這些計(jì)算資源的利用率也成了關(guān)鍵。而訓(xùn)練大模型恰好需要用到如此龐大的計(jì)算資源,也有助于為各行各業(yè)提供可用大模型應(yīng)用,由此看來(lái),未來(lái)超算上大模型訓(xùn)練的場(chǎng)景也會(huì)越來(lái)越普遍。
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 超算
    +關(guān)注

    關(guān)注

    1

    文章

    118

    瀏覽量

    9547
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3802

    瀏覽量

    5280
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    零基礎(chǔ)手寫(xiě)大模型資料2026

    Transformer核心結(jié)構(gòu)的大模型,揭示大模型從理論到落地的技術(shù)本質(zhì)。 、數(shù)學(xué)基礎(chǔ):大模型的三大基石 1. 矩陣運(yùn)算:神經(jīng)網(wǎng)絡(luò)的語(yǔ)言 大模型
    發(fā)表于 05-01 17:44

    AI Ceph 分布式存儲(chǔ)教程資料大模型學(xué)習(xí)資料2026

    瓶頸:從傳統(tǒng)存儲(chǔ)向 AI 專用架構(gòu)演進(jìn) 在大模型訓(xùn)練場(chǎng)景下,計(jì)算節(jié)點(diǎn)(GPU)的運(yùn)算速度極快,往往在毫秒級(jí)就能完成輪數(shù)據(jù)的處理。如果后端存儲(chǔ)無(wú)法跟上這
    發(fā)表于 05-01 17:35

    監(jiān)控的下半場(chǎng):從基礎(chǔ)設(shè)施報(bào)警到力精算師

    如何打破數(shù)據(jù)中心、服務(wù)器與網(wǎng)絡(luò)之間的數(shù)據(jù)壁壘,構(gòu)建具備業(yè)務(wù)感知能力的下代智監(jiān)控體系。 、 核心痛點(diǎn):為什么傳統(tǒng)監(jiān)控在智時(shí)代失效了? 在通用計(jì)
    的頭像 發(fā)表于 03-18 11:13 ?408次閱讀

    中科曙光3套scaleX萬(wàn)卡集群落地國(guó)家互聯(lián)網(wǎng)鄭州核心節(jié)點(diǎn)

    2月5日,由中科曙光提供的3套萬(wàn)卡集群系統(tǒng)在國(guó)家互聯(lián)網(wǎng)鄭州核心節(jié)點(diǎn)同時(shí)上線試運(yùn)行,成為全國(guó)首個(gè)實(shí)現(xiàn)3萬(wàn)卡部署、且實(shí)際投入運(yùn)營(yíng)的最大國(guó)產(chǎn)AI力池,全面覆蓋萬(wàn)億參數(shù)
    的頭像 發(fā)表于 02-09 10:32 ?748次閱讀

    訓(xùn)練到推理:大模型力需求的新拐點(diǎn)已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中在大模型訓(xùn)練所需的力投入。個(gè)萬(wàn)億參數(shù)大模型
    的頭像 發(fā)表于 02-05 16:07 ?1057次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b><b class='flag-5'>算</b>力需求的新拐點(diǎn)已至

    數(shù)據(jù)傳輸拖慢訓(xùn)練?三維體調(diào)度讓AI任務(wù)提速40%

    作為AI開(kāi)發(fā)者,你是否無(wú)數(shù)次陷入這樣的困境:訓(xùn)練千億參數(shù)大模型,數(shù)據(jù)傳輸占了總耗時(shí)的60%,GPU空轉(zhuǎn)等待如同“帶薪摸魚(yú)”;跨地域調(diào)用力,公網(wǎng)帶寬瓶頸讓TB級(jí)數(shù)據(jù)集傳輸動(dòng)輒耗時(shí)數(shù)天;
    的頭像 發(fā)表于 01-26 14:20 ?269次閱讀

    GPU 利用率<30%?這款開(kāi)源智云平臺(tái)讓浪費(fèi) 1%

    作為 AI 開(kāi)發(fā)者,你是否早已受夠這些困境:花數(shù)百萬(wàn)采購(gòu)的 GPU 集群,利用率常年低于 30%,力閑置如同燒錢;跨 CPU/GPU/NPU 異構(gòu)資源調(diào)度難如登天,模型訓(xùn)練卡在
    的頭像 發(fā)表于 01-26 14:20 ?299次閱讀

    國(guó)產(chǎn)力首證具身大腦模型訓(xùn)練實(shí)力:摩爾線程聯(lián)合智源研究院完成RoboBrain 2.5全流程訓(xùn)練

    集群 ,成功完成智源自研具身大腦模型 RoboBrain 2.5 的 全流程訓(xùn)練 。 這是行業(yè)內(nèi)首次驗(yàn)證國(guó)產(chǎn)力集群在具身智能大模型
    的頭像 發(fā)表于 01-14 09:05 ?794次閱讀
    國(guó)產(chǎn)<b class='flag-5'>算</b>力首證具身大腦<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>實(shí)力:摩爾線程聯(lián)合智源研究院完成RoboBrain 2.5全流程<b class='flag-5'>訓(xùn)練</b>

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是
    發(fā)表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

    策略;理解這些策略對(duì)顯存的影響,才能更好地規(guī)劃訓(xùn)練參數(shù),在 OOM (out of memory) 的情況下盡可能提升硬件使用效率。
    的頭像 發(fā)表于 10-21 10:55 ?1431次閱讀
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>框架提高顯存使用效率

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的未來(lái):提升力還是智力

    持續(xù)發(fā)展體現(xiàn)在: 1、收益遞減 大模型的基礎(chǔ)的需要極大的力,這首先源于昂貴的高性能AI芯片,然后是寶貴的電力、水等與環(huán)境相關(guān)的資源。 收益遞減體現(xiàn)在: ①模型大小 ②
    發(fā)表于 09-14 14:04

    面向萬(wàn)億級(jí)參數(shù)大模型,“節(jié)點(diǎn)”涌現(xiàn)

    UniPoD系列節(jié)點(diǎn)產(chǎn)品,旨在為萬(wàn)億級(jí)參數(shù)大模型訓(xùn)練與推理提供更強(qiáng)勁、更智能且更綠色的力支持。 ? H3C UniPoD系列節(jié)點(diǎn)產(chǎn)
    的頭像 發(fā)表于 08-03 02:37 ?9197次閱讀
    面向萬(wàn)億級(jí)參數(shù)大<b class='flag-5'>模型</b>,“<b class='flag-5'>超</b>節(jié)點(diǎn)”涌現(xiàn)

    模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型的推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這
    發(fā)表于 07-03 19:43

    立訊技術(shù)解讀ETH-X節(jié)點(diǎn)高速互連技術(shù)的現(xiàn)狀與未來(lái)

    當(dāng)前,人工智能技術(shù)驅(qū)動(dòng)全球數(shù)據(jù)中心向智中心加速演進(jìn),傳統(tǒng)架構(gòu)在承載AI大模型訓(xùn)練時(shí)暴露出顯著瓶頸--資源調(diào)度碎片化、異構(gòu)力協(xié)同低效、能源
    的頭像 發(fā)表于 07-03 09:44 ?2770次閱讀
    立訊技術(shù)解讀ETH-X<b class='flag-5'>超</b>節(jié)點(diǎn)高速互連技術(shù)的現(xiàn)狀與未來(lái)

    力網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式

    過(guò)程中,由于單個(gè)AI芯片的力提升速度無(wú)法跟上模型參數(shù)的增長(zhǎng)速率,再加上龐大的模型參數(shù)和訓(xùn)練數(shù)據(jù),已遠(yuǎn)遠(yuǎn)超出單個(gè)AI芯片甚至單臺(tái)服務(wù)器的能力范圍。因此,需要將數(shù)據(jù)樣本和
    的頭像 發(fā)表于 06-08 08:11 ?7792次閱讀
    <b class='flag-5'>算</b>力網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式<b class='flag-5'>訓(xùn)練</b>范式
    克拉玛依市| 衡阳市| 平原县| 灵山县| 五家渠市| 广安市| 都兰县| 和林格尔县| 永德县| 自治县| 通许县| 三门县| 桐乡市| 侯马市| 乐平市| 永清县| 波密县| 沐川县| 景东| 密山市| 阜南县| 进贤县| 玉林市| 化州市| 冷水江市| 县级市| 石棉县| 九龙坡区| 惠东县| 金堂县| 临安市| 大同县| 丰镇市| 昌平区| 尼勒克县| 崇仁县| 巴东县| 库伦旗| 于都县| 九江市| 惠东县|