日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

聚焦“源1.0”背后的計算挑戰(zhàn)以及我們采取的訓練方法

浪潮AIHPC ? 來源:浪潮AIHPC ? 作者:浪潮AIHPC ? 2022-11-15 16:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從2018年的BERT到2020年的GPT-3,NLP語言模型經歷了爆發(fā)式的發(fā)展過程,其中BERT模型的參數(shù)量為3.4億,而GPT-3的模型參數(shù)量達到了1750億。2021年9月,浪潮發(fā)布了“源1.0”,它是目前規(guī)模最大的中文AI單體模型,參數(shù)規(guī)模高達2457億,訓練采用的中文數(shù)據(jù)集達5TB。“源1.0”在語言智能方面表現(xiàn)優(yōu)異,獲得中文語言理解評測基準CLUE榜單的零樣本學習和小樣本學習兩類總榜冠軍。測試結果顯示,人群能夠準確分辨人與“源1.0”作品差別的成功率低于50%。

海量的參數(shù)帶來了模型訓練和部署上的巨大挑戰(zhàn)。本文將聚焦“源1.0”背后的計算挑戰(zhàn)以及我們采取的訓練方法。

“源1.0”的模型結構

“源1.0”是一個典型的語言模型。語言模型通俗來講就是能夠完成自然語言理解或者生成文本的神經網絡模型。對于“源1.0”,我們考慮語言模型(Language Model,LM)和前綴語言模型(Prefix Language Model,PLM)兩種模型結構。如下圖所示:

91275cda-64bc-11ed-8abf-dac502259ad0.jpg

圖1 模型結構示意圖(左圖為LM,右圖為PLM)

我們比較了130億參數(shù)的LM和PLM在不同下游任務上的結果,注意到LM在Zero-Shot和Few-Shot上表現(xiàn)更好,而PLM在微調方面表現(xiàn)出色。微調通常會在大多數(shù)任務中帶來更好的準確性,然而微調會消耗大量的計算資源,這是不經濟的。所以我們選擇LM作為“源 1.0”模型的基礎模型結構。

?

如何訓練“源1.0”

| 源1.0訓練面對的挑戰(zhàn)

“源1.0”的訓練需要面對的第一個挑戰(zhàn)就是數(shù)據(jù)和計算量的挑戰(zhàn)。

數(shù)據(jù)方面,如果把訓練一個巨量模型的訓練過程比作上異常戰(zhàn)役的話,那么數(shù)據(jù)就是我們的彈藥。數(shù)據(jù)量的多少,決定了我們可以訓練模型的規(guī)模,以及最后的效果。針對這一方面,我們構建了一個全新的中文語料庫,清洗后的高質量數(shù)據(jù)規(guī)模達到了5TB,是目前規(guī)模最大的中文語料庫。

914ec108-64bc-11ed-8abf-dac502259ad0.jpg

圖2 數(shù)據(jù)預處理流程圖

算力方面,根據(jù)OpenAI提出的PetaFlop/s-day衡量標準,我們可以估算“源1.0”訓練的計算需求情況。根據(jù)Wikipedia提供的數(shù)據(jù)(https://en.wikipedia.org/wiki/OpenAI),GPT-3的計算需求約為3640 PetaFlop/s-day,而“源1.0”的計算需求達到了4095 PetaFlop/s-day。

計算資源的巨大開銷是限制研究人員研發(fā)具有數(shù)以千萬計參數(shù)的NLP大模型的瓶頸。例如GPT-3是在由10000個GPU所組成的集群上訓練得到的。我們在設計“源1.0”的模型結構時,考慮到了影響大規(guī)模分布式訓練的關鍵因素,采用了專門的分布式訓練策略,從而加速了模型的訓練過程。

在模型訓練時一般最常用的是采用數(shù)據(jù)并行分布式計算策略,但這只能滿足小模型的訓練需求。對于巨量模型來說,由于其模型參數(shù)量過大,遠遠超過常用計算設備比如GPU卡的顯存容量,因此需要專門的算法設計來解決巨量模型訓練的顯存占用問題,同時還需要兼顧訓練過程中的GPU計算性能的利用率。

| “源1.0”的訓練策略

為了解決顯存不足的問題,我們采用了張量并行、流水并行、數(shù)據(jù)并行相結合的并行策略,實現(xiàn)了在2128個GPU上部署“源1.0”,并完成了1800億tokens的訓練。

a. 張量并行

針對單個GPU設備不能完整的承載模型訓練,一個解決方案就是張量并行+數(shù)據(jù)并行的2D并行策略。具體來說,使用多個GPU設備為1組,比如單個服務器內的8個GPU為1組,組內使用張量并行策略對模型進行拆分,組間(服務器間)采用數(shù)據(jù)并行。

對于張量并行部分,NVIDIA在Megatron-LM中提出了針對Transformer結構的張量并行解決方案。其思路是把每一個block的參數(shù)和計算都均勻的拆分到N個GPU設備上,從而實現(xiàn)每個GPU設備都承擔這一block的參數(shù)量和計算量的1/N效果。圖3展示了對Transformer結構中的MLP層和self-attention層進行張量并行拆分計算的過程示意圖。

9177114e-64bc-11ed-8abf-dac502259ad0.jpg

圖3 張量并行示意圖

在訓練過程中,tensor經過每一層的時候,計算量與通信數(shù)據(jù)量之比91b4a91e-64bc-11ed-8abf-dac502259ad0.png如下:

91cea1a2-64bc-11ed-8abf-dac502259ad0.jpg

其中,S為輸入序列的長度,h為隱藏層的大?。╤idden size)。

b. 流水并行

91e98698-64bc-11ed-8abf-dac502259ad0.jpg

圖4 流水線并行示意圖

對于具有數(shù)千億參數(shù)的語言模型,這些參數(shù)很難被存放在單個節(jié)點中。流水線并行將LM的層序列在多個節(jié)點之間進行分割,以解決存儲空間不足的問題,如圖5所示。每個節(jié)點都是流水線中的一個階段,它接受前一階段的輸出并將結果過發(fā)送到下一階段。如果前一個相鄰節(jié)點的輸出尚未就緒,則當前節(jié)點將處于空閑狀態(tài)。節(jié)點的空閑時間被稱為流水線氣泡(pipline bubble)。為了提高流水行并行的性能,我們必須盡可能減少在氣泡上花費的時間。定義流水線中氣泡的理想時間占比為如下形式:

920f7e3e-64bc-11ed-8abf-dac502259ad0.jpg

根據(jù)這一公式,流水線氣泡的耗時隨著層數(shù)L的增加而增加,隨著微批次大小(micro-batch-size)的增加而減小。當m?L/l的時候,流水并行過程中的流水線氣泡對訓練性能的影響幾乎可以忽略。

與此同時,在流水并行過程中,節(jié)點間的計算量與通信數(shù)據(jù)量之比91b4a91e-64bc-11ed-8abf-dac502259ad0.png為:

924189b0-64bc-11ed-8abf-dac502259ad0.jpg

根據(jù)上面的公式,流水線中節(jié)點的計算效率與h和S呈線性關系,這與張量并行類似。

c. 數(shù)據(jù)并行

925b54c6-64bc-11ed-8abf-dac502259ad0.jpg

圖6 數(shù)據(jù)并行示意圖

采用數(shù)據(jù)并行時,全局批次大?。╣lobal batch size)按照流水線分組進行分割。每個流水線組都包含模型的一個副本,數(shù)據(jù)在組內按照局部批次規(guī)模送入模型副本。數(shù)據(jù)并行時的計算量與通信數(shù)據(jù)量的比值91b4a91e-64bc-11ed-8abf-dac502259ad0.png可用如下公式近似:

92a067aa-64bc-11ed-8abf-dac502259ad0.jpg

91b4a91e-64bc-11ed-8abf-dac502259ad0.pngd? 1時,上面公式可以進一步簡化成:

92ce6272-64bc-11ed-8abf-dac502259ad0.jpg

根據(jù)這一公式,我們可以看出數(shù)據(jù)并行的計算效率與全局批次大小B和序列長度S呈正比關系。由于模型對內存的需求與S的平方成正比,與B成線性關系,因此增加全局批次大小可以更有效的提升數(shù)據(jù)并行的效率。

當全局批次大小過大的時候,模型很容易出現(xiàn)不收斂的問題,為了保證模型訓練過程的穩(wěn)定性,我們將全局批次大小限制在了10^7個token內。

根據(jù)以上的理論分析,我們確定了設計“源1.0”巨量模型結構的基本原則:

盡可能增加序列長度,因為它有利于張量并行、流水線并行和數(shù)據(jù)并行。由于內存占用與序列長度的平方成正比,因此有必要在反向傳播時重新計算激活函數(shù),以節(jié)省內存開銷;

語言模型中層數(shù)太多會對性能產生負面影響,因為這會增加在流水線氣泡上的時間消耗;

增加隱藏層大小可以提高張量并行和流水線并行的性能;

增加節(jié)點中的微批次大小可以提高流水線并行效率,增加全局批次大小可以提升數(shù)據(jù)并行的效率;

在這一設計原則的基礎上,我們設計的“源1.0”的模型結構以及分布式策略的設置如下表所示:

92ec6e7a-64bc-11ed-8abf-dac502259ad0.jpg

結合模型結構的特性以及我們使用集群的硬件特性,我們如下的節(jié)點配置和分布式策略選擇:

“源1.0”模型在訓練過程中共使用了2128個GPU;

模型分成了7組,每組38臺AI服務器,里面放置一個完整的“源1.0”模型,7組之間采用數(shù)據(jù)并行;

每組的38個服務器,采用流水并行每個服務器放置1/38的模型(2個Transformer Layer),一共76層;

在每臺服務器內采用張量并行,按照Transformer結構的每一層進行均勻切分;

模型收斂曲線如下圖:

930cd2a0-64bc-11ed-8abf-dac502259ad0.jpg

91b4a91e-64bc-11ed-8abf-dac502259ad0.png

關于“源1.0”的更多信息,大家可以參照浪潮發(fā)布在arxiv上的論文:https://arxiv.org/abs/2110.04725

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4844

    瀏覽量

    108212
  • 模型
    +關注

    關注

    1

    文章

    3833

    瀏覽量

    52289
  • 語言模型
    +關注

    關注

    0

    文章

    575

    瀏覽量

    11345

原文標題:如何訓練2457億參數(shù)量的中文巨量模型“源1.0”

文章出處:【微信號:浪潮AIHPC,微信公眾號:浪潮AIHPC】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    摩爾線程S5000通過智FlagOS訓練驗證,精度高出國際主流1.65個百分點

    近日,北京智人工智能研究院(簡稱:智研究院)正式發(fā)布重磅驗證成果:六款AI芯片、三大模型、同構+異構千卡——眾智FlagOS以統(tǒng)一技術棧完成AI訓練“全要素”驗證。 作為本次驗證的核心參與廠商
    發(fā)表于 03-27 20:11 ?919次閱讀
    摩爾線程S5000通過智<b class='flag-5'>源</b>FlagOS<b class='flag-5'>訓練</b>驗證,精度高出國際主流1.65個百分點

    泰克專家探討類腦計算背后的器件邏輯與現(xiàn)實挑戰(zhàn)

    當AI算力競賽愈演愈烈,一條源于生物大腦的技術路徑,正在悄然重塑半導體器件與系統(tǒng)架構。近日,泰克專家在展臺與類腦器件領域資深研究者萬老師展開深度交流,圍繞“器件如何賦能系統(tǒng)、打通從生物大腦到新型半導體應用的工程路徑”這一核心議題,探討類腦計算背后的器件邏輯與現(xiàn)實
    的頭像 發(fā)表于 01-20 10:15 ?780次閱讀

    摩爾線程發(fā)布SimuMax v1.1:從仿真工具升級為全棧工作流平臺,助力大模型訓練提效

    的仿真與調優(yōu)提供系統(tǒng)化支持。 ? 本次更新聚焦三大核心創(chuàng)新:用戶友好的可視化配置界面、智能并行策略搜索,以及融合計算與通信效率建模的System-Config生成流水線。新版本同時提升了對主流
    的頭像 發(fā)表于 01-09 09:17 ?371次閱讀
    摩爾線程發(fā)布SimuMax v1.1:從仿真工具升級為全棧工作流平臺,助力大模型<b class='flag-5'>訓練</b>提效

    亞太地區(qū)AI數(shù)據(jù)中心可持續(xù)發(fā)展面臨重重挑戰(zhàn)

    當Chat GPT每秒“吞吐”數(shù)萬次請求、自動駕駛汽車毫秒級解析路況、AI大模型訓練一口“吞”掉百萬度電時,我們正親歷著一場由“算力浪潮”驅動的科技革命;與此同時,一個嚴峻的現(xiàn)實問題也浮出水面:強大的AI背后是對電力的極度渴求,
    的頭像 發(fā)表于 12-10 10:24 ?1350次閱讀
    亞太地區(qū)AI數(shù)據(jù)中心可持續(xù)發(fā)展面臨重重<b class='flag-5'>挑戰(zhàn)</b>

    IR調制器都有哪些具體使用?使用方法是怎樣的?

    IR調制器都有哪些具體使用?以及使用方法是怎樣的?
    發(fā)表于 12-02 06:33

    重要通知 | Splashtop 即將停止支持 TLS 1.0/1.1

    尊敬的Splashtop用戶:為持續(xù)增強Splashtop遠程連接服務的安全性,我們將于2025年10月底停止支持TLS1.0和1.1協(xié)議。TLS1.0與1.1協(xié)議采用過時的加密方法
    的頭像 發(fā)表于 09-30 10:08 ?895次閱讀
    重要通知 | Splashtop 即將停止支持 TLS <b class='flag-5'>1.0</b>/1.1

    摩爾線程發(fā)布大模型訓練仿真工具SimuMax v1.0

    近日,摩爾線程正式發(fā)布并開源大模型分布式訓練仿真工具SimuMax 1.0版本。該版本在顯存和性能仿真精度上實現(xiàn)突破性提升,同時引入多項關鍵功能,進一步增強了模型兼容性、靈活性與用戶體驗。
    的頭像 發(fā)表于 09-11 18:19 ?3943次閱讀
    摩爾線程發(fā)布大模型<b class='flag-5'>訓練</b>仿真工具SimuMax v<b class='flag-5'>1.0</b>

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    存在資源利用率不高的問題,但它是基礎探索,讓 我看到將模型分段處理以實現(xiàn)流水線作業(yè)的初步嘗試。 而 GPipe 方法的改進,通過微批次處理減少并行氣泡,如同給流水線 “疏通血管”,讓計算設備的閑置
    發(fā)表于 07-20 15:07

    大模型推理顯存和計算量估計方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過深度學習模型進行預測或分類的過程。然而,大模型的推理過程對顯存和計算資源的需求較高,這給實際應用帶來了以下挑戰(zhàn): 顯存不足:大模型在推理
    發(fā)表于 07-03 19:43

    GLAD應用:高斯光束的吸收和自聚焦效應

    ,此時介質折射率的橫向分布也是鐘形的,從而對入射光束產生會聚作用,這就是高斯光束的自聚焦效應。 系統(tǒng)描述 本例重點展示了beer以及sfocus兩個命令的使用,給出了經過吸收之后高斯光束的強度分布輪廓圖
    發(fā)表于 06-17 08:52

    華為發(fā)布天才少年挑戰(zhàn)課題發(fā)布 五大主題方向課題放榜

    華為正式發(fā)布了天才少年挑戰(zhàn)課題,誠摯邀請全球的青年才俊前來揭榜。這些挑戰(zhàn)課題覆蓋了智能聯(lián)接與計算、基礎研究與創(chuàng)新、智能終端、云計算以及智能汽
    的頭像 發(fā)表于 06-16 19:23 ?1310次閱讀

    OCR識別訓練完成后給的是空壓縮包,為什么?

    OCR識別 一共弄了26張圖片,都標注好了,點擊開始訓練,顯示訓練成功了,也將壓縮包發(fā)到郵箱了,下載下來后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您多添加點,參考我們的ocr識別
    發(fā)表于 05-28 06:46

    高性能計算面臨的芯片挑戰(zhàn)

    高性能計算(簡稱HPC)聽起來像是科學家在秘密實驗室里才會用到的東西,但它實際上是當今世界上最重要的技術之一。從預測天氣到研發(fā)新藥,甚至訓練人工智能,高性能計算系統(tǒng)都能幫助解決普通計算
    的頭像 發(fā)表于 05-27 11:08 ?1265次閱讀
    高性能<b class='flag-5'>計算</b>面臨的芯片<b class='flag-5'>挑戰(zhàn)</b>

    基于RK3576開發(fā)板的yolov11-track多目標跟蹤部署教程

    YOLO11是 Ultralytics YOLO系列實時物體檢測器的最新版本,重新定義了在尖端準確度、速度和效率方面的可能性。在前幾代 YOLO 版本的顯著進步基礎上,YOLO11 在架構和訓練方法上引入了重大改進,使其成為廣泛計算機視覺任務的靈活選擇。
    的頭像 發(fā)表于 05-24 15:07 ?2739次閱讀
    基于RK3576開發(fā)板的yolov11-track多目標跟蹤部署教程

    GLAD應用:高斯光束的吸收和自聚焦效應

    ,此時介質折射率的橫向分布也是鐘形的,從而對入射光束產生會聚作用,這就是高斯光束的自聚焦效應。 系統(tǒng)描述 本例重點展示了beer以及sfocus兩個命令的使用,給出了經過吸收之后高斯光束的強度分布輪廓圖
    發(fā)表于 05-16 08:47
    德江县| 开原市| 绍兴市| 仁布县| 高唐县| 娄底市| 新河县| 黔东| 无为县| 北宁市| 措美县| 石屏县| 安龙县| 梅州市| 井陉县| 黄龙县| 甘洛县| 黄石市| 兴山县| 本溪市| 朝阳区| 漾濞| 安吉县| 中西区| 铁岭县| 怀安县| 玛多县| 唐山市| 广平县| 蒲城县| 扶风县| 哈密市| 芦山县| 昭平县| 普兰县| 黎川县| 固阳县| 怀仁县| 凌海市| 巨鹿县| 鄯善县|