日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

小白學大模型:國外主流大模型匯總

穎脈Imgtec ? 2025-08-27 14:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文轉(zhuǎn)自:Coggle數(shù)據(jù)科學


Attention Is All You Need (2017)

由Google Brain的團隊撰寫,它徹底改變了自然語言處理(NLP)領域。論文的核心是提出了一種名為Transformer的全新模型架構,它完全舍棄了以往序列模型(如循環(huán)神經(jīng)網(wǎng)絡 RNNs 和卷積神經(jīng)網(wǎng)絡 CNNs)中常用的循環(huán)和卷積結構,而是完全依賴于“注意力機制”來處理序列數(shù)據(jù)。

以往的RNN模型必須按順序逐個處理序列中的詞語,這使得訓練過程難以并行化,尤其是在處理長序列時效率很低。Transformer通過引入注意力機制,允許模型一次性處理整個序列,極大地提高了訓練效率,使得處理超大規(guī)模的數(shù)據(jù)成為可能。

為了Transformer讓模型能從不同角度和層面捕捉詞語之間的關系,作者提出了多頭注意力。它相當于并行運行多個注意力機制,每個“頭”都專注于不同的表示子空間,最后將這些結果拼接起來,使模型能夠更全面地理解復雜的關系。


BERT: Bidirectional Encoder Representations (2018)

BERT(Bidirectional Encoder Representations from Transformers)是由Google在2018年推出的一個強大的語言表示模型。與之前的模型(如OpenAI GPT)不同,BERT的核心思想是通過雙向的上下文來學習語言表示。這意味著,在預訓練過程中,模型可以同時利用一個詞語的左側(cè)和右側(cè)的上下文信息,從而獲得更深層次、更全面的語言理解能力。

掩碼語言模型 (Masked Language Model, MLM) 為了實現(xiàn)雙向?qū)W習,BERT不像傳統(tǒng)的語言模型那樣從左到右或從右到左預測下一個詞。它從輸入文本中隨機遮蓋 (mask) 掉一部分詞(通常為15%),然后讓模型去預測這些被遮蓋的詞是什么。這個任務迫使模型必須同時理解一個詞的左側(cè)和右側(cè)的上下文,才能正確地推斷出被遮蓋的詞語。這解決了之前單向模型無法同時利用雙向信息的弊端。

下一句預測 (Next Sentence Prediction, NSP) 許多重要的下游任務(如問答和自然語言推斷)需要模型理解句子之間的關系。 為了解決這個問題,BERT被設計了一個下一句預測任務。在預訓練時,它輸入一對句子A和B,其中50%的B確實是A的下一句,而另外50%的B是從語料庫中隨機選取的。模型需要判斷B是否是A的真實下一句。這個任務幫助BERT學習到了句子層面的關系,使其在處理多個句子組成的任務時表現(xiàn)更佳。

BERT的架構基于Transformer的編碼器部分。它的雙向性使其能夠生成對上下文敏感的詞嵌入,這些嵌入在應用于下游任務時效果顯著。

  • 統(tǒng)一的微調(diào)方法:BERT的另一個重要貢獻是其簡單的微調(diào) (fine-tuning)范式。預訓練好的BERT模型可以通過在其頂層添加一個簡單的輸出層,然后用特定任務的少量標注數(shù)據(jù)進行端到端的微調(diào),就能在廣泛的NLP任務(如問答、命名實體識別、文本分類等)上取得當時最先進的(state-of-the-art)表現(xiàn)。
  • 深遠影響:BERT的出現(xiàn)為預訓練-微調(diào)的范式設定了新的標準,證明了雙向表示的強大能力。它被認為是NLP領域的一大里程碑,啟發(fā)了此后無數(shù)基于Transformer編碼器的大型模型,極大地推動了NLP技術的發(fā)展。

T5: Text-to-Text Transfer Transformer (2019)

T5(Text-to-Text Transfer Transformer)是Google于2019年提出的一個開創(chuàng)性模型。這篇論文的核心思想非常簡潔而強大:將所有的自然語言處理(NLP)任務都統(tǒng)一為一個“文本到文本”(text-to-text)問題。這意味著,無論是機器翻譯、文本摘要、問答,還是文本分類,所有任務都被重新表述為輸入一段文本,輸出另一段文本。

例如:

  • 翻譯:輸入 “translate English to German: That is good.”,輸出 “Das ist gut.”。
  • 文本分類:輸入 “cola sentence: The course is jumping well.”,輸出 “not acceptable”。
  • 摘要:輸入 “summarize: [原文]”,輸出 “ [摘要]”。

T5將不同類型的NLP任務(如生成、分類、理解)轉(zhuǎn)換為統(tǒng)一的文本輸入和文本輸出格式是可行且有效的。這使得模型可以利用大規(guī)模無監(jiān)督數(shù)據(jù)進行預訓練,并無縫地遷移到各種有監(jiān)督的下游任務中,而無需對模型架構進行任何修改。


Retrieval-Augmented Generation (RAG) (2020)

RAG是一種結合了參數(shù)化記憶(parametric memory)非參數(shù)化記憶(non-parametric memory)**的生成模型。它旨在解決傳統(tǒng)大型語言模型(LLMs)在處理知識密集型任務時存在的局限性,例如:

  • 知識更新困難:模型參數(shù)中的知識是固定的,無法輕松更新。
  • 容易“幻覺”:模型可能生成聽起來合理但實際上是錯誤的事實。
  • 無法提供來源:模型無法解釋其生成內(nèi)容的知識來源。

RAG模型由兩個主要組件組成,并且可以進行端到端的聯(lián)合訓練:

  1. 檢索器(Retriever)
  • 這是一個基于BERT的雙編碼器模型,用于將輸入查詢(例如問題)和外部文檔(例如維基百科段落)都編碼成向量。
  • 通過計算向量相似度,它能從一個大型的外部知識庫(非參數(shù)化記憶,如包含2100萬個文檔的維基百科向量索引)中快速檢索出與輸入最相關的K個文檔
  • 生成器(Generator)
    • RAG-Sequence:為整個生成序列使用同一個檢索到的文檔。
    • RAG-Token:在生成每個詞語時,都可以基于不同的檢索到的文檔。這種方法允許模型從多個來源拼湊信息,生成更復雜的答案。
  • 這是一個基于BART的預訓練序列到序列(seq2seq)模型(即參數(shù)化記憶)。
  • 它以輸入查詢檢索到的文檔作為上下文,生成最終的答案或文本。
  • 論文提出了兩種生成方式:

GPT-1: Generative Pre-Training (2018)

GPT-1由OpenAI于2018年發(fā)布,其核心思想是提出了一種半監(jiān)督學習方法,用于解決自然語言處理(NLP)中標簽數(shù)據(jù)稀缺的問題。該方法的核心是“預訓練-微調(diào)”(pre-training and fine-tuning)范式,即:

  1. 無監(jiān)督預訓練:在一個大規(guī)模、未標注的文本語料庫上,用生成式語言模型任務來預訓練一個強大的通用語言模型。
  2. 有監(jiān)督微調(diào):將預訓練好的模型參數(shù)作為初始化,然后用少量有標簽的目標任務數(shù)據(jù)對其進行微調(diào)。

在預訓練階段,模型的目標是根據(jù)前面所有詞語來預測下一個詞語,這是一種生成式的、從左到右的建模方式。這種方法使得模型能夠?qū)W習到廣泛的語言知識和長距離依賴關系。

Transformer的自注意力機制使其能夠更有效地捕捉長距離的依賴關系,這對于理解復雜的文本至關重要,并為模型帶來了更強的泛化能力。

GPT-1通過在輸入端對不同任務(如自然語言推斷、問答等)進行統(tǒng)一的格式化,使得所有任務都可以使用相同的模型架構進行微調(diào),無需對模型本身進行結構上的改變。這大大簡化了模型適配不同任務的復雜性。


GPT-2: Scaling Up (2019)

GPT-2的核心主張是:語言模型在進行大規(guī)模無監(jiān)督預訓練后,能夠無需任何顯式監(jiān)督或架構修改,就能執(zhí)行多種多樣的下游任務。作者們認為,如果一個語言模型擁有足夠大的參數(shù)規(guī)模,并在一個足夠多樣化的高質(zhì)量文本數(shù)據(jù)集上進行訓練,它會“自發(fā)地”學習如何執(zhí)行這些任務,因為這些任務的示例(比如問答、翻譯等)自然存在于其訓練數(shù)據(jù)中。

語言模型本質(zhì)上是無監(jiān)督的多任務學習者。在預訓練過程中,模型為了更好地預測下一個詞,會隱式地學習到文本中存在的各種任務模式,例如:“翻譯法語:[英文]”后面跟著的往往是對應的法文翻譯。


GPT-3: Few-Shot Learning (2020)

GPT-3的核心觀點是:通過大幅增加語言模型的規(guī)模,可以使其在無需任何梯度更新或微調(diào)的情況下,僅憑少量示例(或甚至沒有示例)就能學會執(zhí)行新任務。

論文提出,傳統(tǒng)的“預訓練-微調(diào)”范式雖然有效,但需要為每個新任務收集成千上萬的標注數(shù)據(jù)。GPT-3則展示了,當模型擁有1750億參數(shù)的巨大規(guī)模時,它能夠通過“上下文學習”(in-context learning),即在輸入的文本提示中直接給出任務指令和少量演示,就表現(xiàn)出強大的零樣本(zero-shot)、單樣本(one-shot)和少樣本(few-shot)學習能力,有時甚至能與經(jīng)過微調(diào)的SOTA模型相媲美。

  • 零樣本學習(Zero-shot):只給模型一個自然語言指令,不提供任何示例。例如:“將以下英文翻譯成法文:[英文]”。
  • 單樣本學習(One-shot):提供一個任務示例和自然語言指令。例如:“將英文‘Hello’翻譯成法文‘Bonjour’。現(xiàn)在請翻譯‘Goodbye’?!?/li>
  • 少樣本學習(Few-shot):提供多個任務示例和自然語言指令。

ChatGPT: Conversational Interface (2022)

ChatGPT 是 OpenAI 訓練的一款大型語言模型,專門設計用于通過對話進行交互。這種對話形式使其能夠:

  • 回答后續(xù)問題。
  • 承認并糾正自己的錯誤。
  • 質(zhì)疑不正確的前提。
  • 拒絕不當或有害的請求。

ChatGPT 的訓練方法結合了監(jiān)督學習和強化學習,這一過程被稱為人類反饋強化學習(RLHF)

  1. 監(jiān)督微調(diào)
  • 首先,OpenAI 雇傭了人類 AI 訓練員。
  • 這些訓練員扮演“用戶”和“AI 助手”的角色,編寫對話,并提供模型生成的建議作為參考,以創(chuàng)建高質(zhì)量的對話數(shù)據(jù)集。
  • 這個新的對話數(shù)據(jù)集與現(xiàn)有的 InstructGPT 數(shù)據(jù)集混合,用于訓練一個初始的 ChatGPT 模型。
  • 強化學習
    • 為了訓練一個獎勵模型(Reward Model),OpenAI 收集了對比數(shù)據(jù)。
    • AI 訓練員會評估模型為同一條提示生成的多個備選回復,并根據(jù)質(zhì)量對其進行排序。
    • 利用這些排序數(shù)據(jù),訓練出了一個獎勵模型,該模型可以根據(jù)回復的質(zhì)量給予分數(shù)。
    • 最后,使用近端策略優(yōu)化(PPO)算法,根據(jù)獎勵模型的分數(shù)對初始模型進行微調(diào),以鼓勵其生成更高質(zhì)量的回復。

GPT-4: Multimodal Capabilities (2023)

GPT-4是一個大規(guī)模、多模態(tài)的模型,能夠同時接受圖像和文本輸入,并生成文本輸出。盡管它在許多現(xiàn)實場景中仍不如人類,但在各種專業(yè)和學術基準測試中,GPT-4展現(xiàn)出了接近人類水平的性能。

GPT-4是OpenAI首個支持圖像輸入的模型。報告展示了GPT-4能夠理解圖像中的文本、圖表和幽默,并進行描述和回答相關問題。

GPT-4項目的一個核心挑戰(zhàn)是確保深度學習基礎設施能可預測地擴展。通過開發(fā)新的方法,OpenAI能夠使用比GPT-4訓練計算量少1000倍甚至10000倍的小型模型。


OpenAI Sora: World Simulation (2024)

  • Diffusion-based video generation
  • Physical world modeling from text descriptions
  • Temporal consistency across long sequences
  • Camera movement simulation

GPT-4o: Omni Model (2024)

  • Real-time responsiveness
  • Native audio input/output
  • Improved vision capabilities
  • Cost-efficient multimodal processing

Google's PaLM (2022)

PaLM(Pathways Language Model),一個擁有 5400億參數(shù)的巨型語言模型。PaLM 的訓練采用了谷歌的新型機器學習系統(tǒng) Pathways,這使得在數(shù)千個加速器芯片上進行高效訓練成為可能。

結合“鏈式思考”提示技術(即模型先生成逐步推理過程,再給出最終答案),PaLM 在多步推理任務上的表現(xiàn)超越了許多經(jīng)過微調(diào)的SOTA模型,展示了其強大的推理能力。


Switch Transformer (MoE) (2021)

Switch Transformer基于“專家混合”(Mixture-of-Experts, MoE)架構的Transformer模型。與傳統(tǒng)模型為所有輸入重用相同參數(shù)不同,MoE模型會為每個輸入動態(tài)選擇不同的參數(shù)子集。

  • 巨大的參數(shù)規(guī)模(最高可達萬億參數(shù))。
  • 恒定的計算成本:由于每次只激活部分參數(shù),計算量與一個更小的“密集”模型相當。
  • 顯著的訓練加速:能夠比相同計算成本的密集模型(如T5-Base)快7倍以上。

Meta's OPT: First Major Open Model (2022)

Open Pre-trained Transformers (OPT)是一個由 Meta AI 訓練和發(fā)布的一系列語言模型,參數(shù)量從1.25億到1750億不等。該項目的目標是開放和負責任地與研究社區(qū)共享這些模型,以促進對大型語言模型(LLMs)的深入研究,特別是在魯棒性、偏見和毒性等關鍵挑戰(zhàn)上。

由于使用了最新的NVIDIA A100 GPU以及高效的訓練策略,OPT-175B 的開發(fā)所耗費的碳足跡僅為 GPT-3 的七分之一


LLaMA 1: Meta's Open Research LLM (2023)

LLaMA是一個由 Meta AI 訓練和發(fā)布的系列基礎語言模型,參數(shù)量從70億到650億不等。該研究的核心論點是,通過在更多的數(shù)據(jù)上訓練更小的模型,可以在相同的計算預算下實現(xiàn)與更大模型(如PaLM-540B或GPT-3)相當甚至更優(yōu)的性能。

與之前的大型模型(如GPT-3、PaLM)不同,LLaMA系列模型完全使用公開可用的數(shù)據(jù)集進行訓練,這使其可以完全開放給研究社區(qū),從而推動該領域的民主化。


Stanford Alpaca (2023)

Alpaca 7B是一個在LLaMA 7B模型基礎上,通過在5.2萬條指令遵循數(shù)據(jù)上進行微調(diào)而得到的模型。其主要貢獻在于,Alpaca 在指令遵循能力上定性地類似于當時最先進的閉源模型OpenAI 的text-davinci-003,但它的模型規(guī)模非常小,且訓練成本極低(不到600美元),使其可以被學術界輕松復現(xiàn)。

訓練 Alpaca 7B 的總成本低于600美元,其中數(shù)據(jù)生成成本不到500美元(通過調(diào)用OpenAI API),模型微調(diào)成本不到100美元。


LLaMA 2: Commercial Open-Source (2023)

Llama 2,一個由 Meta AI 開發(fā)和發(fā)布的新一代大型語言模型系列。該系列包括了預訓練模型 Llama 2經(jīng)過微調(diào)的聊天模型 Llama 2-Chat,參數(shù)規(guī)模從70億到700億不等。該論文的核心貢獻在于:

發(fā)布強大的、可商用的模型:Llama 2-Chat 在大多數(shù)基準測試中表現(xiàn)優(yōu)于其他開源聊天模型,并且通過人類評估,其能力足以與一些閉源模型(如 ChatGPT)相媲美。

詳細公開其微調(diào)和安全對齊方法:論文詳細闡述了如何通過監(jiān)督式微調(diào)(SFT)人類反饋強化學習(RLHF)來將基礎模型轉(zhuǎn)化為一個有用的、安全的聊天助手。這種開放性旨在讓研究社區(qū)能夠在此基礎上繼續(xù)研究和改進大型語言模型。


LLaMA 3: Continued Scaling (2024)

Meta Llama 3 是 Meta 推出的新一代開源大型語言模型。此次發(fā)布的初始版本包含兩個模型:8B 和 70B 參數(shù),旨在支持廣泛的應用場景。Meta 宣稱,這些模型是同類中能力最強的開源模型,足以與領先的閉源模型(如 Claude Sonnet 和 GPT-3.5)競爭。一個更大的 400B 參數(shù)模型目前仍在訓練中,未來計劃增加多模態(tài)、多語言支持等新功能。


LLaMA 4: Mixture-of-Experts (2025)

與前代不同,Llama 4 是 Meta 首個采用專家混合架構(Mixture-of-Experts, MoE)**并原生支持**多模態(tài)功能的模型。

此次發(fā)布了兩個高效模型:

  • Llama 4 Scout: 擁有170億活躍參數(shù)和16個專家,能適配單張 NVIDIA H100 GPU,并擁有業(yè)內(nèi)領先的1000萬tokens超長上下文窗口。它在長文檔分析、代碼庫推理等任務上表現(xiàn)出色。
  • Llama 4 Maverick: 擁有170億活躍參數(shù)和128個專家,盡管總參數(shù)達4000億,但其高效率帶來了卓越的性能成本比。它在圖像和文本理解方面表現(xiàn)突出,在通用助理和聊天場景中堪稱“主力”。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1821

    文章

    50366

    瀏覽量

    267046
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14734
  • 大模型
    +關注

    關注

    2

    文章

    3796

    瀏覽量

    5276
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型技術之MySQL ( 搜xingkeit-top )#MySQL

    模型
    jf_82580774
    發(fā)布于 :2026年04月06日 16:53:43

    世界模型vs大語言模型,圖靈獎得主#楊立昆 說“大模型是死路!”①#AI #大模型

    語言模型
    江蘇易安聯(lián)
    發(fā)布于 :2026年03月31日 10:17:40

    什么?200+核心板能跑大模型?RV1126B大模型deepseek 1.5B已經(jīng)能夠跑通啦!#大模型

    模型
    廣州靈眸科技有限公司
    發(fā)布于 :2025年12月02日 15:53:21

    小白必看:模型靜態(tài)測試效率翻倍——MXAM詳解#simulink #Siumlink模型測試

    模型
    北匯信息POLELINK
    發(fā)布于 :2025年10月24日 18:03:11

    小白模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架構中,注意力機制的計算復雜度與序列長度(即文本長度)呈平方關系()。這意味著,當模型需要處理更長的文本時(比如從幾千個詞到幾萬個詞),計算時間和所需的內(nèi)存會急劇增加。最開始
    的頭像 發(fā)表于 09-10 09:28 ?4975次閱讀
    <b class='flag-5'>小白</b><b class='flag-5'>學</b>大<b class='flag-5'>模型</b>:大<b class='flag-5'>模型</b>加速的秘密 FlashAttention 1/2/3

    如何進行YOLO模型轉(zhuǎn)換?

    我目前使用的轉(zhuǎn)模型代碼如下 from ultralytics import YOLOimport cv2import timeimport nncaseimport# 加載預訓練的YOLO模型
    發(fā)表于 08-14 06:03

    機場設備智能運維管理大模型

    模型
    中設智控
    發(fā)布于 :2025年08月13日 11:27:24

    模型在半導體行業(yè)的應用可行性分析

    的應用,比如使用機器學習分析數(shù)據(jù),提升良率。 這一些大模型是否真的有幫助 能夠在解決工程師的知識斷層問題 本人純小白,不知道如何涉足這方面 應該問什么大模型比較好,或者是看什么視頻能夠涉足這個行業(yè)
    發(fā)表于 06-24 15:10

    FA模型卡片和Stage模型卡片切換

    卡片切換 卡片切換主要包含如下三部分: 卡片頁面布局:FA模型卡片和Stage模型卡片的布局都采用類web范式開發(fā)可以直接復用。 卡片配置文件:FA模型的卡片配置在config.json中
    發(fā)表于 06-06 08:10

    FA模型和Stage模型API切換概述

    API切換概述 FA模型和Stage模型由于線程模型和進程模型的差異,部分接口僅在FA模型下才能使用,針對這部分接口在SDK的接口中有FA
    發(fā)表于 06-06 06:29

    從FA模型切換到Stage模型時:module的切換說明

    module的切換 從FA模型切換到Stage模型時,開發(fā)者需要將config.json文件module標簽下的配置遷移到module.json5配置文件module標簽下,具體差異
    發(fā)表于 06-05 08:16

    FA模型綁定Stage模型ServiceExtensionAbility介紹

    FA模型綁定Stage模型ServiceExtensionAbility 本文介紹FA模型的三種應用組件如何綁定Stage模型的ServiceExtensionAbility組件
    發(fā)表于 06-04 07:55

    FA模型訪問Stage模型DataShareExtensionAbility說明

    FA模型訪問Stage模型DataShareExtensionAbility 概述 無論FA模型還是Stage模型,數(shù)據(jù)讀寫功能都包含客戶端和服務端兩部分。 FA
    發(fā)表于 06-04 07:53

    Stage模型啟動FA模型PageAbility方法

    Stage模型啟動FA模型PageAbility 本小節(jié)介紹Stage模型的兩種應用組件如何啟動FA模型的PageAbility組件。 UIAbility啟動PageAbility
    發(fā)表于 06-04 06:36

    如何將一個FA模型開發(fā)的聲明式范式應用切換到Stage模型

    模型切換概述 本文介紹如何將一個FA模型開發(fā)的聲明式范式應用切換到Stage模型,您需要完成如下動作: 工程切換:新建一個Stage模型的應用工程。 配置文件切換:config.j
    發(fā)表于 06-04 06:22
    个旧市| 广平县| 红桥区| 上蔡县| 扶余县| 永福县| 诸暨市| 苏尼特右旗| 新干县| 广汉市| 抚州市| 永靖县| 福安市| 宁陕县| 霍林郭勒市| 郁南县| 安阳县| 左云县| 景东| 龙南县| 秦安县| 奉化市| 沙洋县| 嘉鱼县| 汉阴县| 奉化市| 嘉定区| 阜新| 榕江县| 濮阳市| 万载县| 元朗区| 太原市| 南丰县| 哈密市| 固阳县| 樟树市| 平潭县| 永顺县| 芜湖市| 滨海县|