欧美亚洲韩国三级,亚洲精品久久精品,久久亚洲首页

本文轉(zhuǎn)自：Coggle數(shù)據(jù)科學

Attention Is All You Need (2017)

由Google Brain的團隊撰寫，它徹底改變了自然語言處理（NLP）領域。論文的核心是提出了一種名為Transformer的全新模型架構，它完全舍棄了以往序列模型（如循環(huán)神經(jīng)網(wǎng)絡 RNNs 和卷積神經(jīng)網(wǎng)絡 CNNs）中常用的循環(huán)和卷積結構，而是完全依賴于“注意力機制”來處理序列數(shù)據(jù)。

以往的RNN模型必須按順序逐個處理序列中的詞語，這使得訓練過程難以并行化，尤其是在處理長序列時效率很低。Transformer通過引入注意力機制，允許模型一次性處理整個序列，極大地提高了訓練效率，使得處理超大規(guī)模的數(shù)據(jù)成為可能。

為了Transformer讓模型能從不同角度和層面捕捉詞語之間的關系，作者提出了多頭注意力。它相當于并行運行多個注意力機制，每個“頭”都專注于不同的表示子空間，最后將這些結果拼接起來，使模型能夠更全面地理解復雜的關系。

BERT: Bidirectional Encoder Representations (2018)

BERT（Bidirectional Encoder Representations from Transformers）是由Google在2018年推出的一個強大的語言表示模型。與之前的模型（如OpenAI GPT）不同，BERT的核心思想是通過雙向的上下文來學習語言表示。這意味著，在預訓練過程中，模型可以同時利用一個詞語的左側(cè)和右側(cè)的上下文信息，從而獲得更深層次、更全面的語言理解能力。

掩碼語言模型 (Masked Language Model, MLM) 為了實現(xiàn)雙向?qū)W習，BERT不像傳統(tǒng)的語言模型那樣從左到右或從右到左預測下一個詞。它從輸入文本中隨機遮蓋 (mask) 掉一部分詞（通常為15%），然后讓模型去預測這些被遮蓋的詞是什么。這個任務迫使模型必須同時理解一個詞的左側(cè)和右側(cè)的上下文，才能正確地推斷出被遮蓋的詞語。這解決了之前單向模型無法同時利用雙向信息的弊端。

下一句預測 (Next Sentence Prediction, NSP) 許多重要的下游任務（如問答和自然語言推斷）需要模型理解句子之間的關系。為了解決這個問題，BERT被設計了一個下一句預測任務。在預訓練時，它輸入一對句子A和B，其中50%的B確實是A的下一句，而另外50%的B是從語料庫中隨機選取的。模型需要判斷B是否是A的真實下一句。這個任務幫助BERT學習到了句子層面的關系，使其在處理多個句子組成的任務時表現(xiàn)更佳。

BERT的架構基于Transformer的編碼器部分。它的雙向性使其能夠生成對上下文敏感的詞嵌入，這些嵌入在應用于下游任務時效果顯著。

統(tǒng)一的微調(diào)方法：BERT的另一個重要貢獻是其簡單的微調(diào) (fine-tuning)范式。預訓練好的BERT模型可以通過在其頂層添加一個簡單的輸出層，然后用特定任務的少量標注數(shù)據(jù)進行端到端的微調(diào)，就能在廣泛的NLP任務（如問答、命名實體識別、文本分類等）上取得當時最先進的（state-of-the-art）表現(xiàn)。
深遠影響：BERT的出現(xiàn)為預訓練-微調(diào)的范式設定了新的標準，證明了雙向表示的強大能力。它被認為是NLP領域的一大里程碑，啟發(fā)了此后無數(shù)基于Transformer編碼器的大型模型，極大地推動了NLP技術的發(fā)展。

T5: Text-to-Text Transfer Transformer (2019)

T5（Text-to-Text Transfer Transformer）是Google于2019年提出的一個開創(chuàng)性模型。這篇論文的核心思想非常簡潔而強大：將所有的自然語言處理（NLP）任務都統(tǒng)一為一個“文本到文本”（text-to-text）問題。這意味著，無論是機器翻譯、文本摘要、問答，還是文本分類，所有任務都被重新表述為輸入一段文本，輸出另一段文本。

例如：

翻譯：輸入 “translate English to German: That is good.”，輸出 “Das ist gut.”。
文本分類：輸入 “cola sentence: The course is jumping well.”，輸出 “not acceptable”。
摘要：輸入 “summarize: [原文]”，輸出 “ [摘要]”。

T5將不同類型的NLP任務（如生成、分類、理解）轉(zhuǎn)換為統(tǒng)一的文本輸入和文本輸出格式是可行且有效的。這使得模型可以利用大規(guī)模無監(jiān)督數(shù)據(jù)進行預訓練，并無縫地遷移到各種有監(jiān)督的下游任務中，而無需對模型架構進行任何修改。

Retrieval-Augmented Generation (RAG) (2020)

RAG是一種結合了參數(shù)化記憶（parametric memory）和非參數(shù)化記憶（non-parametric memory）**的生成模型。它旨在解決傳統(tǒng)大型語言模型（LLMs）在處理知識密集型任務時存在的局限性，例如：

知識更新困難：模型參數(shù)中的知識是固定的，無法輕松更新。
容易“幻覺”：模型可能生成聽起來合理但實際上是錯誤的事實。
無法提供來源：模型無法解釋其生成內(nèi)容的知識來源。

RAG模型由兩個主要組件組成，并且可以進行端到端的聯(lián)合訓練：

檢索器（Retriever）：

這是一個基于BERT的雙編碼器模型，用于將輸入查詢（例如問題）和外部文檔（例如維基百科段落）都編碼成向量。
通過計算向量相似度，它能從一個大型的外部知識庫（非參數(shù)化記憶，如包含2100萬個文檔的維基百科向量索引）中快速檢索出與輸入最相關的K個文檔。

生成器（Generator）：
- RAG-Sequence：為整個生成序列使用同一個檢索到的文檔。
- RAG-Token：在生成每個詞語時，都可以基于不同的檢索到的文檔。這種方法允許模型從多個來源拼湊信息，生成更復雜的答案。

這是一個基于BART的預訓練序列到序列（seq2seq）模型（即參數(shù)化記憶）。
它以輸入查詢和檢索到的文檔作為上下文，生成最終的答案或文本。
論文提出了兩種生成方式：

GPT-1: Generative Pre-Training (2018)

GPT-1由OpenAI于2018年發(fā)布，其核心思想是提出了一種半監(jiān)督學習方法，用于解決自然語言處理（NLP）中有標簽數(shù)據(jù)稀缺的問題。該方法的核心是“預訓練-微調(diào)”（pre-training and fine-tuning）范式，即：

無監(jiān)督預訓練：在一個大規(guī)模、未標注的文本語料庫上，用生成式語言模型任務來預訓練一個強大的通用語言模型。
有監(jiān)督微調(diào)：將預訓練好的模型參數(shù)作為初始化，然后用少量有標簽的目標任務數(shù)據(jù)對其進行微調(diào)。

在預訓練階段，模型的目標是根據(jù)前面所有詞語來預測下一個詞語，這是一種生成式的、從左到右的建模方式。這種方法使得模型能夠?qū)W習到廣泛的語言知識和長距離依賴關系。

Transformer的自注意力機制使其能夠更有效地捕捉長距離的依賴關系，這對于理解復雜的文本至關重要，并為模型帶來了更強的泛化能力。

GPT-1通過在輸入端對不同任務（如自然語言推斷、問答等）進行統(tǒng)一的格式化，使得所有任務都可以使用相同的模型架構進行微調(diào)，無需對模型本身進行結構上的改變。這大大簡化了模型適配不同任務的復雜性。

GPT-2: Scaling Up (2019)

GPT-2的核心主張是：語言模型在進行大規(guī)模無監(jiān)督預訓練后，能夠無需任何顯式監(jiān)督或架構修改，就能執(zhí)行多種多樣的下游任務。作者們認為，如果一個語言模型擁有足夠大的參數(shù)規(guī)模，并在一個足夠多樣化的高質(zhì)量文本數(shù)據(jù)集上進行訓練，它會“自發(fā)地”學習如何執(zhí)行這些任務，因為這些任務的示例（比如問答、翻譯等）自然存在于其訓練數(shù)據(jù)中。

語言模型本質(zhì)上是無監(jiān)督的多任務學習者。在預訓練過程中，模型為了更好地預測下一個詞，會隱式地學習到文本中存在的各種任務模式，例如：“翻譯法語：[英文]”后面跟著的往往是對應的法文翻譯。

GPT-3: Few-Shot Learning (2020)

GPT-3的核心觀點是：通過大幅增加語言模型的規(guī)模，可以使其在無需任何梯度更新或微調(diào)的情況下，僅憑少量示例（或甚至沒有示例）就能學會執(zhí)行新任務。

論文提出，傳統(tǒng)的“預訓練-微調(diào)”范式雖然有效，但需要為每個新任務收集成千上萬的標注數(shù)據(jù)。GPT-3則展示了，當模型擁有1750億參數(shù)的巨大規(guī)模時，它能夠通過“上下文學習”（in-context learning），即在輸入的文本提示中直接給出任務指令和少量演示，就表現(xiàn)出強大的零樣本（zero-shot）、單樣本（one-shot）和少樣本（few-shot）學習能力，有時甚至能與經(jīng)過微調(diào)的SOTA模型相媲美。

零樣本學習（Zero-shot）：只給模型一個自然語言指令，不提供任何示例。例如：“將以下英文翻譯成法文：[英文]”。
單樣本學習（One-shot）：提供一個任務示例和自然語言指令。例如：“將英文‘Hello’翻譯成法文‘Bonjour’。現(xiàn)在請翻譯‘Goodbye’?！?/li>
少樣本學習（Few-shot）：提供多個任務示例和自然語言指令。

ChatGPT: Conversational Interface (2022)

ChatGPT 是 OpenAI 訓練的一款大型語言模型，專門設計用于通過對話進行交互。這種對話形式使其能夠：

回答后續(xù)問題。
承認并糾正自己的錯誤。
質(zhì)疑不正確的前提。
拒絕不當或有害的請求。

ChatGPT 的訓練方法結合了監(jiān)督學習和強化學習，這一過程被稱為人類反饋強化學習（RLHF）：

監(jiān)督微調(diào)：

首先，OpenAI 雇傭了人類 AI 訓練員。
這些訓練員扮演“用戶”和“AI 助手”的角色，編寫對話，并提供模型生成的建議作為參考，以創(chuàng)建高質(zhì)量的對話數(shù)據(jù)集。
這個新的對話數(shù)據(jù)集與現(xiàn)有的 InstructGPT 數(shù)據(jù)集混合，用于訓練一個初始的 ChatGPT 模型。

強化學習：
- 為了訓練一個獎勵模型（Reward Model），OpenAI 收集了對比數(shù)據(jù)。
- AI 訓練員會評估模型為同一條提示生成的多個備選回復，并根據(jù)質(zhì)量對其進行排序。
- 利用這些排序數(shù)據(jù)，訓練出了一個獎勵模型，該模型可以根據(jù)回復的質(zhì)量給予分數(shù)。
- 最后，使用近端策略優(yōu)化（PPO）算法，根據(jù)獎勵模型的分數(shù)對初始模型進行微調(diào)，以鼓勵其生成更高質(zhì)量的回復。

GPT-4: Multimodal Capabilities (2023)

GPT-4是一個大規(guī)模、多模態(tài)的模型，能夠同時接受圖像和文本輸入，并生成文本輸出。盡管它在許多現(xiàn)實場景中仍不如人類，但在各種專業(yè)和學術基準測試中，GPT-4展現(xiàn)出了接近人類水平的性能。

GPT-4是OpenAI首個支持圖像輸入的模型。報告展示了GPT-4能夠理解圖像中的文本、圖表和幽默，并進行描述和回答相關問題。

GPT-4項目的一個核心挑戰(zhàn)是確保深度學習基礎設施能可預測地擴展。通過開發(fā)新的方法，OpenAI能夠使用比GPT-4訓練計算量少1000倍甚至10000倍的小型模型。

OpenAI Sora: World Simulation (2024)

Diffusion-based video generation
Physical world modeling from text descriptions
Temporal consistency across long sequences
Camera movement simulation

GPT-4o: Omni Model (2024)

Real-time responsiveness
Native audio input/output
Improved vision capabilities
Cost-efficient multimodal processing

Google's PaLM (2022)

PaLM（Pathways Language Model），一個擁有 5400億參數(shù)的巨型語言模型。PaLM 的訓練采用了谷歌的新型機器學習系統(tǒng) Pathways，這使得在數(shù)千個加速器芯片上進行高效訓練成為可能。

結合“鏈式思考”提示技術（即模型先生成逐步推理過程，再給出最終答案），PaLM 在多步推理任務上的表現(xiàn)超越了許多經(jīng)過微調(diào)的SOTA模型，展示了其強大的推理能力。

Switch Transformer (MoE) (2021)

Switch Transformer基于“專家混合”（Mixture-of-Experts, MoE）架構的Transformer模型。與傳統(tǒng)模型為所有輸入重用相同參數(shù)不同，MoE模型會為每個輸入動態(tài)選擇不同的參數(shù)子集。

巨大的參數(shù)規(guī)模（最高可達萬億參數(shù)）。
恒定的計算成本：由于每次只激活部分參數(shù)，計算量與一個更小的“密集”模型相當。
顯著的訓練加速：能夠比相同計算成本的密集模型（如T5-Base）快7倍以上。

Meta's OPT: First Major Open Model (2022)

Open Pre-trained Transformers (OPT)是一個由 Meta AI 訓練和發(fā)布的一系列語言模型，參數(shù)量從1.25億到1750億不等。該項目的目標是開放和負責任地與研究社區(qū)共享這些模型，以促進對大型語言模型（LLMs）的深入研究，特別是在魯棒性、偏見和毒性等關鍵挑戰(zhàn)上。

由于使用了最新的NVIDIA A100 GPU以及高效的訓練策略，OPT-175B 的開發(fā)所耗費的碳足跡僅為 GPT-3 的七分之一。

LLaMA 1: Meta's Open Research LLM (2023)

LLaMA是一個由 Meta AI 訓練和發(fā)布的系列基礎語言模型，參數(shù)量從70億到650億不等。該研究的核心論點是，通過在更多的數(shù)據(jù)上訓練更小的模型，可以在相同的計算預算下實現(xiàn)與更大模型（如PaLM-540B或GPT-3）相當甚至更優(yōu)的性能。

與之前的大型模型（如GPT-3、PaLM）不同，LLaMA系列模型完全使用公開可用的數(shù)據(jù)集進行訓練，這使其可以完全開放給研究社區(qū)，從而推動該領域的民主化。

Stanford Alpaca (2023)

Alpaca 7B是一個在LLaMA 7B模型基礎上，通過在5.2萬條指令遵循數(shù)據(jù)上進行微調(diào)而得到的模型。其主要貢獻在于，Alpaca 在指令遵循能力上定性地類似于當時最先進的閉源模型OpenAI 的text-davinci-003，但它的模型規(guī)模非常小，且訓練成本極低（不到600美元），使其可以被學術界輕松復現(xiàn)。

訓練 Alpaca 7B 的總成本低于600美元，其中數(shù)據(jù)生成成本不到500美元（通過調(diào)用OpenAI API），模型微調(diào)成本不到100美元。

LLaMA 2: Commercial Open-Source (2023)

Llama 2，一個由 Meta AI 開發(fā)和發(fā)布的新一代大型語言模型系列。該系列包括了預訓練模型 Llama 2和經(jīng)過微調(diào)的聊天模型 Llama 2-Chat，參數(shù)規(guī)模從70億到700億不等。該論文的核心貢獻在于：

發(fā)布強大的、可商用的模型：Llama 2-Chat 在大多數(shù)基準測試中表現(xiàn)優(yōu)于其他開源聊天模型，并且通過人類評估，其能力足以與一些閉源模型（如 ChatGPT）相媲美。

詳細公開其微調(diào)和安全對齊方法：論文詳細闡述了如何通過監(jiān)督式微調(diào)（SFT）和人類反饋強化學習（RLHF）來將基礎模型轉(zhuǎn)化為一個有用的、安全的聊天助手。這種開放性旨在讓研究社區(qū)能夠在此基礎上繼續(xù)研究和改進大型語言模型。

LLaMA 3: Continued Scaling (2024)

Meta Llama 3 是 Meta 推出的新一代開源大型語言模型。此次發(fā)布的初始版本包含兩個模型：8B 和 70B 參數(shù)，旨在支持廣泛的應用場景。Meta 宣稱，這些模型是同類中能力最強的開源模型，足以與領先的閉源模型（如 Claude Sonnet 和 GPT-3.5）競爭。一個更大的 400B 參數(shù)模型目前仍在訓練中，未來計劃增加多模態(tài)、多語言支持等新功能。

LLaMA 4: Mixture-of-Experts (2025)

與前代不同，Llama 4 是 Meta 首個采用專家混合架構（Mixture-of-Experts, MoE）**并原生支持**多模態(tài)功能的模型。

此次發(fā)布了兩個高效模型：

Llama 4 Scout: 擁有170億活躍參數(shù)和16個專家，能適配單張 NVIDIA H100 GPU，并擁有業(yè)內(nèi)領先的1000萬tokens超長上下文窗口。它在長文檔分析、代碼庫推理等任務上表現(xiàn)出色。
Llama 4 Maverick: 擁有170億活躍參數(shù)和128個專家，盡管總參數(shù)達4000億，但其高效率帶來了卓越的性能成本比。它在圖像和文本理解方面表現(xiàn)突出，在通用助理和聊天場景中堪稱“主力”。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1821

文章
50366

瀏覽量
267046
自然語言處理

自然語言處理

+關注

關注
1

文章
630

瀏覽量
14734
大模型

大模型

+關注

關注
2

文章
3796

瀏覽量
5276

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

小白學大模型：國外主流大模型匯總