日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

32k上下文可商用!羊駝進化成長頸鹿,“開源大模型之最”

深度學(xué)習(xí)自然語言處理 ? 來源:量子位 ? 2023-08-25 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

號稱“世界首個上下文長度達32k的開源可商用大模型”來了。

名字“簡單粗暴”,就叫“長頸鹿”(Giraffe),基于130億規(guī)模的Llama-2打造。

c5db892e-4323-11ee-a2ef-92fbcf53809c.png

如作者所言,原始的Llama-2和Llama-1都只有4k上下文,很難真正在企業(yè)領(lǐng)域被商用。

而現(xiàn)在這個是其8倍的“Giraffe”,直接改變這一局面:

能夠一次處理更大文檔、維持更長時間對話、執(zhí)行更復(fù)雜檢索且結(jié)果出錯更少……在開源大模型界中,可謂真正的商業(yè)/企業(yè)友好。

網(wǎng)友紛紛表示:“太有用了”、“馬上就要試試”。

c5f7b338-4323-11ee-a2ef-92fbcf53809c.png

所以,長頸鹿是如何從羊駝“進化”而來的?

擴充上下文長度的探索

長頸鹿的作者來自Abacus.AI

這是一家搞AI數(shù)據(jù)科學(xué)平臺的初創(chuàng)企業(yè),成立于2019年,已完成5000萬元C輪融資。

為了擴展開源模型的上下文長度,他們將目前最突出的已有方法整理在一起,并進行徹底測試確定出最有效的方法。

在此之上,他們也提出了一些新思路,其中一種稱為“截斷(truncation)”,它表現(xiàn)出了不小的潛力。

c671c47a-4323-11ee-a2ef-92fbcf53809c.png

具體來看:

首先團隊發(fā)現(xiàn),目前已有的長下文外推方法普遍都是通過修改注意力機制中使用的位置編碼系統(tǒng),指示token和activation在輸入序列中的位置而完成。

包括線性縮放/位置插值、xPos、隨機化位置編碼等等。

在此,他們提出了兩種新方法。

一個叫Power Scaling,主要是對原始的RoPE編碼進行了如下變換:

c68e7b88-4323-11ee-a2ef-92fbcf53809c.png

這使得基礎(chǔ)的高頻(短距離)元素比低頻(長距離)元素受到的影響更小,讓模型不得不對低頻元素進行不那么復(fù)雜的外推,從而讓整體得到提升。

另一個方法叫Truncated Basis(也就是上面所說的“截斷”),主要是對原始RoPE編碼進行了如下變換:

c6c66552-4323-11ee-a2ef-92fbcf53809c.png

其中ρ是一個相對較小的固定值,a和b是選定的截止值。

作者在這里的想法是,保留basis的高頻分量,但將低頻分量設(shè)置為恒定值(比如0)。

而通過明智地選擇截止值a,模型就可以在微調(diào)期間(由于正弦函數(shù)和正弦函數(shù)的周期性)經(jīng)歷上下文長度中的所有basis值,從而更好地外推到更大的上下文長度。

接下來,便是對以上這些方法進行徹底測試。

在此,作者認(rèn)為,很多人只用困惑度來衡量模型的長下文能力是遠(yuǎn)遠(yuǎn)不夠的,因為它的細(xì)粒度不夠。

為此,除了困惑度,他們還加了三個新的評估任務(wù)(都已公開發(fā)布到HuggingFace之上):

FreeFormQA、AlteredNumericQA和LongChat Lines,其中前兩個是一類,為問答任務(wù),第三個為關(guān)鍵值檢索任務(wù)。

通過使用這兩種類型的任務(wù),我們能夠強制要求模型更加關(guān)注完整的上下文,從而獲得高精度的測試結(jié)果。

那么結(jié)果如何?

直接上結(jié)論:

首先,線性插值是最好的上下文長度外推方法。

其次,所有上下文長度外推方法都隨著長度的增加,在任務(wù)準(zhǔn)確性上出現(xiàn)了下降。

第三,通過在評估階段使用比微調(diào)時更高的比例因子,可以進一步增加上下文長度,但比例因子似乎最多只能提高2倍。

以下是這些方法在三個評估數(shù)據(jù)集上的具體表現(xiàn)(精度為1.0表示性能完美,0.0表示每次評估都是錯誤的):

c6d58db6-4323-11ee-a2ef-92fbcf53809c.png

△ LongChat Lines

c6e605a6-4323-11ee-a2ef-92fbcf53809c.png

△ AlteredNumericQA和FreeFormQA

可以看到,除了佐證上面的結(jié)論,作者們新提出的Truncated Basis方法表現(xiàn)確實不錯,有一定的前景。

而基于以上研究,團隊也在LLaMA2-13B基礎(chǔ)模型上發(fā)布了長頸鹿大模型,當(dāng)然,用的是性能最優(yōu)的線性插值法。

根據(jù)上下文長度不同,長勁鹿家族最終一共有三個版本:4k、16k和32k,感興趣的朋友就可以去HuggingFace上下載了。

c700bb76-4323-11ee-a2ef-92fbcf53809c.png

其實是并列第一

雖然Abacus.AI號稱長頸鹿是世界首個上下文可達32k的開源LLM,但Together.AI其實更為搶先一步:

他們已在本月初發(fā)布了32k的Llama-2-7B大模型(已有近1萬7千次下載),以及在上周五發(fā)布了llama-2-7b-32k-instruct。

c70c966c-4323-11ee-a2ef-92fbcf53809c.png

大家的上下文長度一樣,唯一的大區(qū)別是Together.AI的參數(shù)規(guī)模要小些。

現(xiàn)在,大伙也好奇能不能出一個對比,看看究竟誰更勝一籌。

c721fde0-4323-11ee-a2ef-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    1041

    瀏覽量

    57160
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4375

    瀏覽量

    46478
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3805

    瀏覽量

    5282

原文標(biāo)題:32k上下文可商用!羊駝進化成長頸鹿,“開源大模型之最”

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    燧弘華創(chuàng)HonMaaS平臺深度適配DeepSeek-V4大模型

    近日,DeepSeek 正式發(fā)布全新一代系列模型——DeepSeek-V4 預(yù)覽版并全面開源,標(biāo)志著大模型行業(yè)正式邁入百萬級上下文普惠新時代。憑借深厚技術(shù)積淀,燧弘華創(chuàng)AI
    的頭像 發(fā)表于 05-06 14:55 ?238次閱讀
    燧弘華創(chuàng)HonMaaS平臺深度適配DeepSeek-V4大<b class='flag-5'>模型</b>

    寧暢AI服務(wù)器全棧適配DeepSeek V4大模型

    4月24日,國產(chǎn)大模型領(lǐng)域迎來重磅發(fā)布——DeepSeekV4系列正式亮相。這款新一代旗艦大模型,以雙版本MoE架構(gòu)、百萬Token超長上下文、純文本超強推理能力,以及極致的算力效率,刷新了
    的頭像 發(fā)表于 04-29 11:11 ?519次閱讀

    華為云首發(fā)適配DeepSeek-V4模型

    4月24日,DeepSeek-V4模型正式發(fā)布并開源,華為云首發(fā)適配。DeepSeek-V4擁有百萬Token超長上下文,在Agent能力、世界知識和推理性能上均實現(xiàn)國內(nèi)與開源領(lǐng)域的領(lǐng)
    的頭像 發(fā)表于 04-28 17:01 ?568次閱讀

    華為昇騰超節(jié)點系列產(chǎn)品全面支持DeepSeek V4模型

    2026年4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式發(fā)布并開源,模型上下文處理長度由原有的128K顯著擴展至1M,實現(xiàn)近10倍的容量提升,首次增
    的頭像 發(fā)表于 04-28 17:00 ?475次閱讀

    天數(shù)智芯深度適配騰訊混元開源Hy3 preview大模型

    4 月 23 日,騰訊混元正式發(fā)布并開源 Hy3 preview 大模型,作為混元重建后的首個版本,該模型以全面實用性為核心,在復(fù)雜推理、長上下文、代碼與智能體等能力上實現(xiàn)顯著躍升,為
    的頭像 發(fā)表于 04-24 17:56 ?1778次閱讀
    天數(shù)智芯深度適配騰訊混元<b class='flag-5'>開源</b>Hy3 preview大<b class='flag-5'>模型</b>

    騰訊Hy3 preview開源:重構(gòu)AI大模型技術(shù)范式,開啟智能計算新紀(jì)元

    2026年4月23日,騰訊混元正式開源其最新語言模型Hy3 preview,這款被官方定義為“混元迄今最智能的模型”的產(chǎn)品,以2950億總參數(shù)、210億激活參數(shù)的混合專家架構(gòu),配合256K
    的頭像 發(fā)表于 04-24 09:07 ?888次閱讀

    安信AI語音模組支持MCP模型上下文協(xié)議

    安信 PalChat 系列(V1/V2)支持 MCP(模型上下文協(xié)議),工程師只需寫幾十行 C 代碼,就能讓 AI 模型直接控制硬件設(shè)備。V1 基于 Ai-WB2-12F,適合快速驗
    的頭像 發(fā)表于 04-15 09:54 ?518次閱讀

    工作流大模型節(jié)點說明

    推薦。 輸入 模型的輸入可以選取前面節(jié)點的輸入和輸出的參數(shù),也可以手動輸入具體的值。 模型根據(jù)輸入的參數(shù),以及提示詞,生成回復(fù)。 會話上下文 開關(guān)控制是否將會話上下文信息發(fā)送到
    發(fā)表于 03-19 14:56

    NVIDIA BlueField-4為推理上下文記憶存儲平臺提供強大支持

    隨著代理式 AI 工作流將上下文窗口擴展到數(shù)百萬個 token,并將模型規(guī)模擴展到數(shù)百萬億個參數(shù),AI 原生企業(yè)正面臨著越來越多的擴展挑戰(zhàn)。這些系統(tǒng)目前依賴于智能體長期記憶來存儲跨多輪、工具和會話持續(xù)保存的上下文,以便智能體能夠
    的頭像 發(fā)表于 02-02 10:29 ?1332次閱讀
    NVIDIA BlueField-4為推理<b class='flag-5'>上下文</b>記憶存儲平臺提供強大支持

    深入解析NVIDIA Nemotron 3系列開放模型

    這一全新開放模型系列引入了開放的混合 Mamba-Transformer MoE 架構(gòu),使多智能體系統(tǒng)能夠進行快速長上下文推理。
    的頭像 發(fā)表于 12-24 10:34 ?4376次閱讀
    深入解析NVIDIA Nemotron 3系列開放<b class='flag-5'>模型</b>

    大語言模型如何處理上下文窗口中的輸入

    本博客介紹了五個基本概念,闡述了大語言模型如何處理上下文窗口中的輸入。通過明確的例子和實踐中獲得的見解,本文介紹了多個與上下文窗口有關(guān)的基本概念,如詞元化、序列長度和注意力等。
    的頭像 發(fā)表于 12-03 13:48 ?793次閱讀
    大語言<b class='flag-5'>模型</b>如何處理<b class='flag-5'>上下文</b>窗口中的輸入

    【CIE全國RISC-V創(chuàng)新應(yīng)用大賽】基于 K1 AI CPU 的大模型部署落地

    量化” 策略。我們必須使用 Q2_K (2-bit) 量化格式,將模型體積壓縮到 5.5GB 左右,從而在 8GB 內(nèi)存上給 KV Cache(上下文)留出空間。 以下是按照官方工具鏈針對 14B
    發(fā)表于 11-27 14:43

    請問riscv中斷還需要軟件保存上下文和恢復(fù)嗎?

    以下是我拷貝的文檔里的說明,這個中斷處理還需要軟件來寫上下文保存和恢復(fù),在使用ARM核的單片機都不需要考慮這些的,使用過的小伙伴能解答嗎? 3.8. 進出中斷的上下文保存和恢復(fù) RISC-V架構(gòu)
    發(fā)表于 10-20 09:56

    三張圖深入分析京東開源Genie的8大亮點

    京東開源的Genie智能體的8大亮點: 插拔多Agent和多種工具 迭代式規(guī)劃 跨任務(wù)上下文和文件共享 數(shù)字員工提升用戶體驗 大模型+搜索構(gòu)建深度搜素 CodeTool構(gòu)建智能代碼生
    的頭像 發(fā)表于 07-27 12:40 ?572次閱讀
    三張圖深入分析京東<b class='flag-5'>開源</b>Genie的8大亮點

    鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無法在EntryAbility中無法使用最新版

    摘要:隨著鴻蒙系統(tǒng)API升級至16版本(modelVersion5.1.1),多項API已廢棄。獲取上下文需使用UIContext,具體方法包括:在組件中使用getUIContext(),在類中使
    的頭像 發(fā)表于 07-01 10:57 ?921次閱讀
    鴻蒙NEXT-API19獲取<b class='flag-5'>上下文</b>,在class中和ability中獲取<b class='flag-5'>上下文</b>,API遷移示例-解決無法在EntryAbility中無法使用最新版
    全州县| 大厂| 同仁县| 威远县| 吕梁市| 镇平县| 雷波县| 金阳县| 抚远县| 汾阳市| 大英县| 安丘市| 甘泉县| 金川县| 普定县| 长泰县| 青铜峡市| 胶南市| 佛坪县| 获嘉县| 陇南市| 永善县| 聂拉木县| 上犹县| 舒城县| 虎林市| 丰台区| 聂荣县| 湖北省| 昌黎县| 鲁甸县| 团风县| 简阳市| 永嘉县| 浪卡子县| 浦东新区| 淮滨县| 南平市| 沈阳市| 准格尔旗| 天祝|