日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

港中文賈佳亞團隊聯手MIT發(fā)布超長文本擴展技術,打破LLM遺忘魔咒

人工智能與大數據技術 ? 來源:新智元 ? 2023-10-18 15:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】大模型上下文從此不再受限!港中文賈佳亞團隊聯手MIT發(fā)布了全新超長文本擴展技術LongLoRA,只需2行代碼,讓LLM看小說,讀論文,輕松拿捏。

中途迷失、模型偷懶、上下文越長大模型越笨……

體驗過LLM的人,多少都會對文本輸入長度帶來的限制有所感觸:

想和大模型討論一些稍長的內容,就需要拆分輸入,而前面輸入的要點,很快就會被大模型忘記。

實際上,這些都是典型的大語言模型對話缺陷。就像先天有注意力缺陷的兒童,難以專注看完一本新書。而缺陷的關鍵,在于模型缺乏長文本處理能力。

如今,這個局面已經被打破了!

就在近日,由賈佳亞團隊聯合MIT發(fā)布的新技術和新模型,悄然登上各大開源網站的熱榜:

Hugging Face熱榜第一、Papers With Code熱度第一,Github全部Python項目熱度第五、Github Stars一周內破千,Twitter上的相關技術帖子瀏覽量近18萬。..。..

0f7c3d5e-6d58-11ee-939d-92fbcf53809c.png

論文地址:https://arxiv.org/abs/2309.12307

代碼和Demo地址:https://github.com/dvlab-research/LongLoRA

0f8c40e6-6d58-11ee-939d-92fbcf53809c.png

GitHub Stars已達1.3k

0f9797d4-6d58-11ee-939d-92fbcf53809c.png

Twitter上的相關技術帖子瀏覽量近18萬

這項名為LongLoRA的技術實用但卻簡單得令人驚訝:

只需兩行代碼、一臺8卡A100機器,便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens。

同時,該研究團隊還發(fā)布了首個擁有70B參數量的長文本對話大語言模型LongAlpaca。

全球首個70B長文本大語言模型發(fā)布

LongLoRA的提出,讓全球大語言模型的對話缺陷第一次得到解決,自此,幾十頁的論文、幾百頁的報告、鴻篇巨制不再成為大模型盲區(qū)。

對此,有專業(yè)人士激動地表示,LongLoRA是大語言模型迷宮中的希望之燈!

它代表著業(yè)界對長文本大語言模型的重新思考和關注,有效擴展了大語言模型的上下文窗口,允許模型考慮和處理較長的文本序列,是大語言模型的革新性發(fā)明。

0fa3aa1a-6d58-11ee-939d-92fbcf53809c.png

除了技術革新外,大語言模型處理長文本問題的一大難點還在于缺少公開的長文本對話數據。

為此,研究團隊特意收集了9k條長文本問答語料對,包含針對名著、論文、深度報道甚至財務報表的各類問答。

光會回答長問題還不夠,該團隊又挑選了3k的短問答語料與9K的長問答語料混合訓練,讓長文本大模型同時具備短文本對話能力。這個完整的數據集被稱為LongAlpaca-12k,目前已經開源。

在LongAlpaca-12k數據集基礎上,研究團隊對不同參數大小7B、13B、70B進行了訓練和評測,開源模型包括LongAlpaca-7B、LongAlpaca-13B和LongAlpaca-70B。

看小說、改論文、指點經濟堪稱全能王

話不多說,盲選幾個demo,一起看看應用了LongLoRA技術疊加12K問答語料的大模型LongAlpaca效果。

0fad40ca-6d58-11ee-939d-92fbcf53809c.png

讓系統(tǒng)新讀一篇論文,并根據ICLR的審查指南,對其提出修改意見,從而提升該論文的接收率:

LongAlpaca的意見是:通過更精確地闡明新穎性,提供更嚴格和更有對比性的實驗結果(包括具體的數據集和指標)、更廣泛的應用和未來發(fā)展方向,重點呈現關鍵貢獻和影響,論文被接受的機會將得到提高。

0fcaaae8-6d58-11ee-939d-92fbcf53809c.png

現在,讓系統(tǒng)讀兩篇新的不同的論文,讓LongAlpaca概括ICLR和CVPR兩個會議之間的風格區(qū)別:

LongAlpaca總結認為,CVPR論文傾向更具結構性和實驗性的風格,專注于實用性和技術性。而ICLR的論文風格更加靈活,側重關鍵的理論分析和數學推導,而非標準格式。

可以看出,經過訓練的LongAlpaca模型已經可以很輕松地接受新的長篇學術論文,在學術相關問題的回答上相當精準。

接下來,再看看LongAlpaca模型在頗高閱讀和理解門檻的經濟領域的解讀表現。

0fd011c2-6d58-11ee-939d-92fbcf53809c.png

0fe03494-6d58-11ee-939d-92fbcf53809c.png

根據國際貨幣基金組織從2012年到2023年的全球經濟展望的概述合集,對經濟形勢進行逐年總結以及對未來經濟趨勢進行預測:

LongAlpaca告訴我們,2023年全球經濟形勢不明朗,跟2022年相比,增長預計放緩;未來幾年,全球經濟擴張速度偏溫和并將低于預期,而地緣政治緊張、金融市場波動等大的挑戰(zhàn)依然存在,需通過多邊合作和結構性改革小心應對。

此外,LongAlpaca還可以讀新的長篇小說,讀完后對內容進行分析。

下面選取的對比模型是13B參數的LongAlpaca和Llama2,且看各自表現。

0fe4e098-6d58-11ee-939d-92fbcf53809c.png

名著《西游記》中,為什么孫悟空在大鬧天宮時很厲害,但取經路上卻屢屢受挫?

LongAlpaca給出了5點原因,大概可總結為:「孫悟空的不成熟、強大的對手、力量的限制、敵人的欺騙、最初缺少同伴等因素導致了他在旅途中的失敗。但隨著時間推移,他獲得了智慧、經驗和戰(zhàn)友,使他最終戰(zhàn)勝了最強大的敵人?!?/p>

而Llama2并沒有給出正確答案:「雖然他確實大鬧天宮,但說他代表著不敗的力量并不一定準確。事實上,他最終在西游記中被強大的唐三藏打敗?!?/p>

0ff7dff4-6d58-11ee-939d-92fbcf53809c.png

這一次讓系統(tǒng)新讀一次《三體》,然后問第一部中,葉文潔為什么要聯系外星人,而后期又為什么后悔?

LongAlpaca認為,葉文潔最初接觸外星人是出于理想主義和復仇,但隨著時間的推移,她對人類的看法發(fā)生了變化,意識到自己可能給全人類帶來的危險,她的悔恨與日俱增?;卮鸬檬智逦?/p>

而Llama2的回答則是,「通過與外星人的互動,她希望能更深入地了解宇宙的本質,以及自己在宇宙中的位置。葉文潔逐漸意識到,外星人和他們的技術并不能解決她的問題?!够卮鸹\統(tǒng),之后開始對小說整體進行評論,答非所問。

從模型給出的答案可發(fā)現,一些模型如Llama2[2]可能在預訓練過程中見過相關小說,但如果在提問時進行僅根據小說題目進行短文本提問的話,回答并不理想。

兩個模型的回答對比,高下立見。LongAlpaca改學術論文、點評全球經濟大勢和讀小說,都是一把好手,完勝Llama2。

兩行代碼和三個關鍵結論

Llama2可以說是AI社區(qū)內最強大的開源大模型之一,行業(yè)位置領先,LongAlpaca居然可以完勝。其背后的LongLoRA技術成功引起網友們的注意,到底是怎么做到的?

原來大語言模型對長文本處理過程中,計算量的主要開銷集中在自注意力機制(self-attention),其開銷隨著文本長度成平方次地增加。

針對這個問題,研究團隊提出LongLoRA技術,并用分組和偏移的方式來對全局自注意力機制進行模擬。

100e3a7e-6d58-11ee-939d-92fbcf53809c.png

簡單來說,就是將長文本對應的tokens拆分成不同的組,在每組內部做自注意力計算,而分組的方式在不同注意力頭(attention head)上有所偏移。

這樣的方式既可以大幅度節(jié)約計算量,又可以維持全局感受野的傳遞。

而且,這個實現方法也非常簡潔,僅兩行代碼即可完成!

10135b12-6d58-11ee-939d-92fbcf53809c.png

除此之外,LongLoRA還探索了低秩訓練的方式。

原有的低秩訓練方式,如LoRA[5],無法在文本長度遷移上取得良好的效果。

而LongLoRA在低秩訓練的基礎上,引入嵌入層(Embedding layer和 Normalization layers)進行微調,從而達到可以和全參數微調(Full fine-tune)逼近的效果。

101f5340-6d58-11ee-939d-92fbcf53809c.png

進行不同長度文本擴展和訓練時,LongLoRA、LoRA和全參數微調不同技術的具體效果如何,可以參考三個維度表現:

在Perplexity-困惑度上,原有LoRA方法的性能在不斷惡化,而LongLoRA和全參數微調都能在各種文本長度下維持很好的效果;

在顯存消耗上,相比于全參數微調,LongLoRA和原有LoRA都有大幅度的節(jié)省。例如,對于8k長度的模型訓練,相比于全參數微調,LongLoRA將顯存消耗從46.3GB降低到25.6GB。

在訓練時間上,對于64k長度的模型訓練,相比于常規(guī)LoRA,LongLoRA將訓練時間從90~100小時左右降低到52.4小時,而全參數微調超過1000小時。

極簡的訓練方法、極少的計算資源和時間消耗,以及極佳的準確性,令LongLoRA大規(guī)模推廣成為可能。

目前,相關技術與模型已全部開源,感興趣的用戶們可以自己部署感受。

值得一提的是,這是賈佳亞團隊繼8月9日發(fā)布的「可以分割一切」的多模態(tài)大模型LISA后的又一力作。

相距不過短短兩個月,不得不說,這研究速度和能力跟LongLoRA一樣驚人。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    575

    瀏覽量

    11345
  • 數據集
    +關注

    關注

    4

    文章

    1240

    瀏覽量

    26264
  • LLM
    LLM
    +關注

    關注

    1

    文章

    350

    瀏覽量

    1397

原文標題:2行代碼,「三體」一次讀完!港中文賈佳亞團隊聯手MIT發(fā)布超長文本擴展技術,打破LLM遺忘魔咒

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Google正式發(fā)布LLM評測基準Android Bench

    LLM 在 Android 開發(fā)任務中的表現?,F在,我們發(fā)布了 Android Bench 的首個版本,這是 Google 官方專門針對 Android 開發(fā)打造的 LLM 排行榜。
    的頭像 發(fā)表于 03-14 16:00 ?1927次閱讀
    Google正式<b class='flag-5'>發(fā)布</b><b class='flag-5'>LLM</b>評測基準Android Bench

    廣州團隊研制出機器人“觸覺皮膚”

    應用的無限可能。 日前,科大(廣州)訾云龍教授團隊在國際頂尖期刊《先進材料》(《AdvancedMaterials》)上發(fā)表了最新研究成果,成功研制出全球首個毫米級分辨率的雙模態(tài)觸覺傳感器陣列。據悉,該前沿
    的頭像 發(fā)表于 03-11 15:43 ?2599次閱讀

    新品 | LLM-8850 Kit,高性能AI加速卡套件 DinMeter v1.1,1/32DIN標準嵌入式開發(fā)板

    LLM-8850Card基于AxeraAX8850SoC,采用M.2M-Key2242規(guī)格,在袖珍體積下即可提供高達24TOPS@INT8的算力,能夠高效擴展多模態(tài)大模型推
    的頭像 發(fā)表于 01-30 16:11 ?1426次閱讀
    新品 | <b class='flag-5'>LLM</b>-8850 Kit,高性能AI加速卡套件 DinMeter v1.1,1/32DIN標準嵌入式開發(fā)板

    廣汽埃安UT在香港維多利亞港畔正式上市

    12月19日,廣汽埃安UT在香港維多利亞港畔正式上市。埃安UT作為廣汽面向全球市場打造的精品小車,不僅為香港用戶帶來了高科技、高品質的出行選擇,更標志著廣汽“One GAC 2.0”全球化戰(zhàn)略下
    的頭像 發(fā)表于 12-28 11:00 ?853次閱讀

    【CIE全國RISC-V創(chuàng)新應用大賽】+ 一種基于LLM的可通過圖像語音控制的元件庫管理工具

    一種基于LLM的可通過圖像語音控制的元件庫管理工具 項目概述 ? 庫存管理在我們的生活中幾乎無處不在,在許多小型的庫存當中,比如實驗室中的庫存管理,往往沒有人去專職維護,這就會導致在日積月累中逐漸
    發(fā)表于 11-12 19:32

    解密 IXE 離子捕捉劑:日本東亞合成如何破解電子行業(yè)的 “離子魔咒”?

    在電子技術向高密度、高可靠性升級的過程中,“離子魔咒” 始終如影隨形 —— 銀離子遷移導致 PCB 短路、氯離子腐蝕芯片布線、鈉離子影響材料穩(wěn)定性,這些隱形故障讓無數電子工程師頭疼不已。而日本東亞
    的頭像 發(fā)表于 11-12 16:12 ?744次閱讀
    解密 IXE 離子捕捉劑:日本東亞合成如何破解電子行業(yè)的 “離子<b class='flag-5'>魔咒</b>”?

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    ,TensorRT LLM 還承擔著推理領域新技術載體的角色,通過將前沿創(chuàng)新引入 LLM 推理生態(tài),持續(xù)提升整個生態(tài)系統(tǒng)合作伙伴的技術能力。
    的頭像 發(fā)表于 10-21 11:04 ?1465次閱讀

    中國團隊成功創(chuàng)制納米級關鍵材料

    據科技日報報道;安徽師范大學傳來好消息,安徽師范大學校長熊宇杰教授聯合中國科學技術大學相關科研團隊,在溫和條件下利用激光輻照所激發(fā)的等離激元光熱效應和熱電子效應,成功創(chuàng)制出納米級高熵合金,這一
    的頭像 發(fā)表于 10-20 15:58 ?811次閱讀

    廣和通發(fā)布端側情感對話大模型FiboEmo-LLM

    9月,廣和通正式發(fā)布自主研發(fā)的端側情感對話大模型FiboEmo-LLM。該模型專注于情感計算與自然語言交互融合,致力于為AI玩具、智能陪伴設備等終端場景提供“情感理解-情感響應”一體化能力,推動終端人工智能向更具人性化、情感化的方向演進。
    的頭像 發(fā)表于 09-26 13:37 ?2050次閱讀

    米爾RK3576部署端側多模態(tài)多輪對話,6TOPS算力驅動30億參數LLM

    。 從技術內核看,它通過 “視覺編碼器 + LLM + 對話管家” 的模塊化設計,平衡了推理性能與開發(fā)靈活性:W4A16 量化方案讓 30 億參數模型適配 6 TOPS 算力,KV-Cache 動態(tài)
    發(fā)表于 09-05 17:25

    3萬字長文!深度解析大語言模型LLM原理

    我們正在參加全球電子成就獎的評選,歡迎大家?guī)臀覀兺镀薄x謝支持本文轉自:騰訊技術工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數學解決了工業(yè)場景的問題,筆者基于過往工程經驗
    的頭像 發(fā)表于 09-02 13:34 ?3627次閱讀
    3萬字<b class='flag-5'>長文</b>!深度解析大語言模型<b class='flag-5'>LLM</b>原理

    Votee AI借助NVIDIA技術加速方言小語種LLM開發(fā)

    了精準的方言及小語種大語言模型 (LLM)。此舉成功解決了數據稀缺、語言復雜及計算效率等挑戰(zhàn),為全球數以百萬計、缺乏數字化資源的語言使用者提供了技術支持。
    的頭像 發(fā)表于 08-20 14:21 ?1049次閱讀

    佛瑞如何通過信息技術推動業(yè)務增長

    在數字化、信息化的浪潮下,信息技術已經不僅是后臺工具,更成為驅動企業(yè)發(fā)展的關鍵力量。本期Women Inspiring Mobility,我們采訪了佛瑞中國區(qū)信息技術總監(jiān)馬瑛,了解她和團隊
    的頭像 發(fā)表于 07-29 14:00 ?1067次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應用原型驗證與產品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2472次閱讀

    LM Studio使用NVIDIA技術加速LLM性能

    隨著 AI 使用場景不斷擴展(從文檔摘要到定制化軟件代理),開發(fā)者和技術愛好者正在尋求以更 快、更靈活的方式來運行大語言模型(LLM)。
    的頭像 發(fā)表于 06-06 15:14 ?1486次閱讀
    LM Studio使用NVIDIA<b class='flag-5'>技術</b>加速<b class='flag-5'>LLM</b>性能
    双城市| 穆棱市| 宁都县| 静乐县| 钟山县| 于田县| 罗源县| 甘南县| 阳新县| 稷山县| 海丰县| 蒙山县| 伽师县| 托克逊县| 远安县| 灵宝市| 镇江市| 嘉峪关市| 通渭县| 昆明市| 徐水县| 贵南县| 平陆县| 贡觉县| 金昌市| 虎林市| 梅河口市| 阳泉市| 潮州市| 北碚区| 都江堰市| 西贡区| 紫阳县| 姚安县| 小金县| 塔河县| 阿图什市| 莱芜市| 滁州市| 河池市| 册亨县|