日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

商湯科技正式發(fā)布并開源全新多模態(tài)模型架構(gòu)NEO

商湯科技SenseTime ? 來源:商湯科技SenseTime ? 2025-12-08 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

商湯科技正式發(fā)布并開源了與南洋理工大學(xué)S-Lab合作研發(fā)的全新多模態(tài)模型架構(gòu) ——NEO,為日日新SenseNova多模態(tài)模型奠定了新一代架構(gòu)的基石。

作為行業(yè)首個可用的、實現(xiàn)深層次融合的原生多模態(tài)架構(gòu)(Native VLM),NEO從底層原理出發(fā),打破了傳統(tǒng)“模塊化”范式的桎梏,以“專為多模態(tài)而生”的創(chuàng)新設(shè)計,通過核心架構(gòu)層面的多模態(tài)深層融合,實現(xiàn)了性能、效率和通用性的整體突破,重新定義了多模態(tài)模型的效能邊界,標(biāo)志著人工智能多模態(tài)技術(shù)正式邁入“原生架構(gòu)”的新時代。

論文網(wǎng)址:https://arxiv.org/abs/2510.14979

Github開源網(wǎng)址:https://github.com/EvolvingLMMs-Lab/NEO(點擊閱讀原文即可跳轉(zhuǎn))

打破瓶頸告別“拼湊”,擁抱“原生”

b8f02de6-cea4-11f0-8c8f-92fbcf53809c.png

當(dāng)前,業(yè)內(nèi)主流的多模態(tài)模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式。這種基于大語言模型(LLM)的擴(kuò)展方式,雖然實現(xiàn)了圖像輸入的兼容,但本質(zhì)上仍以語言為中心,圖像與語言的融合僅停留在數(shù)據(jù)層面。這種“拼湊”式的設(shè)計不僅學(xué)習(xí)效率低下,更限制了模型在復(fù)雜多模態(tài)場景下(比如涉及圖像細(xì)節(jié)捕捉或復(fù)雜空間結(jié)構(gòu)理解)的處理能力。

商湯NEO架構(gòu)正是為了解決這一痛點而生。早在2024年下半年,商湯便在國內(nèi)率先突破多模態(tài)原生融合訓(xùn)練技術(shù),以單一模型在SuperCLUE語言評測 和OpenCompass多模態(tài)評測中奪冠,并基于這一核心技術(shù)打造了日日新SenseNova 6.0,實現(xiàn)多模態(tài)推理能力領(lǐng)先。

之后,在2025年7月發(fā)布日日新SenseNova 6.5通過實現(xiàn)編碼器層面的早期融合,把多模態(tài)模型性價比提升3倍,并在國內(nèi)率先推出商用級別的圖文交錯推理。商湯此次更進(jìn)一步,徹底摒棄了傳統(tǒng)的模塊化結(jié)構(gòu),從底層原理出發(fā),推出了從零設(shè)計的NEO原生架構(gòu)。

三大內(nèi)核創(chuàng)新實現(xiàn)視覺和語言的深層統(tǒng)一

b9474c02-cea4-11f0-8c8f-92fbcf53809c.png

NEO架構(gòu)以極致效率和深度融合為核心理念,通過在注意力機(jī)制、位置編碼和語義映射三個關(guān)鍵維度的底層創(chuàng)新,讓模型天生具備了統(tǒng)一處理視覺與語言的能力:

原生圖塊嵌入(Native Patch Embedding):摒棄了離散的圖像tokenizer,通過獨創(chuàng)的Patch Embedding Layer (PEL)自底向上構(gòu)建從像素到詞元的連續(xù)映射。這種設(shè)計能更精細(xì)地捕捉圖像細(xì)節(jié),從根本上突破了主流模型的圖像建模瓶頸。

原生三維旋轉(zhuǎn)位置編碼(Native-RoPE):創(chuàng)新性地解耦了三維時空頻率分配,視覺維度采用高頻、文本維度采用低頻,完美適配兩種模態(tài)的自然結(jié)構(gòu)。這使得NEO不僅能精準(zhǔn)捕獲圖像的空間結(jié)構(gòu),更具備向視頻處理、跨幀建模等復(fù)雜場景無縫擴(kuò)展的潛力。

原生多頭注意力(Native Multi-Head Attention):針對不同模態(tài)特點,NEO在統(tǒng)一框架下實現(xiàn)了文本token的自回歸注意力和視覺token的雙向注意力并存。這種設(shè)計極大地提升了模型對空間結(jié)構(gòu)關(guān)聯(lián)的利用率,從而更好地支撐復(fù)雜的圖文混合理解與推理。

此外,配合創(chuàng)新的Pre-Buffer & Post-LLM雙階段融合訓(xùn)練策略,NEO能夠在吸收原始LLM完整語言推理能力的同時,從零構(gòu)建強(qiáng)大的視覺感知能力,徹底解決了傳統(tǒng)跨模態(tài)訓(xùn)練中語言能力受損的難題。

實測表現(xiàn):十分之一的數(shù)據(jù)追評旗艦級性能

在架構(gòu)創(chuàng)新的驅(qū)動下,NEO展現(xiàn)出了驚人的數(shù)據(jù)效率與性能優(yōu)勢:

極高數(shù)據(jù)效率:僅需業(yè)界同等性能模型1/10的數(shù)據(jù)量(3.9億圖像文本示例),NEO便能開發(fā)出頂尖的視覺感知能力。無需依賴海量數(shù)據(jù)及額外視覺編碼器,其簡潔的架構(gòu)便能在多項視覺理解任務(wù)中追平Qwen2-VL、InternVL3等頂級模塊化旗艦?zāi)P汀?/p>

性能卓越且均衡:在MMMU、MMB、MMStar、SEED-I、POPE等多項公開權(quán)威評測中,NEO架構(gòu)均斬獲高分,展現(xiàn)出優(yōu)于其他原生VLM的綜合性能,真正實現(xiàn)了原生架構(gòu)的“精度無損”。

極致推理性價比:特別是在0.6B-8B的參數(shù)區(qū)間內(nèi),NEO在邊緣部署方面優(yōu)勢顯著。它不僅實現(xiàn)了精度與效率的雙重躍遷,更大幅降低了推理成本,將多模態(tài)視覺感知的“性價比”推向了極致。

開源共建構(gòu)建下一代AI基礎(chǔ)設(shè)施

b9a81af0-cea4-11f0-8c8f-92fbcf53809c.png

架構(gòu)是模型的“骨架”,只有骨架扎實,才能支撐起多模態(tài)技術(shù)的未來。NEO 架構(gòu)的早期融合設(shè)計支持任意分辨率與長圖像輸入,能夠無縫擴(kuò)展至視頻、具身智能等前沿領(lǐng)域,實現(xiàn)了從底層到頂層、端到端的真正融合。

從應(yīng)用角度,端到端的“原生一體化”設(shè)計,為機(jī)器人具身交互、智能終端多模態(tài)響應(yīng)、視頻理解、3D交互及具身智能等多元化場景的應(yīng)用,提供了堅實的技術(shù)支撐。

目前,商湯已正式開源基于NEO 架構(gòu)的2B 與 9B兩種規(guī)格模型,以推動開源社區(qū)在原生多模態(tài)架構(gòu)上的創(chuàng)新與應(yīng)用。

商湯科技表示,致力于通過開源協(xié)作與場景落地雙輪驅(qū)動,將NEO 打造為可擴(kuò)展、可復(fù)用的下一代 AI 基礎(chǔ)設(shè)施,推動原生多模態(tài)技術(shù)從實驗室走向廣泛的產(chǎn)業(yè)化應(yīng)用,加速構(gòu)建下一代產(chǎn)業(yè)級原生多模態(tài)技術(shù)標(biāo)準(zhǔn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4368

    瀏覽量

    46470
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52287
  • 商湯
    +關(guān)注

    關(guān)注

    0

    文章

    95

    瀏覽量

    4427

原文標(biāo)題:從“數(shù)據(jù)融合”邁向“原生架構(gòu)”:商湯發(fā)布 NEO 架構(gòu),重新定義多模態(tài)模型效能邊界

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    模態(tài)模型 前沿算法與實戰(zhàn)應(yīng)用 第一季》精品課程簡介

    ;模態(tài)拼接\"向\"模態(tài)共生\"演進(jìn): 統(tǒng)一架構(gòu) :如GPT-4V、Flamingo等模型通過單一Transformer處理任意模態(tài)輸入,實
    發(fā)表于 05-01 17:46

    商湯技正開源空間智能模型日日新SenseNova-SI-1.3

    商湯技正開源空間智能模型日日新SenseNova-SI-1.3,在空間測量、視角轉(zhuǎn)換、綜合推理等核心任務(wù)中展現(xiàn)出顯著提升,另外對比之前的版本增強(qiáng)了回答簡答題的能力。
    的頭像 發(fā)表于 02-10 14:12 ?627次閱讀
    <b class='flag-5'>商湯</b>科<b class='flag-5'>技正</b>式<b class='flag-5'>開源</b>空間智能<b class='flag-5'>模型</b>日日新SenseNova-SI-1.3

    眾智FlagOS適配面壁智能開源模態(tài)模型MiniCPM-o 4.5

    2月3日,面壁智能正式發(fā)布開源了集語言、視覺、語音于一體的全模態(tài)模型 MiniCPM-o 4.5。作為首個全雙工全
    的頭像 發(fā)表于 02-09 14:45 ?1030次閱讀
    眾智FlagOS適配面壁智能<b class='flag-5'>開源</b>全<b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>MiniCPM-o 4.5

    商湯技正開源模態(tài)自主推理模型SenseNova-MARS

    今日,商湯正式開源模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在
    的頭像 發(fā)表于 01-30 10:13 ?814次閱讀
    <b class='flag-5'>商湯</b>科<b class='flag-5'>技正</b>式<b class='flag-5'>開源</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>自主推理<b class='flag-5'>模型</b>SenseNova-MARS

    商湯開源SenseNova-MARS:突破模態(tài)搜索推理天花板

    今日,商湯正式開源模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在
    的頭像 發(fā)表于 01-29 23:53 ?274次閱讀
    <b class='flag-5'>商湯</b><b class='flag-5'>開源</b>SenseNova-MARS:突破<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>搜索推理天花板

    商湯科技日日新V6.5榮獲2025年模態(tài)模型全國第一

    近日,權(quán)威大模型評測基準(zhǔn) SuperCLUE 發(fā)布《中文模態(tài)視覺語言模型測評基準(zhǔn)12月報告》,商湯
    的頭像 發(fā)表于 01-06 14:44 ?962次閱讀
    <b class='flag-5'>商湯</b>科技日日新V6.5榮獲2025年<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>全國第一

    格靈深瞳模態(tài)模型榮登InfoQ 2025中國技術(shù)力量年度榜單

    靈感實驗室聯(lián)合LLaVA社區(qū)發(fā)布模態(tài)模型LLaVA-OneVision-1.5,實現(xiàn)了訓(xùn)練數(shù)據(jù)、代碼和模型權(quán)重的全鏈路
    的頭像 發(fā)表于 01-05 10:05 ?711次閱讀

    沐曦股份曦云C系列GPU Day 0適配智譜GLM-4.6V模態(tài)模型

    12月8日智譜AI發(fā)布開源 GLM-4.6V 系列模態(tài)模型,沐曦股份曦云C系列GPU完成D
    的頭像 發(fā)表于 12-17 14:28 ?866次閱讀
    沐曦股份曦云C系列GPU Day 0適配智譜GLM-4.6V<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    商湯技正發(fā)布AI辦公智能體小浣熊3.0

    今天,商湯技正發(fā)布AI辦公智能體「小浣熊3.0」,三大躍遷讓AI從冰冷的工具,變成主動跑通結(jié)果的“AI辦公搭子”。
    的頭像 發(fā)表于 12-17 14:12 ?793次閱讀

    商湯科技日日新Seko系列模型與寒武紀(jì)成功適配

    12月15日,商湯科技基于在生成式AI與模態(tài)交互領(lǐng)域的技術(shù)積累,正式發(fā)布Seko2.0——行業(yè)首個劇集生成智能體。該智能體在
    的頭像 發(fā)表于 12-17 14:06 ?622次閱讀

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應(yīng)用打造的頂尖模態(tài)
    的頭像 發(fā)表于 10-29 17:15 ?389次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入<b class='flag-5'>模型</b>

    商湯日日新V6.5模態(tài)模型登頂全球權(quán)威榜單

    根據(jù)權(quán)威評測平臺OpenCompass模態(tài)模型學(xué)術(shù)榜單(Multi-modal Academic Leaderboard)最新數(shù)據(jù)顯示,商湯「日日新 V6.5」(SenseNova
    的頭像 發(fā)表于 09-10 09:55 ?965次閱讀

    商湯科技模態(tài)通用智能戰(zhàn)略思考

    時間是最好的試金石,AI領(lǐng)域尤其如此。當(dāng)行業(yè)熱議大模型走向時,商湯早已錨定“模態(tài)通用智能”——這是我們以深厚研究積累和實踐反復(fù)驗證的可行路徑。
    的頭像 發(fā)表于 08-14 09:33 ?1325次閱讀

    “端云+模態(tài)”新范式:《移遠(yuǎn)通信AI大模型技術(shù)方案白皮書》正式發(fā)布

    7月28日,移遠(yuǎn)通信聯(lián)合智次方研究院正式發(fā)布《AI大模型技術(shù)方案白皮書》(以下簡稱“白皮書”)。這份白皮書系統(tǒng)梳理了AI大模型的技術(shù)特點、產(chǎn)業(yè)發(fā)展態(tài)勢與多元應(yīng)用場景,以及移遠(yuǎn)通信“端云+
    的頭像 發(fā)表于 07-28 13:08 ?1453次閱讀
    “端云+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>”新范式:《移遠(yuǎn)通信AI大<b class='flag-5'>模型</b>技術(shù)方案白皮書》正式<b class='flag-5'>發(fā)布</b>

    商湯日日新SenseNova融合模態(tài)模型 國內(nèi)首家獲得最高評級的大模型

    近日,中國信息通信研究院(以下簡稱“中國信通院”)完成可信AI模態(tài)模型首輪評估。 商湯日日新SenseNova融合模態(tài)
    的頭像 發(fā)表于 06-11 11:57 ?1587次閱讀
    历史| 洛扎县| 突泉县| 鄄城县| 鲁山县| 伊吾县| 正蓝旗| 礼泉县| 西乌| 九龙城区| 大竹县| 阿坝县| 南陵县| 临城县| 宁远县| 都江堰市| 双牌县| 贵阳市| 顺义区| 游戏| 无棣县| 民县| 同仁县| 广东省| 灵璧县| 延安市| 九龙坡区| 云梦县| 海丰县| 宿迁市| 崇明县| 钟山县| 措美县| 三原县| 丰城市| 陕西省| 霍城县| 涟水县| 扎兰屯市| 盐亭县| 桦甸市|