日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

商湯科技NEO-unify如何打造原生視覺語(yǔ)言理解與生成

商湯科技SenseTime ? 來源:商湯科技SenseTime ? 2026-03-10 14:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天,商湯科技發(fā)布一篇最新技術(shù)博客 NEO-unify: 原生架構(gòu)打造端到端多模態(tài)理解與生成統(tǒng)一模型(NEO-unify: Building Native Multimodal Unified Models End to End)

這篇博客深入解讀NEO-unify:一項(xiàng)旨在從底層統(tǒng)一多模態(tài)理解與生成的端到端原生架構(gòu)。

當(dāng)前,多模態(tài)模型普遍采用“視覺編碼器(VE)用于理解,變分自編碼器(VAE)用于生成”的組合式設(shè)計(jì)。這套范式雖行之有效,卻也內(nèi)在割裂了感知與創(chuàng)造,常面臨模塊協(xié)同與效率權(quán)衡的挑戰(zhàn)。

我們能否更進(jìn)一步,讓AI像人一樣,直接從最原始的像素和文字中,統(tǒng)一地進(jìn)行學(xué)習(xí)、理解與生成?這正是NEO-unify嘗試回答的根本問題。它摒棄了傳統(tǒng)的VE與VAE,首次構(gòu)建了一個(gè)真正的端到端原生統(tǒng)一模型,在同一個(gè)架構(gòu)內(nèi)直接處理像素與文本,并在此基礎(chǔ)上協(xié)同完成理解與生成任務(wù)。初步研究成果令人振奮,該設(shè)計(jì)在保持強(qiáng)大語(yǔ)義理解與細(xì)節(jié)恢復(fù)能力的同時(shí),顯著提升了訓(xùn)練與計(jì)算效率。

這項(xiàng)技術(shù)將如何為生成式AI打開新的想象?讓我們一同展開探討。

《NEO-unify:原生架構(gòu)打造端到端多模態(tài)理解與生成統(tǒng)一模型》

英文博客地址:

https://huggingface.co/blog/sensenova/neo-unify

中文博客地址:

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

當(dāng)前多模態(tài)智能架構(gòu)困境

長(zhǎng)期以來,多模態(tài)研究已形成一種默認(rèn)范式:視覺編碼器(Vision Encoder, VE) 負(fù)責(zé)感知與理解,而變分自編碼器(Variational Autoencoder, VAE) 則用于內(nèi)容生成。近期的一些工作嘗試構(gòu)建共享編碼器,但這種折衷往往引入新的結(jié)構(gòu)性設(shè)計(jì)權(quán)衡。

由此回到第一性原理:構(gòu)建一體化模型直接處理原生輸入,即像素本身與文字本身。商湯科技聯(lián)合南洋理工大學(xué),提出一種全新的架構(gòu)范式:NEO-unify(preview),一個(gè)原生、統(tǒng)一、端到端的多模態(tài)模型架構(gòu)。它不僅越過了當(dāng)前視覺表征的爭(zhēng)論,也擺脫了預(yù)訓(xùn)練先驗(yàn)和規(guī)模定律瓶頸的限制。最關(guān)鍵的是:不需要 VE,也不需要 VAE。

我們正擴(kuò)大規(guī)模、持續(xù)迭代。更多模型與開源成果,將很快與大家見面。

NEO-unify原生一體化架構(gòu)新范式

c4562a2c-1923-11f1-90a1-92fbcf53809c.png

NEO-unify 第一次邁向真正的端到端統(tǒng)一框架,能夠直接從近乎無損的信息輸入中學(xué)習(xí),并由模型自身塑造內(nèi)部表征空間。首先,引入近似無損的視覺接口,用于統(tǒng)一圖像的輸入與輸出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構(gòu),使理解與生成能夠在同一體系中協(xié)同進(jìn)行;最終,通過統(tǒng)一學(xué)習(xí)框架實(shí)現(xiàn)跨模態(tài)訓(xùn)練:文本采用自回歸交叉熵目標(biāo),視覺通過像素流匹配進(jìn)行優(yōu)化。

模型效果

1. 定量結(jié)果分析

c4b4bfce-1923-11f1-90a1-92fbcf53809c.png

c51270c4-1923-11f1-90a1-92fbcf53809c.png

2. 生圖效果展示

技術(shù)發(fā)現(xiàn)

1. 無編碼器設(shè)計(jì)能夠同時(shí)保留抽象語(yǔ)義與細(xì)粒度表征

[圖像重建任務(wù)]

我們先前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠?qū)W習(xí)到豐富的語(yǔ)義表征。在此基礎(chǔ)上,我們進(jìn)一步觀察到一個(gè)有趣的現(xiàn)象:即使在凍結(jié)理解分支的情況下,獨(dú)立的生成分支仍然能夠從表示中抽取并恢復(fù)細(xì)粒度的視覺細(xì)節(jié)。

基于這一發(fā)現(xiàn),我們訓(xùn)練了NEO-unify(2B)。在初步 9 萬步預(yù)訓(xùn)練后,模型在 MS COCO 2017 上取得31.56 PSNR和0.85 SSIM,而Flux VAE的對(duì)應(yīng)指標(biāo)為32.65和0.91。這一結(jié)果表明,即使不依賴預(yù)訓(xùn)練VE或VAE,近似無損的原生輸入仍能夠同時(shí)支持高質(zhì)量的語(yǔ)義理解與像素級(jí)細(xì)節(jié)保真。

域外圖像重建(2B NEO-unify,理解分支凍結(jié))

[圖像編輯任務(wù)]

據(jù)此,我們進(jìn)一步開展探索:NEO-unify將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支,而生成分支僅負(fù)責(zé)生成新的圖像。

即使在凍結(jié)理解分支的情況下,NEO-unify(2B)仍展現(xiàn)出強(qiáng)大的圖像編輯能力,同時(shí)顯著減少了輸入圖像令牌的數(shù)量。在使用開源生成與圖像編輯數(shù)據(jù)集并進(jìn)行初步 6 萬步混合訓(xùn)練后,模型在ImgEdit基準(zhǔn)上取得3.32的成績(jī),且理解分支在整個(gè)訓(xùn)練過程中保持凍結(jié)。

小規(guī)模數(shù)據(jù)驗(yàn)證(2B NEO-unify,理解分支凍結(jié))

ImgEdit提示詞編輯(2B NEO-unify,理解分支凍結(jié))

2. 無編碼器架構(gòu)與 MoT 主干高度協(xié)同大幅降低內(nèi)在沖突

借助預(yù)訓(xùn)練的理解分支與生成分支,NEO-unify使用相同的中期訓(xùn)練(MT)與 監(jiān)督微調(diào)(SFT) 數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練。即使在較低的數(shù)據(jù)比例和損失權(quán)重下,理解能力依然保持穩(wěn)定,而生成能力則收斂很快。二者在 MoT 主干中協(xié)同提升,整體沖突極小。

c77199e4-1923-11f1-90a1-92fbcf53809c.png

3. 無編碼器架構(gòu),展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率

此外,我們首先進(jìn)行 web-scale 預(yù)訓(xùn)練,隨后在多樣且高質(zhì)量的數(shù)據(jù)語(yǔ)料上依次進(jìn)行中期訓(xùn)練(MT) 和 監(jiān)督微調(diào)(SFT)。與 Bagel 模型相比,NEO-unify 展現(xiàn)出更高的數(shù)據(jù)訓(xùn)練效率,在使用更少訓(xùn)練 token 的情況下取得了更優(yōu)的性能。

c7d5fa88-1923-11f1-90a1-92fbcf53809c.png

未來展望

這不僅僅是一種模型架構(gòu)探索,更是邁向下一代智能形態(tài)的一步:

? 感知與生成交織的閉環(huán)

? 全模態(tài)推理

? 視覺推理

? 空間智能

? 世界模型

? …

一條新的路線圖正在展開:模型不再在模態(tài)之間進(jìn)行轉(zhuǎn)換,而是能夠原生地跨模態(tài)思考。多模態(tài) AI 不再只是連接不同系統(tǒng),而是構(gòu)建一個(gè)從未割裂的統(tǒng)一智能體,并讓所需能力從其內(nèi)部自然涌現(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41315

    瀏覽量

    302691
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52287
  • 商湯科技
    +關(guān)注

    關(guān)注

    8

    文章

    619

    瀏覽量

    37684

原文標(biāo)題:技術(shù)博客:無需編解碼器,NEO-unify如何打造原生視覺語(yǔ)言理解與生成

文章出處:【微信號(hào):SenseTime2017,微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    大曉機(jī)器人開源實(shí)時(shí)生成世界模型Kairos 3.0-4B

    近日,大曉機(jī)器人重磅開源開悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作為業(yè)內(nèi)首個(gè)實(shí)現(xiàn) “多模態(tài)理解生成 — 預(yù)測(cè)” 一體化的開源具身原生世界模型,該模
    的頭像 發(fā)表于 03-14 16:54 ?2026次閱讀
    大曉機(jī)器人開源實(shí)時(shí)<b class='flag-5'>生成</b>世界模型Kairos 3.0-4B

    基于NVIDIA GPU加速端點(diǎn)使用千問3.5 VLM開發(fā)原生多模態(tài)智能體

    阿里巴巴推出了全新開源 千問3.5 系列,專為構(gòu)建原生多模態(tài)智能體而設(shè)計(jì)。該系列的首個(gè)模型是一款總參數(shù)為 397B、具備推理能力的原生視覺語(yǔ)言模型 (VLM),基于由混合專家模型 (M
    的頭像 發(fā)表于 03-04 16:37 ?1146次閱讀

    商湯科技美顏Agent正式上線

    商湯科技正式推出的美顏Agent,通過將更智能的AI分析和決策能力與歷經(jīng)海量驗(yàn)證的美顏SDK效果執(zhí)行深度協(xié)同,打造出一個(gè)能更精準(zhǔn)聽懂人話、更深刻懂得審美的AI 美顏助手。
    的頭像 發(fā)表于 02-27 15:37 ?440次閱讀

    商湯大裝置SenseCore原生AI云平臺(tái)榮獲軟件供應(yīng)鏈安全能力評(píng)估認(rèn)證

    近期,商湯大裝置SenseCore原生AI云平臺(tái)通過工業(yè)和信息化部電子工業(yè)標(biāo)準(zhǔn)化研究院組織的軟件供應(yīng)鏈安全能力評(píng)估,獲評(píng)優(yōu)秀級(jí),成為全國(guó)首批通過該項(xiàng)認(rèn)證的企業(yè)。
    的頭像 發(fā)表于 02-26 10:42 ?688次閱讀

    商湯大裝置SenseCore原生AI云平臺(tái)榮獲信通院5A卓越級(jí)認(rèn)證

    近日,商湯大裝置SenseCore原生AI云平臺(tái)通過中國(guó)信通院與泰爾實(shí)驗(yàn)室《算模數(shù)用-算力平臺(tái)服務(wù)能力》權(quán)威測(cè)試,獲業(yè)界最高等級(jí)5A卓越級(jí)認(rèn)證,這也是業(yè)界首個(gè)獲得5A認(rèn)證的原生AI云平臺(tái)。
    的頭像 發(fā)表于 02-04 15:55 ?475次閱讀
    <b class='flag-5'>商湯</b>大裝置SenseCore<b class='flag-5'>原生</b>AI云平臺(tái)榮獲信通院5A卓越級(jí)認(rèn)證

    商湯科技日日新V6.5榮獲2025年多模態(tài)大模型全國(guó)第一

    近日,權(quán)威大模型評(píng)測(cè)基準(zhǔn) SuperCLUE 發(fā)布《中文多模態(tài)視覺語(yǔ)言模型測(cè)評(píng)基準(zhǔn)12月報(bào)告》,商湯日日新V6.5(SenseNova V6.5 Pro)以75.35的總分位列國(guó)內(nèi)第一,斬獲金牌,并在
    的頭像 發(fā)表于 01-06 14:44 ?960次閱讀
    <b class='flag-5'>商湯</b>科技日日新V6.5榮獲2025年多模態(tài)大模型全國(guó)第一

    商湯科技多劇集生成智能體Seko2.0重磅發(fā)布

    作為行業(yè)首個(gè)創(chuàng)編一體、多劇集生成智能體,Seko2.0專為當(dāng)下炙手可熱的短劇、漫劇行業(yè)的個(gè)人創(chuàng)作者與工作室量身打造,讓“一人劇組”變成可能。
    的頭像 發(fā)表于 12-17 14:08 ?946次閱讀

    商湯科技日日新Seko系列模型與寒武紀(jì)成功適配

    12月15日,商湯科技基于在生成式AI與多模態(tài)交互領(lǐng)域的技術(shù)積累,正式發(fā)布Seko2.0——行業(yè)首個(gè)多劇集生成智能體。該智能體在多劇集視頻生成的一致性方面展現(xiàn)出顯著優(yōu)勢(shì),其背后依托的是
    的頭像 發(fā)表于 12-17 14:06 ?618次閱讀

    商湯方舟全面升級(jí)助力視覺AI 2.0實(shí)現(xiàn)規(guī)?;涞?/a>

    12月9日,商湯科技與香港科技園公司聯(lián)合主辦的“2025商湯科技AI論壇”于香港科學(xué)園圓滿落幕。
    的頭像 發(fā)表于 12-17 13:56 ?579次閱讀
    <b class='flag-5'>商湯</b>方舟全面升級(jí)助力<b class='flag-5'>視覺</b>AI 2.0實(shí)現(xiàn)規(guī)模化落地

    商湯科技推出實(shí)時(shí)語(yǔ)音驅(qū)動(dòng)數(shù)字人技術(shù)SekoTalk

    在數(shù)字人技術(shù)蓬勃發(fā)展的今天,生成效率仍是行業(yè)面臨的核心挑戰(zhàn)。商湯科技憑借在生成式 AI 與多模態(tài)交互領(lǐng)域的深厚積累,推出了實(shí)時(shí)語(yǔ)音驅(qū)動(dòng)數(shù)字人技術(shù)——SekoTalk。
    的頭像 發(fā)表于 12-17 13:52 ?622次閱讀
    <b class='flag-5'>商湯</b>科技推出實(shí)時(shí)語(yǔ)音驅(qū)動(dòng)數(shù)字人技術(shù)SekoTalk

    商湯科技正式發(fā)布并開源全新多模態(tài)模型架構(gòu)NEO

    商湯科技正式發(fā)布并開源了與南洋理工大學(xué)S-Lab合作研發(fā)的全新多模態(tài)模型架構(gòu) —— NEO,為日日新SenseNova 多模態(tài)模型奠定了新一代架構(gòu)的基石。
    的頭像 發(fā)表于 12-08 11:19 ?1194次閱讀
    <b class='flag-5'>商湯</b>科技正式發(fā)布并開源全新多模態(tài)模型架構(gòu)<b class='flag-5'>NEO</b>

    商湯科技持續(xù)引領(lǐng)中國(guó)原生AI云廠商陣營(yíng)

    近日,權(quán)威研究機(jī)構(gòu)弗若斯特沙利文(Frost & Sullivan)聯(lián)合頭豹研究院發(fā)布《2025年H1中國(guó)全棧AI云服務(wù)市場(chǎng)報(bào)告》。報(bào)告顯示,商湯科技憑整體市場(chǎng)份額位列中國(guó)全棧AI云服務(wù)市場(chǎng)第四,原生AI云廠商首位,持續(xù)引領(lǐng)原生
    的頭像 發(fā)表于 11-21 10:59 ?597次閱讀

    商湯如影圖片數(shù)字人技術(shù)閃耀央視舞臺(tái)

    依托商湯日日新大模型的多模態(tài)能力,只需上傳一張人物照片,輸入文字腳本或音頻文件,AI 就能自動(dòng)生成人物動(dòng)態(tài)視頻,并支持多種語(yǔ)言,實(shí)現(xiàn)了與真人幾乎無差別的口型匹配、動(dòng)作呼應(yīng)和情緒表達(dá)。
    的頭像 發(fā)表于 09-22 16:18 ?1162次閱讀

    商湯日日新大模型賦能紫光漢圖打造激光多功能一體機(jī)

    商湯日日新大模型賦能紫光漢圖,為一線教師打造全新教學(xué)生產(chǎn)力。
    的頭像 發(fā)表于 08-19 15:51 ?1087次閱讀
    <b class='flag-5'>商湯</b>日日新大模型賦能紫光漢圖<b class='flag-5'>打造</b>激光多功能一體機(jī)

    韓國(guó)高規(guī)格代表團(tuán)到訪商湯科技

    近日,由韓國(guó)中央集團(tuán)董事長(zhǎng)洪錫炫率領(lǐng)的39人韓國(guó)高規(guī)格科技代表團(tuán)訪問中國(guó),了解中國(guó)AI行業(yè)發(fā)展,探討兩國(guó)科技合作潛力。作為上海重要一站,代表團(tuán)來到商湯科技上海總部,重點(diǎn)了解商湯視覺AI和多模態(tài)
    的頭像 發(fā)表于 07-10 14:08 ?997次閱讀
    岫岩| 弥渡县| 洛南县| 云安县| 崇礼县| 灌南县| 兴文县| 宁乡县| 新乡市| 华安县| 吉林市| 江西省| 朔州市| 措美县| 彭泽县| 闻喜县| 壤塘县| 铁岭市| 江津市| 兴隆县| 东阳市| 中山市| 合水县| 鄱阳县| 阿克苏市| 大连市| 无锡市| 潮州市| 伽师县| 特克斯县| 泰州市| 莱西市| 武胜县| 泸州市| 丹巴县| 双牌县| 文昌市| 南汇区| 蓬安县| 如东县| 大荔县|