亚洲精品久久久久中文,一区二区三区视频,欧洲亚洲国产一区二区

此前，8月28-30日，2025百度云智大會在北京舉辦。在算力平臺專題論壇上，格靈深瞳技術(shù)副總裁、算法研究院院長馮子勇分享了《視覺基座：通向世界模型之路——格靈深瞳Glint-MVT讓AI看懂世界》主題演講，從熱點(diǎn)話題“世界模型”引入，介紹格靈深瞳自研視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)和技術(shù)亮點(diǎn)，講述視覺模型基座如何讓AI理解復(fù)雜世界。

此次分享的主角：Glint-MVT（Margin-based pretrained Vision Transformer），是格靈深瞳靈感實(shí)驗(yàn)室自研的視覺基礎(chǔ)模型。自2023年發(fā)布MVT v1.0以來，模型逐步迭代，在今年7月發(fā)布了MVT v1.5，同時(shí)MVT v2.0也籌備中。

MVT的誕生：引入間隔Softmax函數(shù)

MVT最大的技術(shù)創(chuàng)新性在于，團(tuán)隊(duì)?wèi)?yīng)用基于間隔的Softmax損失函數(shù)進(jìn)行模型訓(xùn)練。Softmax損失函數(shù)主要應(yīng)用于分類訓(xùn)練，而基于間隔的Softmax（Margin-based Softmax），可以讓模型提取的特征更具區(qū)分度，提升視覺編碼器的能力。

靈感團(tuán)隊(duì)將這一函數(shù)特性應(yīng)用在視覺基礎(chǔ)模型訓(xùn)練上，推出MVT v1.0，構(gòu)建起視覺理解的堅(jiān)實(shí)基礎(chǔ)。

在MVT v1.0訓(xùn)練過程中，團(tuán)隊(duì)通過特征聚類的方法，為4億無標(biāo)注圖片打上偽標(biāo)簽，形成100萬個(gè)類別。為解決偽標(biāo)簽類別太多和標(biāo)簽噪聲的問題，團(tuán)隊(duì)提出了標(biāo)簽采樣的方法，不僅大量減少卡間通信時(shí)延，還降低了標(biāo)簽噪聲對訓(xùn)練精度的影響，帶來訓(xùn)練效果和模型性能的雙重提升。

從MVT v1.0到 v1.1：突破單標(biāo)簽限制

在圖像識別過程中，一幅圖像通常包含多個(gè)物體，對應(yīng)著多個(gè)標(biāo)簽。因此，格靈深瞳將單標(biāo)簽升級為多標(biāo)簽，提升圖像編碼器的表達(dá)能力，由此得到MVT v1.1。

MVT v1.1可識別圖像中的多個(gè)物體，這一能力提升源自損失函數(shù)的優(yōu)化。靈感團(tuán)隊(duì)在1.0版softmax公式的基礎(chǔ)上進(jìn)行簡單修改，讓多個(gè)正標(biāo)簽參與計(jì)算；在工程上，由讀取一個(gè)正類別的中心特征變成讀取固定多個(gè)正類別的中心特征。

MVT v1.5：局部和文字特征再增強(qiáng)

隨著下游任務(wù)對預(yù)訓(xùn)練模型能力的更高要求，靈感團(tuán)隊(duì)增強(qiáng)了模型對局部特征和文字特征的表達(dá)能力，推出MVT v1.5。

RegionAttention技術(shù)方法示意圖

在實(shí)現(xiàn)方法上，團(tuán)隊(duì)利用專家分割模型和OCR模型，生成局部數(shù)據(jù)偽標(biāo)簽，得到20億局部區(qū)域和4億文字區(qū)域。同時(shí)，團(tuán)隊(duì)提出了RegionAttention的方法——利用Mask Attention機(jī)制，更高效地提取局部區(qū)域特征。從檢測、分割等下游任務(wù)表現(xiàn)上看，MVT v1.5的多項(xiàng)分?jǐn)?shù)高于SigLIP等模型。

MVT v1.5（RICE）在OCR任務(wù)上的表現(xiàn)

靈感團(tuán)隊(duì)將MVT v1.5應(yīng)用到VLM開源框架LLaVA-NeXT和LLaVA-OneVision中。對比其他視覺編碼器，如OpenAI的CLIP、谷歌的SigLIP、蘋果的DFN5B和AIMv2，MVT v1.5在OCR任務(wù)上表現(xiàn)更優(yōu)。這表明MVT v1.5在局部和文字特征上具有更好的表達(dá)能力。

MVT v2.x：圖片視頻統(tǒng)一支持

人類和環(huán)境的交互以及任務(wù)完成，不只是一張張離散的圖片，而是一個(gè)時(shí)空連續(xù)的視頻流。下一步，靈感團(tuán)隊(duì)計(jì)劃對視頻進(jìn)行高效編碼，推出統(tǒng)一支持圖片視頻的視覺編碼器MVT v2.x，提升視頻特征表達(dá)能力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
41315

瀏覽量
302691
百度

百度

+關(guān)注

關(guān)注
9

文章
2389

瀏覽量
95237
格靈深瞳

格靈深瞳

+關(guān)注

關(guān)注
1

文章
97

瀏覽量
6015

原文標(biāo)題：格靈深瞳如何打造視覺模型基座？Glint-MVT成長記

文章出處：【微信號：shentongzhineng，微信公眾號：格靈深瞳】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

格靈深瞳視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

評論