5月13日-14日,Create 2026 百度 AI 開(kāi)發(fā)者大會(huì)在北京國(guó)家會(huì)議中心二期舉行。作為百度的生態(tài)伙伴,格靈深瞳在專(zhuān)題論壇和公開(kāi)課上分享了最新的 AI 原生視覺(jué)智能產(chǎn)品:視覺(jué)智能工坊,以及新一代全開(kāi)源多模態(tài)大模型LLaVA-OneVision-2.0。
同時(shí),格靈深瞳還在展臺(tái)展示了視覺(jué)智能工坊產(chǎn)品的多項(xiàng)功能。系統(tǒng)級(jí) AI 助手DeepBot也在現(xiàn)場(chǎng)與觀眾們交流互動(dòng)。
從多模態(tài)能力迭代到視覺(jué)應(yīng)用升級(jí),格靈深瞳持續(xù)深耕 AI 技術(shù)應(yīng)用轉(zhuǎn)化,不斷打磨和沉淀產(chǎn)品化能力,打造自進(jìn)化的 AI 原生產(chǎn)品矩陣,讓 AI 真正走進(jìn)現(xiàn)實(shí)業(yè)務(wù)場(chǎng)景,實(shí)現(xiàn)規(guī)模化應(yīng)用落地。
視覺(jué)智能工坊:
三大核心能力,構(gòu)建視覺(jué)AI落地閉環(huán)
在“AI+數(shù)據(jù)”專(zhuān)題論壇,格靈深瞳研發(fā)副總裁閆梓禎分享《智能數(shù)據(jù)賦能視覺(jué) AI:Agent 驅(qū)動(dòng)的視覺(jué)智能工坊實(shí)踐》主題演講,介紹新一代 AI 原生的視覺(jué)智能產(chǎn)品——視覺(jué)智能工坊。
格靈深瞳研發(fā)副總裁閆梓禎分享視覺(jué)智能工坊
現(xiàn)實(shí)業(yè)務(wù)場(chǎng)景和數(shù)據(jù)復(fù)雜多變,但傳統(tǒng)模式下的 AI 項(xiàng)目往往是“一次性交付”,交付即結(jié)束,難以復(fù)用和持續(xù)迭代。這導(dǎo)致企業(yè) AI 落地成本高企,且無(wú)法持續(xù)融入實(shí)際業(yè)務(wù)流程。面對(duì)企業(yè) AI 落地需求和痛點(diǎn),格靈深瞳推出一套具備完整工程化系統(tǒng)能力的視覺(jué) AI 智能產(chǎn)品:視覺(jué)智能工坊。
視覺(jué)智能工坊搭載M-E-S 三大核心能力,具體包括:MENTOR 算法訓(xùn)練中心、EXPERT 算法運(yùn)營(yíng)中心、SENTINEL 邊緣哨兵,覆蓋算法的訓(xùn)練、運(yùn)營(yíng)、感知全周期。M-E-S 三層協(xié)同構(gòu)建“數(shù)據(jù)采集-模型訓(xùn)練-算法運(yùn)營(yíng)-邊緣部署-實(shí)時(shí)告警-數(shù)據(jù)回流-模型迭代”的產(chǎn)品能力閉環(huán),形成可自進(jìn)化的數(shù)據(jù)飛輪,讓視覺(jué)模型越用越懂業(yè)務(wù)。
基于視覺(jué)智能工坊的產(chǎn)品能力,可將 AI 從一次性算法交付,轉(zhuǎn)化為在業(yè)務(wù)現(xiàn)場(chǎng)持續(xù)進(jìn)化的 AI 原生能力,賦能企業(yè)業(yè)務(wù)專(zhuān)家快速構(gòu)建 AI 應(yīng)用,讓模型算法在業(yè)務(wù)現(xiàn)場(chǎng)真正用起來(lái),實(shí)現(xiàn) AI 在銀行、政務(wù)、能源、園區(qū)、工廠等行業(yè)場(chǎng)景下的規(guī)?;涞?。
LLaVA-OneVision-2.0:
多模態(tài)邁向全幀率視頻理解時(shí)代
在 AI Infra 專(zhuān)題論壇,靈感實(shí)驗(yàn)室 Glint Lab 負(fù)責(zé)人馮子勇分享《LLaVA-OneVision-2.0:全開(kāi)源全幀率多模態(tài)大模型的低成本突破》主題演講,介紹新一代全開(kāi)源多模態(tài)大模型 LLaVA-OneVision-2.0 和它的視覺(jué)模型基座 Glint-MVT v2.0 的技術(shù)創(chuàng)新性和行業(yè)應(yīng)用價(jià)值。
靈感實(shí)驗(yàn)室負(fù)責(zé)人馮子勇分享LLaVA-OneVision-2.0
同時(shí),在 AI 創(chuàng)意開(kāi)放日公開(kāi)課環(huán)節(jié),靈感實(shí)驗(yàn)室 Glint Lab 核心成員謝尹分享《LLaVA-OneVision-2.0:首個(gè)視頻全幀率理解的多模態(tài)模型》,介紹 LLaVA-OneVision-2.0 的技術(shù)細(xì)節(jié)和訓(xùn)練流程。
LLaVA-OneVision-2.0 是一款原生支持全幀率視頻理解的全開(kāi)源多模態(tài)大模型。新一代模型把優(yōu)化對(duì)象從“模型規(guī)?!鞭D(zhuǎn)向“模型看視頻的方式”,在全幀率前提下重構(gòu)視頻理解路徑。
在實(shí)現(xiàn)方式上,LLaVA-OneVision-2.0 通過(guò)引入升級(jí)后的視覺(jué)編碼器Glint-MVT v2.0和有針對(duì)性的視頻數(shù)據(jù)訓(xùn)練,獲得視頻高效分析的能力。用 Glint MVT 2.0 替代傳統(tǒng)視覺(jué)編碼方式,可更充分利用視頻編碼原有信息,在更少輸入下保持理解能力。
從訓(xùn)練流程來(lái)看,LLaVA-OneVision-2.0 通過(guò)視頻化引導(dǎo)-指令微調(diào)-長(zhǎng)視頻理解-適配 Codec(編解碼)數(shù)據(jù)和空間理解數(shù)據(jù),分四個(gè)階段完成模型訓(xùn)練,實(shí)現(xiàn)從數(shù)據(jù)準(zhǔn)備到測(cè)評(píng)發(fā)布的流程閉環(huán)。在任務(wù)表現(xiàn)方面,LLaVA-OneVision-2.0 8B 模型在 VideoMME(sub) 等 Benchmark 評(píng)測(cè)上超過(guò)同等規(guī)模的國(guó)內(nèi)主流同類(lèi)模型。
作為 LLaVA-OneVision-2.0 的技術(shù)基石,升級(jí)后的視覺(jué)基礎(chǔ)模型 Glint-MVT v2.0 打破圖像與視頻編碼“分而治之”的傳統(tǒng)模式,將視頻與圖像統(tǒng)一在同一個(gè)編碼器(Encoder),通過(guò)視頻編碼在壓縮域進(jìn)行高效分析,最大程度上可削減 90% 視頻 Token,極大節(jié)約計(jì)算資源和成本。
從 Glint-MVT v2.0 到 LLaVA-OneVision-2.0,靈感實(shí)驗(yàn)室不斷探索在全幀率前提下,讓視頻理解以更高效率、更低成本的技術(shù)路徑真正走進(jìn)業(yè)務(wù)現(xiàn)場(chǎng)。
DeepBot:
系統(tǒng)級(jí) AI 助手,打個(gè)招呼就開(kāi)工!
除了分享視覺(jué)智能工坊和 LLaVA-OneVision-2.0,格靈深瞳還在活動(dòng)展區(qū)展示了系統(tǒng)級(jí) AI 助手 DeepBot?,F(xiàn)場(chǎng)觀眾可通過(guò)微信掃碼進(jìn)入對(duì)話框,體驗(yàn)與 DeepBot 的實(shí)時(shí)互動(dòng):向 DeepBot 打個(gè)招呼,便可收到來(lái)自大會(huì)現(xiàn)場(chǎng)的實(shí)時(shí)視頻畫(huà)面,以及 AI 對(duì)畫(huà)面的智能分析結(jié)果。此外,還可以了解格靈深瞳的更多信息和展會(huì)動(dòng)態(tài)。
DeepBot 是格靈深瞳靈感實(shí)驗(yàn)室開(kāi)發(fā)的一款開(kāi)源系統(tǒng)級(jí) AI 助手,能夠與企業(yè)現(xiàn)有系統(tǒng)深度結(jié)合,通過(guò)多 Agent 協(xié)作模式實(shí)現(xiàn)復(fù)雜業(yè)務(wù)流程的自動(dòng)化。它支持多任務(wù)并行處理、定時(shí)任務(wù)、技能擴(kuò)展等功能,同時(shí)通過(guò)嚴(yán)格的安全機(jī)制保護(hù)企業(yè)系統(tǒng)安全。
近期,DeepBot 進(jìn)行了版本升級(jí)。新版支持企業(yè)微信與智能客服,可為企業(yè)微信創(chuàng)建多個(gè) Tab,為每個(gè) Tab 設(shè)置不同模型,并通過(guò)加強(qiáng)文件系統(tǒng)訪問(wèn)控制等方式強(qiáng)化安全保障。
大會(huì)落幕,但 AI 技術(shù)和產(chǎn)品進(jìn)化的步履不停。未來(lái),格靈深瞳將持續(xù)優(yōu)化升級(jí)以視覺(jué)智能工坊為代表的 AI 原生自進(jìn)化產(chǎn)品矩陣,不斷沉淀產(chǎn)品化能力,加速打通 AI 商業(yè)化閉環(huán),推動(dòng) AI 真正落地轉(zhuǎn)化為企業(yè)生產(chǎn)力,賦能更多行業(yè)客戶智能化升級(jí)。
-
AI
+關(guān)注
關(guān)注
91文章
41743瀏覽量
302933 -
百度
+關(guān)注
關(guān)注
9文章
2398瀏覽量
95327 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
102瀏覽量
6025
原文標(biāo)題:格靈深瞳亮相百度 Create 2026,打造新一代視覺(jué) AI 技術(shù)產(chǎn)品
文章出處:【微信號(hào):shentongzhineng,微信公眾號(hào):格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
百度智能云正式發(fā)布Hogee
百度 Create 2026|啟明云端分享 AI 產(chǎn)品落地新思路
利爾達(dá)作為“數(shù)據(jù)通道與硬件方案”核心伙伴亮相2026百度AI開(kāi)發(fā)者大會(huì)
格靈深瞳與您相約Create 2026百度AI開(kāi)發(fā)者大會(huì)
格靈深瞳亮相2026 ITES深圳工業(yè)展
格靈深瞳亮相摩爾線程首屆MUSA開(kāi)發(fā)者大會(huì)
格靈深瞳精彩亮相百度世界2025大會(huì)
格靈深瞳受邀參加百度世界2025大會(huì)
格靈深瞳邀您相約百度世界2025大會(huì)
格靈深瞳視覺(jué)基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)
格靈深瞳亮相Create 2026百度AI開(kāi)發(fā)者大會(huì)
評(píng)論