Hugging Face平臺(tái)于1月23日發(fā)布博文,推出了兩款令人矚目的輕量級(jí)AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。
其中,SmolVLM-256M-Instruct僅有2.56億參數(shù),是有史以來(lái)發(fā)布的最小視覺(jué)語(yǔ)言模型,可在內(nèi)存低于1GB的PC上運(yùn)行并提供卓越性能。SmolVLM-500M-Instruct有5億參數(shù),主要針對(duì)硬件資源限制,幫助開(kāi)發(fā)者應(yīng)對(duì)大規(guī)模數(shù)據(jù)分析挑戰(zhàn)。
這兩款模型具備先進(jìn)的多模態(tài)能力,可執(zhí)行圖像描述、短視頻分析以及回答關(guān)于PDF或科學(xué)圖表的問(wèn)題等任務(wù)。其開(kāi)發(fā)依賴于The Cauldron和Docmatix兩個(gè)專有數(shù)據(jù)集。The Cauldron包含50個(gè)高質(zhì)量圖像和文本數(shù)據(jù)集,側(cè)重于多模態(tài)學(xué)習(xí);Docmatix專為文檔理解定制,將掃描文件與詳細(xì)標(biāo)題配對(duì)以增強(qiáng)理解。
此外,模型采用了更小的視覺(jué)編碼器SigLIP base patch-16/512,通過(guò)優(yōu)化圖像標(biāo)記處理方式,減少了冗余,還將圖像編碼速率提升至每個(gè)標(biāo)記4096像素,相比早期版本的每標(biāo)記1820像素有了顯著改進(jìn)。
Hugging Face此次推出的最小AI視覺(jué)語(yǔ)言模型,為AI在低資源設(shè)備上的應(yīng)用開(kāi)辟了新的道路。
-
人工智能
+關(guān)注
關(guān)注
1821文章
50376瀏覽量
267090 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
575瀏覽量
11345 -
AI視覺(jué)
+關(guān)注
關(guān)注
0文章
120瀏覽量
5012
發(fā)布評(píng)論請(qǐng)先 登錄
HM博學(xué)谷狂野AI大模型第四期
世界模型vs大語(yǔ)言模型,圖靈獎(jiǎng)得主#楊立昆 說(shuō)“大模型是死路!”①#AI #大模型
NVIDIA Alpamayo 1模型在Hugging Face平臺(tái)下載量已突破10萬(wàn)次
NVIDIA推動(dòng)面向數(shù)字與物理AI的開(kāi)源模型發(fā)展
NVIDIA推出面向語(yǔ)言、機(jī)器人和生物學(xué)的全新開(kāi)源AI技術(shù)
NVIDIA開(kāi)源Audio2Face模型及SDK
什么是AI模型的推理能力
研華科技推出基于NVIDIA Jetson Thor平臺(tái)的邊緣AI新品MIC-743
【HZ-T536開(kāi)發(fā)板免費(fèi)體驗(yàn)】3 - Cangjie Magic調(diào)用視覺(jué)語(yǔ)言大模型(VLM)真香,是不是可以沒(méi)有YOLO和OCR了?
【BPI-CanMV-K230D-Zero開(kāi)發(fā)板體驗(yàn)】AI 算法模型(人臉檢測(cè)、軀干檢測(cè)、車牌識(shí)別)
最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門學(xué)習(xí)課程參考2025版(離線AI語(yǔ)音視覺(jué)識(shí)別篇)
NVIDIA助力圖靈新訊美推出企業(yè)級(jí)多模態(tài)視覺(jué)大模型融合解決方案
【教程】使用NS1串口服務(wù)器對(duì)接智普清言免費(fèi)AI大語(yǔ)言模型
商湯科技日日新V6大模型斬獲“雙料第一” 一項(xiàng)國(guó)內(nèi)榜首,一個(gè)全球第一
Hugging Face推出最小AI視覺(jué)語(yǔ)言模型
評(píng)論