日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟視覺語言模型有顯著超越人類的表現(xiàn)

如意 ? 來源:cnBeta.COM ? 作者:cnBeta.COM ? 2021-01-19 14:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

視覺語言(Vision-Language,VL)系統(tǒng)允許為文本查詢搜索相關(guān)圖像(或反之),并使用自然語言描述圖像的內(nèi)容。一般來說,一個VL系統(tǒng)使用一個圖像編碼模塊和一個視覺語言融合模塊。微軟研究部門最近開發(fā)了一種新的圖像編碼對象屬性檢測模型,稱為VinVL(Visual features in Vision-Language),有著顯著超越人類的表現(xiàn)。

當VinVL與OSCAR和vivo等VL融合模塊結(jié)合后,微軟新的VL系統(tǒng)能夠在競爭最激烈的VL排行榜上取得第一,包括視覺問題回答(VQA)、微軟COCO圖像字幕和新穎對象字幕(nocaps)。微軟研究團隊還強調(diào),在nocaps排行榜上,這種新的VL系統(tǒng)在CIDEr(92.5對85.3)方面的表現(xiàn)明顯超過了人類的同形式表現(xiàn)。

微軟解釋道:

VinVL在改善VL理解的圖像編碼方面表現(xiàn)出了巨大的潛力。我們新開發(fā)的圖像編碼模型可以使廣泛的VL任務受益,正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結(jié)果,比如在圖像字幕基準上超越了人類的表現(xiàn),但我們的模型絕不是達到VL理解的人類水平的智能。未來有趣的工作方向包括 (1)利用海量圖像分類/標記數(shù)據(jù),進一步擴大對象屬性檢測預訓練的規(guī)模;(2)將跨模態(tài)VL表征學習的方法擴展到構(gòu)建感知基礎(chǔ)的語言模型,可以像人類一樣將視覺概念建立在自然語言中,反之亦然。

微軟VinVL正在被整合到Azure認知服務中,Azure認知服務為微軟的各種服務提供支撐,如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團隊還將向公眾發(fā)布VinVL模型和源代碼。
責編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6754

    瀏覽量

    108098
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42444
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52285
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    人工智能多模態(tài)與視覺模型開發(fā)實戰(zhàn) - 2026必會

    的診斷建議。 未來展望:開啟視覺智能新時代 隨著技術(shù)的不斷進步,視覺模型將在更多領(lǐng)域發(fā)揮重要作用。未來,它有望與自然語言處理、機器人技術(shù)等領(lǐng)域深度融合,創(chuàng)造出更加智能、便捷的應用場景
    發(fā)表于 04-15 16:06

    世界模型vs大語言模型,圖靈獎得主#楊立昆 說“大模型是死路!”①#AI #大模型

    語言模型
    江蘇易安聯(lián)
    發(fā)布于 :2026年03月31日 10:17:40

    MediaTek攜手微軟研究院聯(lián)合開發(fā)有源光纜技術(shù)

    顯著提升數(shù)據(jù)中心的能效表現(xiàn)。采用有源 MicroLED 光纜在實現(xiàn)媲美銅纜的可靠性的同時,傳輸距離更是大幅超越。
    的頭像 發(fā)表于 03-19 14:20 ?295次閱讀

    論馬斯克的預言:AI使人類邊緣化

    依據(jù) 馬斯克認為AI已進入“遞歸式自我改進”階段,新一代的AI模型由上一代模型參與訓練,人類監(jiān)督的角色正在被邊緣化。他預計完全自動化的AI自我改進可能在2026年底或2027年實現(xiàn),屆時AI的智能水平將
    發(fā)表于 03-14 05:27

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進行預訓練,學會
    的頭像 發(fā)表于 02-02 16:36 ?1151次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    “明牌”對局,自變量開源模型超越pi0

    “明牌”對局,自變量開源模型超越pi0
    的頭像 發(fā)表于 01-10 12:00 ?5772次閱讀
    “明牌”對局,自變量開源<b class='flag-5'>模型</b><b class='flag-5'>超越</b>pi0

    VLA與世界模型什么不同?

    Language Action,VLA),另一些則致力于構(gòu)建并應用世界模型(World Model)。這兩種路徑什么不同? 什么是VLA,什么是世界模型 先說說VLA。VLA是英文Vision-Language-Action
    的頭像 發(fā)表于 12-17 09:13 ?891次閱讀
    VLA與世界<b class='flag-5'>模型</b><b class='flag-5'>有</b>什么不同?

    模型中常提的快慢思考會對自動駕駛產(chǎn)生什么影響?

    提出的“快慢系統(tǒng)”理論啟發(fā),旨在讓自動駕駛系統(tǒng)模擬人類的思考與決策過程。理想汽車結(jié)合端到端與VLM模型,推出了業(yè)界首個在車端部署的雙系統(tǒng)方案,并成功將VLM視覺語言
    的頭像 發(fā)表于 11-22 10:59 ?2645次閱讀
    大<b class='flag-5'>模型</b>中常提的快慢思考會對自動駕駛產(chǎn)生什么影響?

    VLA和世界模型,誰才是自動駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)發(fā)展,其實現(xiàn)路徑也呈現(xiàn)出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺語言—行動)模型路線;另一邊則是以華為、蔚來為主導的世界模型
    的頭像 發(fā)表于 11-05 08:55 ?955次閱讀
    VLA和世界<b class='flag-5'>模型</b>,誰才是自動駕駛的最優(yōu)解?

    iTOF技術(shù),多樣化的3D視覺應用

    視覺傳感器對于機器信息獲取至關(guān)重要,正在從二維(2D)發(fā)展到三維(3D),在某些方面模仿并超越人類視覺能力,從而推動創(chuàng)新應用。3D 視覺
    發(fā)表于 09-05 07:24

    基于大規(guī)模人類操作數(shù)據(jù)預訓練的VLA模型H-RDT

    /AR頭顯和3D視覺技術(shù)的顯著進步,當前只需極低成本即可采集大量帶有精確人手關(guān)節(jié)標注的第一人稱人類操作視頻。
    的頭像 發(fā)表于 08-21 09:56 ?1245次閱讀
    基于大規(guī)模<b class='flag-5'>人類</b>操作數(shù)據(jù)預訓練的VLA<b class='flag-5'>模型</b>H-RDT

    【HZ-T536開發(fā)板免費體驗】3 - Cangjie Magic調(diào)用視覺語言模型(VLM)真香,是不是可以沒有YOLO和OCR了?

    和管理 Agent 的專用語言。它允許開發(fā)人員通過結(jié)構(gòu)化的系統(tǒng)提示詞、工具和各類協(xié)作策略來增強 Agent 的功能。 今天我們就嘗試在開發(fā)板上利用質(zhì)譜AI的視覺語言模型(VLM)
    發(fā)表于 08-01 22:15

    【VisionFive 2單板計算機試用體驗】3、開源大語言模型部署

    的系統(tǒng)和芯片架構(gòu)。 3、拉取/運行大語言模型 ollama的使用方法和docker很像。 返回到ollama的編譯路徑,找到ollama可執(zhí)行文件 執(zhí)行 ./ollama run qwen3:0.6b
    發(fā)表于 07-19 15:45

    【教程】使用NS1串口服務器對接智普清言免費AI大語言模型

    許多功能,本文將介紹如何使用NS1模塊的HTTP功能對接智普清言免費大語言模型(glm-4-flash-250414)的API。NS1的功能框架如下:NS1的H
    的頭像 發(fā)表于 06-12 19:33 ?934次閱讀
    【教程】使用NS1串口服務器對接智普清言免費AI大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    使用瑞薩MPU芯片RZ/V2H部署DeepSeek-R1模型

    DeepSeek大語言模型(LLM)可用于理解人類語言的交互方式,思考,并給出合適的回應。
    的頭像 發(fā)表于 05-15 14:40 ?1160次閱讀
    使用瑞薩MPU芯片RZ/V2H部署DeepSeek-R1<b class='flag-5'>模型</b>
    庆安县| 黄梅县| 衡水市| 临桂县| 建始县| 大姚县| 原阳县| 绥阳县| 全南县| 青田县| 郓城县| 南昌市| 荣成市| 兴安县| 明星| 沙雅县| 福海县| 祁东县| 威远县| 延吉市| 武清区| 桐柏县| 九龙城区| 克山县| 南昌市| 龙海市| 镇巴县| 康平县| 玉林市| 嘉鱼县| 桐乡市| 云梦县| 马山县| 揭阳市| 都江堰市| 赫章县| 双牌县| 永丰县| 隆昌县| 泾源县| 当雄县|