日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟發(fā)布Visual ChatGPT:視覺模型加持ChatGPT實(shí)現(xiàn)絲滑聊天

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:微軟亞洲研究院 ? 2023-03-16 10:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近來(lái),AI領(lǐng)域迎來(lái)各個(gè)領(lǐng)域的大突破,ChatGPT展現(xiàn)出強(qiáng)大的語(yǔ)言問(wèn)答能力和推理能力,然而作為一個(gè)自然語(yǔ)言模型,它無(wú)法處理視覺信息。

與此同時(shí),視覺基礎(chǔ)模型如Visual Transformer或者Stable Diffusion等,則展現(xiàn)出強(qiáng)大的視覺理解和生成能力。

Visual Transformer將ChatGPT作為邏輯處理中心,集成若干視覺基礎(chǔ)模型,從而達(dá)到如下效果:

視覺聊天系統(tǒng)Visual ChatGPT可以接收和發(fā)送文本和圖像

提供復(fù)雜的視覺問(wèn)答,或者視覺編輯指令,可以通過(guò)多步推理調(diào)用工具來(lái)解決復(fù)雜視覺任務(wù)

可以提供反饋,總結(jié)答案,主動(dòng)詢問(wèn)模糊的指令等

這個(gè)工作開啟了ChatGPT借助視覺基礎(chǔ)模型作為工具,進(jìn)行視覺任務(wù)處理的研究方向。

論文鏈接:

https://arxiv.org/abs/2303.04671

開源代碼:

https://github.com/microsoft/visual-chatgpt

論文作者:

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

機(jī)構(gòu):微軟亞洲研究院

模型效果

5f12d024-c378-11ed-bfe3-dac502259ad0.gif

5f706e46-c378-11ed-bfe3-dac502259ad0.png

工作流程

5fc0bab8-c378-11ed-bfe3-dac502259ad0.png

記對(duì)話,第i輪的回復(fù),是通過(guò)若干次思考調(diào)用工具的結(jié)果來(lái)最終總結(jié)出來(lái)的。我們記第i輪對(duì)話中,第j次的工具調(diào)用中間答案記作,那么

其中,是全局原則,是各個(gè)視覺基礎(chǔ)模型,是歷史會(huì)話記憶,是這一輪的用戶輸入,是這輪對(duì)話里思考和的歷史,是中間答案,是prompt manager,用于把上面各個(gè)功能轉(zhuǎn)化成合理的文本prompt,從而可以交給ChatGPT進(jìn)行處理。以下圖為例進(jìn)行講解:

5fdc300e-c378-11ed-bfe3-dac502259ad0.png

對(duì)于用戶輸入,添加于全局原則prompt,工具描述prompt,歷史會(huì)話prompt之后,送給ChatGPT進(jìn)行邏輯推理(Use VFM?)得到推理結(jié)果(就是這一次得到的GPT文本輸出)。經(jīng)過(guò)正則匹配進(jìn)行分析,如果工具調(diào)用結(jié)束,則直接提取總結(jié)輸出作為最終回復(fù),如果是需要繼續(xù)調(diào)用工具,則將提取到的工具名稱、工作參數(shù),輸入視覺基礎(chǔ)模型,從而得到,置于思考?xì)v史中,進(jìn)行下一輪推理?;蛘哒f(shuō)喂給GPT的內(nèi)容為:

第一次問(wèn)答里,第一個(gè)API

第一次問(wèn)答里,第二個(gè)API:

第一次問(wèn)答里,第三個(gè)API:

第二次問(wèn)答里,第一個(gè)API:

第二次問(wèn)答里,第二個(gè)API:

得到GPT的輸出后,正則匹配進(jìn)行工具的判斷和解析,最終決定流程。API調(diào)用歷史在每次回答后清空,其中只有最后總結(jié)性的回復(fù)被記錄進(jìn)入對(duì)話歷史

細(xì)節(jié)描述

60621eb2-c378-11ed-bfe3-dac502259ad0.png

: 系統(tǒng)原則的提示符,“Visual ChatGPT是一個(gè)可以處理廣泛語(yǔ)言和視覺任務(wù)的助手,xxxxxx”。在這個(gè)prompt的部分,以下內(nèi)容被強(qiáng)調(diào):Visual ChatGPT的角色,可以訪問(wèn)且需要盡可能使用視覺基礎(chǔ)模型,要對(duì)文件名稱非常敏感不可以捏造,可以且必須遵循嚴(yán)格的Chain-of-Thought思考鏈的格式進(jìn)行思考(不然正則匹配不出來(lái)是否使用函數(shù)和函數(shù)名稱參數(shù)),可靠性等描述。

: 對(duì)每個(gè)視覺基礎(chǔ)模型的描述,包含工具名稱,使用方法,輸入輸出格式,實(shí)例

: 用戶的輸入會(huì)被改寫,用來(lái)理解圖片和強(qiáng)制GPT思考

:對(duì)輸出的處理,鏈?zhǔn)降奈募?imaga/{Name}_{Operation}_{Prev_Name}_{Org_Name}.png",強(qiáng)制修改GPT內(nèi)容,讓GPT降低思考難度,在指代不清時(shí)二次詢問(wèn)用戶等。

Case Study

論文分析了在各個(gè)模塊,如果prompt manager設(shè)計(jì)不到位,會(huì)各自出現(xiàn)什么問(wèn)題:

608d634c-c378-11ed-bfe3-dac502259ad0.png

在中,如果不強(qiáng)調(diào)對(duì)圖片文件名的敏感,可能會(huì)發(fā)生指代錯(cuò)誤。如果不強(qiáng)調(diào)思考鏈的格式嚴(yán)格,可能正則匹配匹不上。如果不強(qiáng)調(diào)可靠性,不要基于文本上下文腦補(bǔ),可能會(huì)出現(xiàn)不讀圖片直接回答的情況。如果不強(qiáng)調(diào)可以鏈?zhǔn)绞褂霉ぞ?,則可能出現(xiàn)一口吃個(gè)大胖子而不能一步一步思考的情況。

61a8537c-c378-11ed-bfe3-dac502259ad0.png

類似的,對(duì)于工具包的描述,也應(yīng)該對(duì)名稱、功能、輸入輸出格式進(jìn)行嚴(yán)格的設(shè)計(jì)。其中,for example進(jìn)行舉例影響不大,只要前面描述足夠清楚,GPT可以理解,可以刪掉保存token長(zhǎng)度。

61b316c2-c378-11ed-bfe3-dac502259ad0.png

對(duì)于用戶輸入和工具包輸出的后處理,如圖。比較神奇的是,右上角的舉例里,用ChatGPT自己的口吻來(lái)說(shuō)一些原則(從而讓ChatGPT以為是它自己說(shuō)的,然后順著說(shuō)),以及直接讓ChatGPT說(shuō)到"Thought: Do I need a tool"繼續(xù)生成,能強(qiáng)制進(jìn)入思考鏈,從而大幅度降低思考難度。左下角的舉例里,對(duì)于鏈?zhǔn)降奈募?,?wèn)Visual ChatGPT能不能總結(jié)出來(lái)文件命名原則,基本總結(jié)正確,這說(shuō)明此種命名方法,確實(shí)可以幫助Visual ChatGPT理解文件的內(nèi)容和依賴關(guān)系,生成路徑。

有意義的啟發(fā)

開啟了ChatGPT處理視覺任務(wù)的新大門

NLP --> Natural Language PhotoShop,自然語(yǔ)言文本描述下的圖片創(chuàng)作編輯和問(wèn)答

可以通過(guò)系統(tǒng)設(shè)計(jì)和工具包設(shè)計(jì)的Prompt,做到無(wú)監(jiān)督的工具調(diào)用,類似于zero-shot的toolformer

ChatGPT本身對(duì)仿真場(chǎng)景的能力很強(qiáng),也讀過(guò)圖片路徑和函數(shù)關(guān)系,從而善于使用基礎(chǔ)視覺模型

Prompt很重要,作為純語(yǔ)言模型,前文說(shuō)它是啥他就仿照啥,除了細(xì)致的要求,一定要多夸一夸他,是能力很強(qiáng)的處理模型,那它順著說(shuō),能力才會(huì)真的強(qiáng)

Visual ChatGPT本身是一個(gè)語(yǔ)言模型,所謂的兩方多輪對(duì)話只是一個(gè)Human: AI: 的多輪特殊形式前文的繼續(xù)生產(chǎn),所以,完全可以強(qiáng)行給前文AI: 讓ai自己說(shuō)一些東西出來(lái),是它信了是它自己說(shuō)的,這能夠極大的降低生成難度。這在本篇論文里對(duì)幾個(gè)場(chǎng)景的幫助很大。例如,用戶輸入圖片后,改寫為“Human: 上傳了一張圖片,描述為:{}。注意,這里的描述是幫助你理解圖片的,你不能基于它幻想而不調(diào)用工具。如果你理解了,就恢復(fù)收到。AI:收到?!弊⒁?,這里AI回復(fù)的收到,并不是真的GPT的生成內(nèi)容,而是我們強(qiáng)行寫入進(jìn)dialogue history memory的,而且可以發(fā)現(xiàn),AI真的相信了。另外一個(gè)點(diǎn)是,在用戶的輸入后面,挨著的應(yīng)該是GPT自己的思考內(nèi)容,如果我們借它的口,自己說(shuō)“推理信息僅自己可見,需要在最后總結(jié)的時(shí)候把重要信息復(fù)述給讀者”,效果比在最前文的prompt里效果好很多,可能是因?yàn)榫嚯x的原因,也可能是AI自己說(shuō)出來(lái)的原因。另外,可以直接給到"Thought: do i need a tool?"去讓GPT繼續(xù)生成,從而一定進(jìn)入推理鏈,可以匹配到遠(yuǎn)處描述思維鏈格式的prompt內(nèi)容,極大的降低思考難度。

外網(wǎng)評(píng)價(jià)

630d2c42-c378-11ed-bfe3-dac502259ad0.png

631bedd6-c378-11ed-bfe3-dac502259ad0.png

63234c70-c378-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6754

    瀏覽量

    108098
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41315

    瀏覽量

    302690
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1600

    瀏覽量

    10399

原文標(biāo)題:微軟發(fā)布Visual ChatGPT:視覺模型加持ChatGPT實(shí)現(xiàn)絲滑聊天

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    OpenAI正式發(fā)布ChatGPT Images 2.0版本

    在人工智能技術(shù)迅猛發(fā)展的浪潮中,OpenAI始終是引領(lǐng)行業(yè)變革的先鋒力量。近日,OpenAI正式發(fā)布ChatGPT Images 2.0版本,這一消息如同一顆重磅炸彈,在科技圈引發(fā)了強(qiáng)烈反響,在
    的頭像 發(fā)表于 04-22 11:32 ?2187次閱讀

    人工智能多模態(tài)與視覺模型開發(fā)實(shí)戰(zhàn) - 2026必會(huì)

    和訓(xùn)練,模型可以逐漸提升對(duì)圖像的理解能力,實(shí)現(xiàn)對(duì)各種視覺任務(wù)的精準(zhǔn)處理。 此外,視覺模型的發(fā)展還得益于大規(guī)模數(shù)據(jù)集和強(qiáng)大計(jì)算資源的支持。海
    發(fā)表于 04-15 16:06

    ChatGPT突然無(wú)法登錄是什么情況?如何解決?

    很多人在使用 ChatGPT 時(shí),都會(huì)遇到一個(gè)很頭疼的問(wèn)題: 突然無(wú)法登錄 / 登錄失敗 / 一直轉(zhuǎn)圈 / 驗(yàn)證不通過(guò) ,尤其是做運(yùn)營(yíng)、跨境電商和經(jīng)常需要使用AI工具的編程人員,這種問(wèn)題一旦出現(xiàn),會(huì)
    的頭像 發(fā)表于 04-13 12:34 ?2464次閱讀
    <b class='flag-5'>ChatGPT</b>突然無(wú)法登錄是什么情況?如何解決?

    堵車到崩潰?5分鐘搞懂ETC“”通行背后的通信黑科技

    毫秒級(jí)交易、5.8GHzDSRC、雙向加密認(rèn)證——ETC如何讓你縱享五一將至,你還把高速收費(fèi)站當(dāng)停車場(chǎng)嗎?每逢五一、國(guó)慶等節(jié)假日,高速公路收費(fèi)站往往成為巨大的“停車場(chǎng)”。人工收費(fèi)車道上,車輛
    的頭像 發(fā)表于 04-09 19:33 ?490次閱讀
    堵車到崩潰?5分鐘搞懂ETC“<b class='flag-5'>絲</b><b class='flag-5'>滑</b>”通行背后的通信黑科技

    直線導(dǎo)軌模組與滾珠臺(tái):一文看懂核心差異

    在工業(yè)自動(dòng)化與精密機(jī)械領(lǐng)域,直線導(dǎo)軌模組與滾珠臺(tái)是實(shí)現(xiàn)直線運(yùn)動(dòng)的兩種核心組件。盡管兩者都服務(wù)于直線運(yùn)動(dòng)控制,但在結(jié)構(gòu)、工作原理、性能特點(diǎn)上存在顯著差異。理解這些區(qū)別對(duì)于設(shè)備的正確選型與高效
    的頭像 發(fā)表于 04-07 16:11 ?163次閱讀
    直線導(dǎo)軌模組與滾珠<b class='flag-5'>絲</b>桿<b class='flag-5'>滑</b>臺(tái):一文看懂核心差異

    巨頭競(jìng)逐AI醫(yī)療健康:OpenAI推出ChatGPT Health,螞蟻阿福國(guó)內(nèi)領(lǐng)跑

    健康已成為AI技術(shù)的高頻應(yīng)用場(chǎng)景。OpenAI在其一篇博客文章中透露,通過(guò)分析匿名化的ChatGPT對(duì)話數(shù)據(jù),發(fā)現(xiàn)全球每周有超過(guò)2.3億人在ChatGPT上咨詢健康相關(guān)問(wèn)題,醫(yī)療健康的需求極為旺盛。
    的頭像 發(fā)表于 01-10 11:17 ?2569次閱讀

    今日看點(diǎn)|黃仁勛:物理AI的ChatGPT時(shí)刻已然到來(lái);波士頓動(dòng)力發(fā)布Atlas人形機(jī)器人量產(chǎn)版本

    黃仁勛:物理AI的ChatGPT時(shí)刻已然到來(lái) ? 1月6日,在國(guó)際消費(fèi)電子產(chǎn)品展覽會(huì)(CES 2026)上,NVIDIA發(fā)布了NVIDIA Alpamayo系列開源AI模型、仿真工具及數(shù)據(jù)集,旨在
    的頭像 發(fā)表于 01-06 15:35 ?1108次閱讀

    上線!國(guó)產(chǎn)AI語(yǔ)音開發(fā)板,定制你的聊天伙伴助手

    ChatGPT語(yǔ)音助手)這次,安信可AiPi-PalChatV1,可直接調(diào)用三大國(guó)產(chǎn)AI模型(DeepSeek/豆包/通義千問(wèn)),輕松實(shí)現(xiàn)自然語(yǔ)言交互。01概述AiPi-P
    的頭像 發(fā)表于 11-20 11:53 ?1138次閱讀
    上線!國(guó)產(chǎn)AI語(yǔ)音開發(fā)板,定制你的<b class='flag-5'>聊天</b>伙伴助手

    微軟Visual Studio 2026 發(fā)布!AI 深度融合、性能提升

    “ ?微軟發(fā)布 Visual Studio 2026 預(yù)覽版,新版本以深度融合的 AI Copilot 為核心,結(jié)合全新的 Fluent Design 界面與顯著的性能提升,旨在打造前所未有的智能
    的頭像 發(fā)表于 09-16 11:17 ?2377次閱讀
    <b class='flag-5'>微軟</b><b class='flag-5'>Visual</b> Studio 2026 <b class='flag-5'>發(fā)布</b>!AI 深度融合、性能提升

    臺(tái)模組如何實(shí)現(xiàn)電子制造精密加工?

    臺(tái)模組是一種線性運(yùn)動(dòng)裝置,用于實(shí)現(xiàn)高精度、高重復(fù)性的直線位移,由導(dǎo)軌、滑塊、驅(qū)動(dòng)(如伺服電機(jī)、步進(jìn)電機(jī))和傳動(dòng)(滾珠桿、同步帶)組成。廣泛應(yīng)用于自動(dòng)化設(shè)備、數(shù)控機(jī)床、3D打印等領(lǐng)域。
    的頭像 發(fā)表于 08-28 17:42 ?851次閱讀
    <b class='flag-5'>滑</b>臺(tái)模組如何<b class='flag-5'>實(shí)現(xiàn)</b>電子制造精密加工?

    OpenAI正式發(fā)布ChatGPT-5,AI幻覺大幅降低

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2025年08月08日 14:13:23

    ChatGPT 智能體發(fā)布的觀點(diǎn)解析及對(duì)科義相關(guān)系統(tǒng)的現(xiàn)實(shí)意義

    7月18日凌晨,OpenAI 發(fā)布通用人工智能代理 ChatGPT 智能體。這一事件蘊(yùn)含著多層面的深刻意義,同時(shí)也為科義巡檢機(jī)器人和科義視頻行為分析系統(tǒng)帶來(lái)了諸多現(xiàn)實(shí)影響。 從技術(shù)層面來(lái)看,這標(biāo)志著
    的頭像 發(fā)表于 07-18 16:31 ?1.6w次閱讀

    有源銅纜:大模型背后的隱形英雄

    現(xiàn)在大家都在關(guān)注大模型,像ChatGPT,xAI等,尤其是Deepseek,最近都火出圈了!
    的頭像 發(fā)表于 07-11 14:16 ?1392次閱讀
    有源銅纜:大<b class='flag-5'>模型</b>背后的隱形英雄

    AI真會(huì)人格分裂!OpenAI最新發(fā)現(xiàn),ChatGPT善惡開關(guān)已開啟

    AI現(xiàn)在就像一個(gè)小朋友,很容易就學(xué)壞了!OpenAI剛剛發(fā)現(xiàn),如果用錯(cuò)誤的數(shù)據(jù)微調(diào)自家的模型的一個(gè)領(lǐng)域,ChatGPT就會(huì)把在這個(gè)領(lǐng)域?qū)W到的「惡」和「壞」泛化到其他領(lǐng)域。比如「刻意」用錯(cuò)誤數(shù)據(jù)在汽車
    的頭像 發(fā)表于 06-20 12:41 ?1.8w次閱讀
    AI真會(huì)人格分裂!OpenAI最新發(fā)現(xiàn),<b class='flag-5'>ChatGPT</b>善惡開關(guān)已開啟

    樹莓派與EthernetHat:用ChatGPT實(shí)現(xiàn)的MQTT智能家居項(xiàng)目!

    我們使用Pico、WIZnetW5100S和PicoBricks開發(fā)板開發(fā)了MQTTRGB燈,通過(guò)ChatGPT4.0生成和優(yōu)化代碼。項(xiàng)目所需組件硬件組件PicoBricks擴(kuò)展板x1WIZnetW5100S-EVB-Picox1WIZnetW5500-EVB-PicoWIZnet以太網(wǎng)HATx1樹莓派Picox1
    的頭像 發(fā)表于 06-03 15:29 ?1.8w次閱讀
    樹莓派與EthernetHat:用<b class='flag-5'>ChatGPT</b><b class='flag-5'>實(shí)現(xiàn)</b>的MQTT智能家居項(xiàng)目!
    南华县| 深圳市| 栖霞市| 隆尧县| 即墨市| 资兴市| 焉耆| 宝山区| 台南县| 砚山县| 海宁市| 象州县| 东平县| 将乐县| 荆门市| 临城县| 黑山县| 上杭县| 宁乡县| 哈巴河县| 新源县| 连平县| 呼和浩特市| 吴桥县| 镇赉县| 广德县| 逊克县| 焦作市| 阳山县| 龙海市| 固镇县| 苏州市| 海安县| 新巴尔虎左旗| 万宁市| 临沭县| 兰州市| 盘锦市| 防城港市| 阜平县| 六安市|