日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在多模態(tài)的語(yǔ)境中利用Transformer強(qiáng)大的表達(dá)能力?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:夕小瑤的賣萌屋 ? 作者:子龍 ? 2021-03-29 16:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

曾幾何時(shí),多模態(tài)預(yù)訓(xùn)練已經(jīng)不是一個(gè)新的話題,各大頂會(huì)諸多論文仿佛搭上Visual和BERT,就能成功paper+=1,VisualBERT、ViLBERT層出不窮,傻傻分不清楚。..。..這些年NLPer在跨界上忙活的不亦樂(lè)乎,提取視覺特征后和文本詞向量一同輸入到萬(wàn)能的Transformer中,加大力度預(yù)訓(xùn)練,總有意想不到的SOTA。

如何在多模態(tài)的語(yǔ)境中更細(xì)致準(zhǔn)確地利用Transformer強(qiáng)大的表達(dá)能力呢?Facebook最新的 Transformer is All You Need 也許可以給你答案。

a12e796a-8e8f-11eb-8b86-12bb97331649.png

這篇貌似標(biāo)題黨的文章開宗明義,針對(duì)文本+視覺的多模態(tài)任務(wù),用好Transformer就夠了,與許多前作不同,這次提出的模型一個(gè)模型可以解決多個(gè)任務(wù):目標(biāo)檢測(cè)、自然語(yǔ)言理解、視覺問(wèn)答,各個(gè)模型板塊各司其職、條理清晰:視覺編碼器、文本編碼器、特征融合解碼器,都是建立在多層Transformer之上,最后添加為每個(gè)任務(wù)設(shè)計(jì)的處理器,通過(guò)多任務(wù)訓(xùn)練,一舉刷新了多個(gè)任務(wù)的榜單。

a1a44924-8e8f-11eb-8b86-12bb97331649.png

文本編碼器用Transformer提取文本特征是個(gè)老生常談的問(wèn)題,從BERT石破天驚開始,純文本領(lǐng)域近乎已被Transformer蠶食殆盡,所以該文也不能免俗,直接借用BERT的結(jié)構(gòu)提取文本內(nèi)容,區(qū)別在于,為了解決多個(gè)任務(wù),在文本序列前添加了一個(gè)針對(duì)不同任務(wù)的參數(shù)向量,在最后輸出隱藏狀態(tài)到解碼器時(shí)再去掉。

視覺編碼器本文將Transformer強(qiáng)大的表達(dá)能力運(yùn)用到視覺特征的提取中,由于圖片像素點(diǎn)數(shù)量巨大,首先通過(guò)基于卷積神經(jīng)網(wǎng)絡(luò)的ResNet-50提取卷積特征,極大程度上地降低了特征數(shù)量,最終得到的feature map大小為,然后用全聯(lián)接層調(diào)整單個(gè)特征的維度到,再利用多層Transformer中的注意力機(jī)制提取各個(gè)feature之間的關(guān)系,由于Transformer的輸入是序列,文章將拉成一條長(zhǎng)為的序列,另外和文本編碼器類似,同樣添加了與下游任務(wù)相關(guān)的。

其中是調(diào)整維度的全聯(lián)接層,是多層Transformer編碼器。

模態(tài)融合解碼器多模態(tài)的關(guān)鍵之一就在于怎么同時(shí)利用多個(gè)模態(tài),在本文中是通過(guò)Transformer的解碼器實(shí)現(xiàn)的,這個(gè)解碼器首先將任務(wù)相關(guān)的query做self-attention,再將結(jié)果與文本編碼器和視覺編碼器的結(jié)果做cross-attention,針對(duì)單一模態(tài)的任務(wù),選取對(duì)應(yīng)編碼器的輸出即可,針對(duì)多模態(tài)的任務(wù),取兩個(gè)編碼器輸出的拼接。

任務(wù)處理器(task-specific output head)之前多模態(tài)預(yù)訓(xùn)練模型往往只針對(duì)某一項(xiàng)任務(wù),而本文提出的一個(gè)模型可以解決多個(gè)文本+視覺任務(wù),與BERT可以解決多個(gè)文本任務(wù)類似,本文的模型在模態(tài)融合解碼器的結(jié)果上添加為每個(gè)任務(wù)設(shè)計(jì)的處理器,這個(gè)處理器相對(duì)簡(jiǎn)單,用于從隱藏狀態(tài)中提取出與特定任務(wù)相匹配的特征。

目標(biāo)檢測(cè):添加box_head和class_head兩個(gè)前饋神經(jīng)網(wǎng)絡(luò)從最后一層隱藏狀態(tài)中提取特征用來(lái)確定目標(biāo)位置和預(yù)測(cè)目標(biāo)類型。

自然語(yǔ)言理解、視覺問(wèn)答:通過(guò)基于全聯(lián)接層的分類模型實(shí)現(xiàn),將模態(tài)融合解碼器結(jié)果的第一位隱藏狀態(tài)輸入到兩層全聯(lián)接層并以GeLU作為激活函數(shù),最后計(jì)算交叉熵?fù)p失。

實(shí)驗(yàn)與總結(jié)本文提出的多模態(tài)預(yù)訓(xùn)練模型各個(gè)板塊劃分明確,通過(guò)多層Transformer分別提取特征,再利用解碼器機(jī)制融合特征并完成下游任務(wù),同時(shí)借助最后一層任務(wù)相關(guān)的處理器,可以通過(guò)一個(gè)模型解決多個(gè)任務(wù),同時(shí)也讓多任務(wù)預(yù)訓(xùn)練成為可能,并在實(shí)驗(yàn)中的各個(gè)數(shù)據(jù)集上得到了論文主要進(jìn)行了兩部分實(shí)驗(yàn):

多任務(wù)學(xué)習(xí):

這里的多任務(wù)涉及目標(biāo)檢測(cè)和視覺問(wèn)答兩個(gè)任務(wù),在目標(biāo)檢測(cè)上運(yùn)用COCO和VG兩個(gè)數(shù)據(jù)集,在視覺問(wèn)答上運(yùn)用VQAv2數(shù)據(jù)集。對(duì)比了單一任務(wù)和多任務(wù)同時(shí)訓(xùn)練的結(jié)果,同時(shí)對(duì)比了不同任務(wù)共用解碼器的結(jié)果。

a1f97444-8e8f-11eb-8b86-12bb97331649.png

從結(jié)果中我們可以看出,單純的使用多任務(wù)訓(xùn)練并不一定可以提高結(jié)果,不同任務(wù)間雖然相關(guān)但是卻不完全相同,這可能是任務(wù)本身差異或者數(shù)據(jù)集的特性所導(dǎo)致,第二行和第五行可以很明顯地看出COCO上的目標(biāo)檢測(cè)和VQAv2的視覺問(wèn)答相結(jié)合后,結(jié)果有顯著的下降,然而VG上的目標(biāo)檢測(cè)卻能夠和視覺問(wèn)答很好地結(jié)合,通過(guò)三個(gè)數(shù)據(jù)集上的共同訓(xùn)練,可以得到最高的結(jié)果。

多模態(tài)學(xué)習(xí):

這一實(shí)驗(yàn)中,為了體現(xiàn)所提出模型能夠有效解決多個(gè)多種模態(tài)的不同任務(wù),論文作者在之前COCO、VG、VQAv2的基礎(chǔ)上,增加了單一文本任務(wù)GLUE的幾個(gè)數(shù)據(jù)集(QNLI、QQP、MNLI、SST-2)和視覺推斷數(shù)據(jù)集SNLI-VE,從數(shù)據(jù)集的數(shù)量上可以看出本文模型的全能性。與本文對(duì)比的有純文本的BERT、基于Transformer的視覺模型DETR、多模態(tài)預(yù)訓(xùn)練模型VisualBERT。

a2736164-8e8f-11eb-8b86-12bb97331649.png

仔細(xì)看各個(gè)數(shù)據(jù)集上的結(jié)果,不難看出本文提出的模型其實(shí)并不能在所有數(shù)據(jù)集多上刷出SOTA,比如COCO上遜色于DETR,SNLI-VE遜色于VisualBERT,SST-2遜色于BERT,其他數(shù)據(jù)集上都有一定的提高,但是模型卻勝在一個(gè)“全”字,模型的結(jié)構(gòu)十分清晰明了,各個(gè)板塊的作用十分明確,同時(shí)針對(duì)不同任務(wù)的處理器也對(duì)后續(xù)多模態(tài)任務(wù)富有啟發(fā)性。

原文標(biāo)題:【Transformer】沒有什么多模態(tài)任務(wù)是一層Transformer解決不了的!

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    4013

    瀏覽量

    143476
  • Transforme
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    8971
  • 多模
    +關(guān)注

    關(guān)注

    1

    文章

    32

    瀏覽量

    11208

原文標(biāo)題:【Transformer】沒有什么多模態(tài)任務(wù)是一層Transformer解決不了的!

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模態(tài)大模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第一季》精品課程簡(jiǎn)介

    ;模態(tài)拼接\"向\"模態(tài)共生\"演進(jìn): 統(tǒng)一架構(gòu) :如GPT-4V、Flamingo等模型通過(guò)單一Transformer處理任意模態(tài)輸入,實(shí)現(xiàn)真正的
    發(fā)表于 05-01 17:46

    視美泰模態(tài)融合+姿態(tài)感知技術(shù),讓機(jī)器真正 “讀懂” 世界

    通過(guò)多維感知與邏輯判斷,讓冰冷的機(jī)器擁有了近乎人類的場(chǎng)景洞察與行為解析能力。超越視覺,模態(tài)融合讓決策更"聰明"在復(fù)雜的實(shí)際場(chǎng)景,僅靠圖像識(shí)別往往會(huì)產(chǎn)生誤報(bào)。視美泰在AI算法架構(gòu)
    的頭像 發(fā)表于 04-29 14:59 ?176次閱讀
    視美泰<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>融合+姿態(tài)感知技術(shù),讓機(jī)器真正 “讀懂” 世界

    ADPD4000/ADPD4001:模態(tài)傳感器前端的卓越之選

    傳感器前端,為眾多應(yīng)用領(lǐng)域帶來(lái)了新的解決方案。本文將詳細(xì)介紹ADPD4000/ADPD4001的特性、工作原理、應(yīng)用模式以及相關(guān)寄存器配置,希望能為電子工程師們?cè)谠O(shè)計(jì)過(guò)程中提供有價(jià)值的參考。 文件下載: ADPD4000.pdf 一、產(chǎn)品特性剖析 1.1 模態(tài)測(cè)量
    的頭像 發(fā)表于 03-27 14:45 ?198次閱讀

    ADPD4200 模態(tài)傳感器前端:功能、應(yīng)用與設(shè)計(jì)要點(diǎn)

    前端,具有豐富的特性和廣泛的應(yīng)用場(chǎng)景,下面我們就來(lái)詳細(xì)了解一下。 文件下載: ADPD4200.pdf 一、ADPD4200 概述 ADPD4200 是一款功能強(qiáng)大模態(tài)傳感器前端,可刺激多達(dá)四個(gè)發(fā)光二極管(LED),并在多達(dá)
    的頭像 發(fā)表于 03-27 09:35 ?219次閱讀

    Transformer如何讓自動(dòng)駕駛大模型獲得思考能力

    在談及自動(dòng)駕駛時(shí),Transformer一直是非常關(guān)鍵的技術(shù),為何Transformer在自動(dòng)駕駛行業(yè)一直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4425次閱讀

    商湯開源SenseNova-MARS:突破模態(tài)搜索推理天花板

    今日,商湯正式開源模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在模態(tài)搜索與推理的核心基準(zhǔn)測(cè)試以 69.7
    的頭像 發(fā)表于 01-29 23:53 ?276次閱讀
    商湯開源SenseNova-MARS:突破<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>搜索推理天花板

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語(yǔ)義搜索應(yīng)用打造的頂尖模態(tài)嵌入模型。該模型是首個(gè)通過(guò)單一模型支持文本、
    的頭像 發(fā)表于 10-29 17:15 ?395次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入模型

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    配合,三者各司其職、無(wú)縫銜接,共同構(gòu)建起完整的模態(tài)對(duì)話能力輪對(duì)話系統(tǒng)架構(gòu) 1. 圖像視覺編碼器(Vision Encoder) 模型選擇:采用
    發(fā)表于 09-05 17:25

    商湯科技模態(tài)通用智能戰(zhàn)略思考

    時(shí)間是最好的試金石,AI領(lǐng)域尤其如此。當(dāng)行業(yè)熱議大模型走向時(shí),商湯早已錨定“模態(tài)通用智能”——這是我們以深厚研究積累和實(shí)踐反復(fù)驗(yàn)證的可行路徑。
    的頭像 發(fā)表于 08-14 09:33 ?1326次閱讀

    自動(dòng)駕駛Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    持續(xù)討論。特別是在自動(dòng)駕駛領(lǐng)域,部分廠商開始嘗試將模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統(tǒng),引發(fā)了“傳統(tǒng)深度學(xué)習(xí)是否已過(guò)時(shí)”的激烈爭(zhēng)論。然而,從技術(shù)原理、算力成本、安全需求與實(shí)際落地路徑等維度來(lái)看,Transformer
    的頭像 發(fā)表于 08-13 09:15 ?4393次閱讀
    自動(dòng)駕駛<b class='flag-5'>中</b><b class='flag-5'>Transformer</b>大模型會(huì)取代深度學(xué)習(xí)嗎?

    偉視界:解密GB28181流媒體平臺(tái),模態(tài)AI的強(qiáng)大支撐

    GB28181流媒體平臺(tái)作為模態(tài)AI系統(tǒng)的基礎(chǔ)數(shù)據(jù)樞紐,解決了源異構(gòu)視頻資源的接入與處理問(wèn)題,提供標(biāo)準(zhǔn)化數(shù)據(jù)格式,支持各類智能分析與應(yīng)用場(chǎng)景。其廣泛的協(xié)議兼容性和強(qiáng)大的視頻處理
    的頭像 發(fā)表于 07-24 14:38 ?1167次閱讀
    <b class='flag-5'>中</b>偉視界:解密GB28181流媒體平臺(tái),<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI的<b class='flag-5'>強(qiáng)大</b>支撐

    研華科技攜手創(chuàng)新奇智推出模態(tài)大模型AI一體機(jī)

    這是一款基于研華高性能邊緣計(jì)算平臺(tái)MIC-733,深度集成創(chuàng)新奇智視覺小模型與模態(tài)大模型的邊緣智能終端,通過(guò)創(chuàng)新的“視覺識(shí)別 + 深度語(yǔ)義理解”融合分析路徑,具備強(qiáng)大的本地視頻智能分析及大模型深度研判
    的頭像 發(fā)表于 07-17 17:14 ?1096次閱讀
    研華科技攜手創(chuàng)新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型AI一體機(jī)

    汽車模態(tài)交互測(cè)試:智能交互的深度驗(yàn)證

    在汽車智能座艙測(cè)試的關(guān)鍵進(jìn)程,北京沃華慧通測(cè)控技術(shù)有限公司展現(xiàn)出了獨(dú)特的價(jià)值與優(yōu)勢(shì)。作為一家專注于測(cè)控技術(shù)領(lǐng)域的企業(yè),沃華慧通在智能座艙測(cè)試方面積累了豐富的經(jīng)驗(yàn)和專業(yè)的技術(shù)能力。其研發(fā)的測(cè)試設(shè)備能夠精準(zhǔn)模擬各種復(fù)雜的車載環(huán)境,對(duì)智能座艙的
    的頭像 發(fā)表于 06-25 09:00 ?1563次閱讀
    汽車<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>交互測(cè)試:智能交互的深度驗(yàn)證

    商湯日日新SenseNova融合模態(tài)大模型 國(guó)內(nèi)首家獲得最高評(píng)級(jí)的大模型

    近日,中國(guó)信息通信研究院(以下簡(jiǎn)稱“中國(guó)信通院”)完成可信AI模態(tài)大模型首輪評(píng)估。 商湯日日新SenseNova融合模態(tài)大模型在所有模型,獲得當(dāng)前最高評(píng)級(jí)——4+級(jí),并成為國(guó)內(nèi)首家
    的頭像 發(fā)表于 06-11 11:57 ?1590次閱讀

    Android Studio的Gemini支持模態(tài)輸入功能

    的 Gemini 現(xiàn)已支持模態(tài)輸入,您可在提示中直接添加圖像!這為團(tuán)隊(duì)協(xié)作和界面開發(fā)工作流程解鎖了更多新的可能性。
    的頭像 發(fā)表于 05-14 16:44 ?1310次閱讀
    安顺市| 巴楚县| 西贡区| 宜宾市| 龙江县| 北川| 峨山| 中宁县| 棋牌| 四平市| 沙雅县| 沈丘县| 瓦房店市| 岢岚县| 漠河县| 贡觉县| 通城县| 嘉义市| 诏安县| 西林县| 定襄县| 尤溪县| 张家口市| 清涧县| 南京市| 大埔区| 交城县| 武汉市| 石首市| 东阳市| 河间市| 锡林浩特市| 呼图壁县| 张家港市| 武胜县| 绥江县| 丹巴县| 湘潭市| 长阳| 上虞市| 台湾省|