日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

多模態(tài)中NLP與CV融合的方式有哪些?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:三和廠妹 ? 2020-12-31 10:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最早接觸多模態(tài)是一個(gè)抖音推薦項(xiàng)目,有一些視頻,標(biāo)題,用戶點(diǎn)贊收藏等信息,給用戶推薦作品,我當(dāng)時(shí)在這個(gè)項(xiàng)目里負(fù)責(zé)用NLP部分上分,雖然最后用wide and deep 整個(gè)團(tuán)隊(duì)效果還可以,但是從a/b test 看文本部分在其中起到的作用為0... ( ) 現(xiàn)在看來(lái)還是wide and deep這種方式太粗暴了(對(duì)于復(fù)雜信息的融合),本文寫寫多模態(tài)掃盲基礎(chǔ)和最近大家精巧的一些圖像文本融合的模型設(shè)計(jì),主要是在VQA(視覺(jué)問(wèn)答)領(lǐng)域,也有一個(gè)多模態(tài)QA,因?yàn)樵谕扑]領(lǐng)域,你也看到了,即使NLP的貢獻(xiàn)為零,用戶特征足夠,效果也能做到很好了。

一. 概念掃盲

多模態(tài)(MultiModal)

多種不同的信息源(不同的信息形式)中獲取信息表達(dá)

五個(gè)挑戰(zhàn)

表示(Multimodal Representation)的意思,比如shift旋轉(zhuǎn)尺寸不變形,圖像中研究出的一種表示

表示的冗余問(wèn)題

不同的信號(hào),有的象征性信號(hào),有波信號(hào),什么樣的表示方式方便多模態(tài)模型提取信息

表示的方法

聯(lián)合表示將多個(gè)模態(tài)的信息一起映射到一個(gè)統(tǒng)一的多模態(tài)向量空間

協(xié)同表示負(fù)責(zé)將多模態(tài)中的每個(gè)模態(tài)分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關(guān)性約束。

16adb97c-4a92-11eb-8b86-12bb97331649.jpg

2. 翻譯/轉(zhuǎn)化/映射

信號(hào)的映射,比如給一個(gè)圖像,將圖像翻譯成文字,文字翻譯成圖像,信息轉(zhuǎn)化成統(tǒng)一形式后來(lái)應(yīng)用

方式,這里就跟專門研究翻譯的領(lǐng)域是重疊,基于實(shí)例的翻譯,涉及到檢索,字典(規(guī)則)等,基于生成方法如生成翻譯的內(nèi)容

3. 對(duì)齊

多模態(tài)對(duì)齊定義為從兩個(gè)或多個(gè)模態(tài)中查找實(shí)例子組件之間的關(guān)系和對(duì)應(yīng),研究不同的信號(hào)如何對(duì)齊(比如給電影,找出劇本中哪一段)

對(duì)齊方式,有專門研究對(duì)齊的領(lǐng)域,主要兩種,顯示對(duì)齊(比如時(shí)間維度上就是顯示對(duì)齊的),隱式對(duì)齊(比如語(yǔ)言的翻譯就不是位置對(duì)位置)

4. 融合

比如情感分析中語(yǔ)氣和語(yǔ)句的融合等

這個(gè)最難也是被研究最多的領(lǐng)域,比如音節(jié)和唇語(yǔ)頭像怎么融合,本筆記主要寫融合方式

二. 應(yīng)用

試聽(tīng)語(yǔ)音識(shí)別,多媒體內(nèi)容檢索,視頻理解,視頻總結(jié),事件監(jiān)測(cè),情感分析,視頻會(huì)議情感分析,媒體描述,視覺(jué)問(wèn)答等,應(yīng)用其實(shí)很廣,只不過(guò)被現(xiàn)在的智能程度大大限制了,whatever, 我覺(jué)得視覺(jué)也語(yǔ)言的結(jié)合比純NLP,是離智能更近的一步。

三.VQA掃盲 and 常用方式

VQA(Visual Question Answering)

給定一張圖片(視頻)和一個(gè)與該圖片相關(guān)的自然語(yǔ)言問(wèn)題,計(jì)算機(jī)能產(chǎn)生一個(gè)正確的回答。這是文本QA和Image Captioning的結(jié)合,一般會(huì)涉及到圖像內(nèi)容上的推理,看起來(lái)更炫酷(不是指邏輯,就就指直觀感受)。

目前VQA的四大方式

Joint embedding approaches,只是直接從源頭編碼的角度開(kāi)始融合信息,這也很自然的聯(lián)想到最簡(jiǎn)單粗暴的方式就是把文本和圖像的embedding直接拼接(ps:粗暴拼接這種方式很work),Billiner Fusion 最常用了,F(xiàn)usion屆的LR

Attention mechanisms,很多VQA的問(wèn)題都在attention上做文章,attention本身也是一個(gè)提取信息的動(dòng)作,自從attention is all you need后,大家對(duì)attention的應(yīng)用可以說(shuō)是花式了,本文后面專門介紹CVPR2019的幾篇

Compositional Models,這種方式解決問(wèn)題的思路是分模塊而治之,各模塊分別處理不同的功能,然后通過(guò)模塊的組裝推理得出結(jié)果

比如在[1]中,上圖,問(wèn)題是What color is his tie?先選擇出 attend 和classify 模塊,并且根據(jù)推理方式組裝模塊,最后得出結(jié)論 4.Models using external knowledge base利用外部知識(shí)庫(kù)來(lái)做VQA和很好理解,QA都喜歡用知識(shí)庫(kù),這種知識(shí)儲(chǔ)備一勞永逸,例如,為了回答“圖上有多少只哺乳動(dòng)物”這樣的問(wèn)題,模型必須得知道“哺乳動(dòng)物”的定義,而你想從圖像上去學(xué)習(xí)到哺乳動(dòng)物是有難度的,因此把知識(shí)庫(kù)接進(jìn)來(lái)檢索是種解決方式,例如在[2]

四. 多模態(tài)中CV和NLP融合的幾種方式

1. Bilinear Fusion 雙線性融合 and Joint embedding Bilinear Fusion 雙線性融合是最常見(jiàn)的一種融合方式了,很多論文用這種方式做基礎(chǔ)結(jié)構(gòu),在CVPR2019一遍VQA多模態(tài)推理[3]中,提出的CELL就是基于這個(gè),作者做關(guān)系推理,不僅對(duì)問(wèn)題與圖片區(qū)域的交互關(guān)系建模,也對(duì)圖片區(qū)域間的聯(lián)系建模。并且推導(dǎo)過(guò)程是逐步逼近的過(guò)程。

作者提出的MuRel,Bilinear Fusion 將每個(gè)圖像區(qū)域特征都分別與問(wèn)題文本特征融合得到多模態(tài)embedding(Joint embedding ),后者對(duì)這些embedding進(jìn)行成對(duì)的關(guān)系建模。

第一部分雙線性融合,所謂雙線性簡(jiǎn)單來(lái)講就是函數(shù)對(duì)于兩個(gè)變量都是線性的,參數(shù)(表達(dá)兩種信息關(guān)聯(lián))是個(gè)多為矩陣,作者采用的MUTAN模型里面的Tucker decomposition方法, 將線性關(guān)系的參數(shù)分解大大減小參數(shù)量 第二部分Pairwise relation學(xué)習(xí)的是經(jīng)過(guò)融合后節(jié)點(diǎn)之間的兩兩關(guān)系(主要是圖像的關(guān)系),然后和原始text 信息有效(粗暴)拼接 最后如下圖放在網(wǎng)絡(luò),進(jìn)行迭代推理。實(shí)驗(yàn)結(jié)果顯示在跟位置推斷類的問(wèn)題中,這種結(jié)構(gòu)表現(xiàn)比較好。

2. 花式動(dòng)態(tài)attention融合 這篇[4]作者更上篇一樣同時(shí)注意到了模態(tài)內(nèi)和模態(tài)間的關(guān)系,即作者說(shuō)的intra-modality relation(模態(tài)內(nèi)部關(guān)系)和inter-modality relation(跨模態(tài)關(guān)系),但是作者更機(jī)智(個(gè)人觀點(diǎn))的用了attention來(lái)做各種fusion。 作者認(rèn)為intra-modality relation是對(duì)inter-modality relation的補(bǔ)充:圖像區(qū)域不應(yīng)該僅獲得來(lái)自問(wèn)題文本的信息,而且需要與其他圖像區(qū)域產(chǎn)生關(guān)聯(lián)。 模型結(jié)構(gòu)是首先各自分別對(duì)圖像和文本提取特征,然后通過(guò)通過(guò)模態(tài)內(nèi)部的attention建模和模態(tài)間的attention建模,這個(gè)模塊堆疊多次,最后拼接后進(jìn)行分類。模態(tài)間的attention是相互的(文本對(duì)圖像,圖像對(duì)文本),attention就是采用transform中的attention.

進(jìn)行模態(tài)內(nèi)關(guān)系建模的模塊是Dynamic Intra-modality Attention Flow (DyIntraMAF), 文中最大的亮點(diǎn)是進(jìn)行了 條件attention,即圖像之間的attention信心建立不應(yīng)該只根據(jù)圖像,也要根據(jù)不同的具體問(wèn)題而產(chǎn)生不同的關(guān)聯(lián)。

這種條件attention的condition設(shè)計(jì)有點(diǎn)類似lstm的門機(jī)制,通過(guò)加入gating機(jī)制來(lái)控制信息,下圖中圖像的self attention 就是經(jīng)過(guò)了text的門機(jī)制來(lái)過(guò)濾信息。最后作者做了很多ablation studies,達(dá)到了SOTA效果。

1e08147e-4a92-11eb-8b86-12bb97331649.png

3. VQA對(duì)話系統(tǒng) 另外有一篇[5]個(gè)多模態(tài)的QA,這篇文章fusion 挺普通的multimodal fusion 也是普通的 billinear, 但是這個(gè)應(yīng)用場(chǎng)景非常非常實(shí)用,我們通常用語(yǔ)言描述的說(shuō)不清楚的時(shí)候,會(huì)有一圖勝千言語(yǔ)感覺(jué),而多模態(tài)就是從這個(gè)點(diǎn)出發(fā),發(fā)一張圖,like this, like that... 文中就是用這個(gè)做商業(yè)客服的QA

1f0968be-4a92-11eb-8b86-12bb97331649.jpg

模型比較常規(guī),encoder端,先CNN提取了圖片特征,然后根據(jù)商品屬性建一個(gè)屬性分類樹(shù),文本常規(guī)處理,最后通過(guò)MFB融合

Decoder 時(shí),文本RNNdecode, 但是圖像居然是用求cos相似,就電商那種產(chǎn)品數(shù)據(jù)的量級(jí),除非在業(yè)務(wù)上做很多前置工作,這種計(jì)算量就不現(xiàn)實(shí)

1f980132-4a92-11eb-8b86-12bb97331649.jpg

In all

這篇屬于擴(kuò)展NLP的廣度,寫的不深,選的論文和很隨便(因?yàn)槲也缓芰私猓鳛橐粋€(gè)NLPer, 寬度上來(lái)說(shuō)我覺(jué)得這也是一個(gè)方向.

原文標(biāo)題:多模態(tài)中NLP與CV融合的一些方式

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5610

    瀏覽量

    124656
  • MLP
    MLP
    +關(guān)注

    關(guān)注

    0

    文章

    57

    瀏覽量

    5033

原文標(biāo)題:多模態(tài)中NLP與CV融合的一些方式

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模態(tài)大模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第一季》精品課程簡(jiǎn)介

    全棧掌握模態(tài):從算法原理到項(xiàng)目落地的技術(shù)實(shí)踐 在人工智能從單模態(tài)模態(tài)跨越的進(jìn)程,全棧開(kāi)發(fā)
    發(fā)表于 05-01 17:46

    視美泰模態(tài)融合+姿態(tài)感知技術(shù),讓機(jī)器真正 “讀懂” 世界

    通過(guò)多維感知與邏輯判斷,讓冰冷的機(jī)器擁有了近乎人類的場(chǎng)景洞察與行為解析能力。超越視覺(jué),模態(tài)融合讓決策更"聰明"在復(fù)雜的實(shí)際場(chǎng)景,僅靠圖像識(shí)別往往會(huì)產(chǎn)生誤報(bào)。視美泰在AI算法架構(gòu)
    的頭像 發(fā)表于 04-29 14:59 ?175次閱讀
    視美泰<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>融合</b>+姿態(tài)感知技術(shù),讓機(jī)器真正 “讀懂” 世界

    商湯科技正式開(kāi)源模態(tài)自主推理模型SenseNova-MARS

    今日,商湯正式開(kāi)源模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在模態(tài)搜索與推理的核心基準(zhǔn)測(cè)試以 69.7
    的頭像 發(fā)表于 01-30 10:13 ?814次閱讀
    商湯科技正式開(kāi)源<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>自主推理模型SenseNova-MARS

    商湯開(kāi)源SenseNova-MARS:突破模態(tài)搜索推理天花板

    今日,商湯正式開(kāi)源模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在模態(tài)搜索與推理的核心基準(zhǔn)測(cè)試以 69.7
    的頭像 發(fā)表于 01-29 23:53 ?276次閱讀
    商湯開(kāi)源SenseNova-MARS:突破<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>搜索推理天花板

    模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng)的應(yīng)用與未來(lái)發(fā)展

    ? ? 模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng) ? ?北京華盛恒輝模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng),是融合
    的頭像 發(fā)表于 12-29 11:27 ?492次閱讀

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語(yǔ)義搜索應(yīng)用打造的頂尖模態(tài)嵌入模型。該模型是首個(gè)通過(guò)單一模型支持文本、
    的頭像 發(fā)表于 10-29 17:15 ?395次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入模型

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    “看圖說(shuō)話+語(yǔ)音問(wèn)答”的融合交互。 五、結(jié)論與未來(lái)發(fā)展方向如果說(shuō) “大模型上云” 是 AI 的 “星辰大海”,那么 “模態(tài)落地端側(cè)” 就是 AI 的 “柴米油鹽”—— 后者決定了智能技術(shù)能否真正
    發(fā)表于 09-05 17:25

    淺析模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ?在人工智能邁向AGI通用智能的關(guān)鍵道路上,大模型正從單一的文本理解者,演進(jìn)為能同時(shí)看、聽(tīng)、讀、想的“多面手”。驅(qū)動(dòng)這一進(jìn)化的核心燃料,正是高質(zhì)量的模態(tài)數(shù)據(jù),而將原始數(shù)據(jù)轉(zhuǎn)化為“機(jī)器可讀教材
    的頭像 發(fā)表于 09-05 13:49 ?2837次閱讀

    商湯科技模態(tài)通用智能戰(zhàn)略思考

    時(shí)間是最好的試金石,AI領(lǐng)域尤其如此。當(dāng)行業(yè)熱議大模型走向時(shí),商湯早已錨定“模態(tài)通用智能”——這是我們以深厚研究積累和實(shí)踐反復(fù)驗(yàn)證的可行路徑。
    的頭像 發(fā)表于 08-14 09:33 ?1326次閱讀

    NVIDIA助力圖靈新訊美推出企業(yè)級(jí)模態(tài)視覺(jué)大模型融合解決方案

    中國(guó)推出企業(yè)級(jí)模態(tài)視覺(jué)大模型融合解決方案,推動(dòng)先進(jìn) AI 模型在交通治理、工業(yè)質(zhì)檢、金融風(fēng)控等領(lǐng)域?qū)崿F(xiàn)高效識(shí)別、精準(zhǔn)預(yù)警和穩(wěn)定交付。
    的頭像 發(fā)表于 06-26 09:17 ?1552次閱讀

    模態(tài)感知+豆包大模型!家居端側(cè)智能升級(jí)

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)日前,在火山引擎2025春季FORCE原動(dòng)力大會(huì)上,星宸科技股份有限公司董事副總經(jīng)理陳立敬談到,在人工智能技術(shù)飛速發(fā)展的時(shí)代,模態(tài)感知與大模型的融合成為推動(dòng)各行業(yè)變革
    的頭像 發(fā)表于 06-21 00:06 ?7369次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>感知+豆包大模型!家居端側(cè)智能升級(jí)

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式
    的頭像 發(fā)表于 06-12 10:17 ?813次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新<b class='flag-5'>方式</b>

    商湯日日新SenseNova融合模態(tài)大模型 國(guó)內(nèi)首家獲得最高評(píng)級(jí)的大模型

    近日,中國(guó)信息通信研究院(以下簡(jiǎn)稱“中國(guó)信通院”)完成可信AI模態(tài)大模型首輪評(píng)估。 商湯日日新SenseNova融合模態(tài)大模型在所有模型
    的頭像 發(fā)表于 06-11 11:57 ?1590次閱讀

    Android Studio的Gemini支持模態(tài)輸入功能

    的 Gemini 現(xiàn)已支持模態(tài)輸入,您可在提示中直接添加圖像!這為團(tuán)隊(duì)協(xié)作和界面開(kāi)發(fā)工作流程解鎖了更多新的可能性。
    的頭像 發(fā)表于 05-14 16:44 ?1310次閱讀

    XMOS為普及AI應(yīng)用推出基于軟件定義SoC的模態(tài)AI傳感器融合接口

    模態(tài)傳感信號(hào)AI處理為智算中心和邊緣智能開(kāi)啟感知智能的新篇章
    的頭像 發(fā)表于 05-12 17:51 ?645次閱讀
    XMOS為普及AI應(yīng)用推出基于軟件定義SoC的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI傳感器<b class='flag-5'>融合</b>接口
    隆安县| 双柏县| 巩义市| 成武县| 雷波县| 定州市| 长春市| 台北县| 虹口区| 中卫市| 陇西县| 房产| 西林县| 贺州市| 舒城县| 南昌县| 青川县| 镇平县| 沙雅县| 虹口区| 广汉市| 慈溪市| 中西区| 江华| 弥勒县| 乌拉特中旗| 赫章县| 肥东县| 千阳县| 望城县| 明溪县| 浑源县| 仙桃市| 噶尔县| 杨浦区| 宜昌市| 朔州市| 思茅市| 湘阴县| 门源| 磐安县|