一本色道精品,久久久高潮精品,欧美啪啪视频在线

最早接觸多模態(tài)是一個(gè)抖音推薦項(xiàng)目，有一些視頻，標(biāo)題，用戶點(diǎn)贊收藏等信息，給用戶推薦作品，我當(dāng)時(shí)在這個(gè)項(xiàng)目里負(fù)責(zé)用NLP部分上分，雖然最后用wide and deep 整個(gè)團(tuán)隊(duì)效果還可以，但是從a/b test 看文本部分在其中起到的作用為0... ( ) 現(xiàn)在看來(lái)還是wide and deep這種方式太粗暴了（對(duì)于復(fù)雜信息的融合），本文寫寫多模態(tài)掃盲基礎(chǔ)和最近大家精巧的一些圖像文本融合的模型設(shè)計(jì)，主要是在VQA（視覺(jué)問(wèn)答）領(lǐng)域，也有一個(gè)多模態(tài)QA，因?yàn)樵谕扑]領(lǐng)域，你也看到了，即使NLP的貢獻(xiàn)為零，用戶特征足夠，效果也能做到很好了。

一. 概念掃盲

多模態(tài)（MultiModal）

多種不同的信息源（不同的信息形式）中獲取信息表達(dá)

五個(gè)挑戰(zhàn)

表示（Multimodal Representation）的意思，比如shift旋轉(zhuǎn)尺寸不變形，圖像中研究出的一種表示

表示的冗余問(wèn)題

不同的信號(hào)，有的象征性信號(hào)，有波信號(hào)，什么樣的表示方式方便多模態(tài)模型提取信息

表示的方法

聯(lián)合表示將多個(gè)模態(tài)的信息一起映射到一個(gè)統(tǒng)一的多模態(tài)向量空間

協(xié)同表示負(fù)責(zé)將多模態(tài)中的每個(gè)模態(tài)分別映射到各自的表示空間，但映射后的向量之間滿足一定的相關(guān)性約束。

2. 翻譯/轉(zhuǎn)化/映射

信號(hào)的映射，比如給一個(gè)圖像，將圖像翻譯成文字，文字翻譯成圖像，信息轉(zhuǎn)化成統(tǒng)一形式后來(lái)應(yīng)用

方式，這里就跟專門研究翻譯的領(lǐng)域是重疊，基于實(shí)例的翻譯，涉及到檢索，字典（規(guī)則）等，基于生成方法如生成翻譯的內(nèi)容

3. 對(duì)齊

多模態(tài)對(duì)齊定義為從兩個(gè)或多個(gè)模態(tài)中查找實(shí)例子組件之間的關(guān)系和對(duì)應(yīng)，研究不同的信號(hào)如何對(duì)齊（比如給電影，找出劇本中哪一段）

對(duì)齊方式，有專門研究對(duì)齊的領(lǐng)域，主要兩種，顯示對(duì)齊（比如時(shí)間維度上就是顯示對(duì)齊的），隱式對(duì)齊（比如語(yǔ)言的翻譯就不是位置對(duì)位置）

4. 融合

比如情感分析中語(yǔ)氣和語(yǔ)句的融合等

這個(gè)最難也是被研究最多的領(lǐng)域，比如音節(jié)和唇語(yǔ)頭像怎么融合，本筆記主要寫融合方式

二. 應(yīng)用

試聽(tīng)語(yǔ)音識(shí)別，多媒體內(nèi)容檢索，視頻理解，視頻總結(jié)，事件監(jiān)測(cè)，情感分析，視頻會(huì)議情感分析，媒體描述，視覺(jué)問(wèn)答等，應(yīng)用其實(shí)很廣，只不過(guò)被現(xiàn)在的智能程度大大限制了，whatever, 我覺(jué)得視覺(jué)也語(yǔ)言的結(jié)合比純NLP，是離智能更近的一步。

三.VQA掃盲 and 常用方式

VQA（Visual Question Answering）

給定一張圖片（視頻）和一個(gè)與該圖片相關(guān)的自然語(yǔ)言問(wèn)題，計(jì)算機(jī)能產(chǎn)生一個(gè)正確的回答。這是文本QA和Image Captioning的結(jié)合，一般會(huì)涉及到圖像內(nèi)容上的推理，看起來(lái)更炫酷（不是指邏輯，就就指直觀感受）。

目前VQA的四大方式

Joint embedding approaches，只是直接從源頭編碼的角度開(kāi)始融合信息，這也很自然的聯(lián)想到最簡(jiǎn)單粗暴的方式就是把文本和圖像的embedding直接拼接（ps:粗暴拼接這種方式很work），Billiner Fusion 最常用了，F(xiàn)usion屆的LR

Attention mechanisms，很多VQA的問(wèn)題都在attention上做文章，attention本身也是一個(gè)提取信息的動(dòng)作，自從attention is all you need后，大家對(duì)attention的應(yīng)用可以說(shuō)是花式了，本文后面專門介紹CVPR2019的幾篇

Compositional Models，這種方式解決問(wèn)題的思路是分模塊而治之，各模塊分別處理不同的功能，然后通過(guò)模塊的組裝推理得出結(jié)果

比如在[1]中，上圖，問(wèn)題是What color is his tie?先選擇出 attend 和classify 模塊，并且根據(jù)推理方式組裝模塊，最后得出結(jié)論 4.Models using external knowledge base利用外部知識(shí)庫(kù)來(lái)做VQA和很好理解，QA都喜歡用知識(shí)庫(kù)，這種知識(shí)儲(chǔ)備一勞永逸，例如，為了回答“圖上有多少只哺乳動(dòng)物”這樣的問(wèn)題，模型必須得知道“哺乳動(dòng)物”的定義，而你想從圖像上去學(xué)習(xí)到哺乳動(dòng)物是有難度的，因此把知識(shí)庫(kù)接進(jìn)來(lái)檢索是種解決方式，例如在[2]

四. 多模態(tài)中CV和NLP融合的幾種方式

1. Bilinear Fusion 雙線性融合 and Joint embedding Bilinear Fusion 雙線性融合是最常見(jiàn)的一種融合方式了，很多論文用這種方式做基礎(chǔ)結(jié)構(gòu)，在CVPR2019一遍VQA多模態(tài)推理[3]中，提出的CELL就是基于這個(gè)，作者做關(guān)系推理，不僅對(duì)問(wèn)題與圖片區(qū)域的交互關(guān)系建模，也對(duì)圖片區(qū)域間的聯(lián)系建模。并且推導(dǎo)過(guò)程是逐步逼近的過(guò)程。

作者提出的MuRel，Bilinear Fusion 將每個(gè)圖像區(qū)域特征都分別與問(wèn)題文本特征融合得到多模態(tài)embedding(Joint embedding )，后者對(duì)這些embedding進(jìn)行成對(duì)的關(guān)系建模。

第一部分雙線性融合，所謂雙線性簡(jiǎn)單來(lái)講就是函數(shù)對(duì)于兩個(gè)變量都是線性的，參數(shù)（表達(dá)兩種信息關(guān)聯(lián)）是個(gè)多為矩陣，作者采用的MUTAN模型里面的Tucker decomposition方法, 將線性關(guān)系的參數(shù)分解大大減小參數(shù)量第二部分Pairwise relation學(xué)習(xí)的是經(jīng)過(guò)融合后節(jié)點(diǎn)之間的兩兩關(guān)系（主要是圖像的關(guān)系），然后和原始text 信息有效（粗暴）拼接最后如下圖放在網(wǎng)絡(luò)，進(jìn)行迭代推理。實(shí)驗(yàn)結(jié)果顯示在跟位置推斷類的問(wèn)題中，這種結(jié)構(gòu)表現(xiàn)比較好。

2. 花式動(dòng)態(tài)attention融合這篇[4]作者更上篇一樣同時(shí)注意到了模態(tài)內(nèi)和模態(tài)間的關(guān)系，即作者說(shuō)的intra-modality relation（模態(tài)內(nèi)部關(guān)系）和inter-modality relation（跨模態(tài)關(guān)系），但是作者更機(jī)智（個(gè)人觀點(diǎn)）的用了attention來(lái)做各種fusion。作者認(rèn)為intra-modality relation是對(duì)inter-modality relation的補(bǔ)充：圖像區(qū)域不應(yīng)該僅獲得來(lái)自問(wèn)題文本的信息，而且需要與其他圖像區(qū)域產(chǎn)生關(guān)聯(lián)。模型結(jié)構(gòu)是首先各自分別對(duì)圖像和文本提取特征，然后通過(guò)通過(guò)模態(tài)內(nèi)部的attention建模和模態(tài)間的attention建模，這個(gè)模塊堆疊多次，最后拼接后進(jìn)行分類。模態(tài)間的attention是相互的（文本對(duì)圖像，圖像對(duì)文本）,attention就是采用transform中的attention.

進(jìn)行模態(tài)內(nèi)關(guān)系建模的模塊是Dynamic Intra-modality Attention Flow (DyIntraMAF), 文中最大的亮點(diǎn)是進(jìn)行了條件attention，即圖像之間的attention信心建立不應(yīng)該只根據(jù)圖像，也要根據(jù)不同的具體問(wèn)題而產(chǎn)生不同的關(guān)聯(lián)。

這種條件attention的condition設(shè)計(jì)有點(diǎn)類似lstm的門機(jī)制，通過(guò)加入gating機(jī)制來(lái)控制信息，下圖中圖像的self attention 就是經(jīng)過(guò)了text的門機(jī)制來(lái)過(guò)濾信息。最后作者做了很多ablation studies，達(dá)到了SOTA效果。

3. VQA對(duì)話系統(tǒng) 另外有一篇[5]個(gè)多模態(tài)的QA，這篇文章fusion 挺普通的multimodal fusion 也是普通的 billinear, 但是這個(gè)應(yīng)用場(chǎng)景非常非常實(shí)用，我們通常用語(yǔ)言描述的說(shuō)不清楚的時(shí)候，會(huì)有一圖勝千言語(yǔ)感覺(jué)，而多模態(tài)就是從這個(gè)點(diǎn)出發(fā)，發(fā)一張圖，like this, like that... 文中就是用這個(gè)做商業(yè)客服的QA

模型比較常規(guī)，encoder端，先CNN提取了圖片特征，然后根據(jù)商品屬性建一個(gè)屬性分類樹(shù)，文本常規(guī)處理，最后通過(guò)MFB融合

Decoder 時(shí)，文本RNNdecode, 但是圖像居然是用求cos相似，就電商那種產(chǎn)品數(shù)據(jù)的量級(jí)，除非在業(yè)務(wù)上做很多前置工作，這種計(jì)算量就不現(xiàn)實(shí)

In all

這篇屬于擴(kuò)展NLP的廣度，寫的不深，選的論文和很隨便（因?yàn)槲也缓芰私猓鳛橐粋€(gè)NLPer，寬度上來(lái)說(shuō)我覺(jué)得這也是一個(gè)方向.

原文標(biāo)題：多模態(tài)中NLP與CV融合的一些方式

文章出處：【微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴