插洞/AV,精品久久二区,青青草原国产视频

機(jī)器之心發(fā)布

來(lái)自中科大、微軟亞研院的研究者們提出了一種新型的通用視覺(jué)-語(yǔ)言預(yù)訓(xùn)練模型（Visual-Linguistic BERT，簡(jiǎn)稱 VL-BERT），該模型采用簡(jiǎn)單而強(qiáng)大的 Transformer 模型作為主干網(wǎng)絡(luò)，并將其輸入擴(kuò)展為同時(shí)包含視覺(jué)與語(yǔ)言輸入的多模態(tài)形式，適用于絕大多數(shù)視覺(jué)-語(yǔ)言下游任務(wù)。

為了讓 VL-BERT 模型利用更為通用的特征表示，作者在大規(guī)模圖片描述生成數(shù)據(jù)集 ConceptualCaptions 中進(jìn)行 VL-BERT 的預(yù)訓(xùn)練，實(shí)驗(yàn)證明此預(yù)訓(xùn)練過(guò)程可以顯著提高下游的視覺(jué)-語(yǔ)言任務(wù)的效果，包含視覺(jué)常識(shí)推理、視覺(jué)問(wèn)答與引用表達(dá)式理解等。值得一提的是，在視覺(jué)常識(shí)推理排行榜中，VL-BERT 取得了當(dāng)前單模型的最好效果。

適用于下游任務(wù)的通用特征表示預(yù)訓(xùn)練是深度網(wǎng)絡(luò)成功的標(biāo)志之一。在計(jì)算機(jī)視覺(jué)領(lǐng)域，深度網(wǎng)絡(luò)在 ImageNet 數(shù)據(jù)集進(jìn)行圖像分類的預(yù)訓(xùn)練過(guò)程，被發(fā)現(xiàn)可廣泛提高多種圖像識(shí)別任務(wù)的效果。在自然語(yǔ)言處理領(lǐng)域中，Transformer 模型在大規(guī)模語(yǔ)料庫(kù)中使用語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練的過(guò)程，也被證明可廣泛提高多種自然語(yǔ)言處理任務(wù)的效果。

但對(duì)于計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域交叉的任務(wù)，例如圖像標(biāo)題生成、視覺(jué)問(wèn)答、視覺(jué)常識(shí)推理等，缺少這種預(yù)訓(xùn)練的通用多模態(tài)特征表示。

一般來(lái)說(shuō)，之前的視覺(jué)-語(yǔ)言模型分別使用計(jì)算機(jī)視覺(jué)或自然語(yǔ)言處理領(lǐng)域中的預(yù)訓(xùn)練模型進(jìn)行初始化，但如果目標(biāo)任務(wù)數(shù)據(jù)量不足，模型容易過(guò)擬合從而損失性能。并且對(duì)于不同的視覺(jué)-語(yǔ)言任務(wù)，其網(wǎng)絡(luò)架構(gòu)一般是經(jīng)過(guò)特殊設(shè)計(jì)的，由此很難通過(guò)視覺(jué)-語(yǔ)言聯(lián)合預(yù)訓(xùn)練的過(guò)程幫助下游任務(wù)。

由此，在本文中，提出了一種可廣泛應(yīng)用于視覺(jué)-語(yǔ)言任務(wù)的預(yù)訓(xùn)練通用特征表示，稱為 Visual-LinguisitcBERT，簡(jiǎn)稱 VL-BERT，其架構(gòu)如下圖所示：

VL-BERT 的主干網(wǎng)絡(luò)使用 TransformerAttention 模塊，并將視覺(jué)與語(yǔ)言嵌入特征作為輸入，其中輸入的每個(gè)元素是來(lái)自句子中的單詞、或圖像中的感興趣區(qū)域（Region of Interests，簡(jiǎn)稱 RoIs）。在模型訓(xùn)練的過(guò)程中，每個(gè)元素均可以根據(jù)其內(nèi)容、位置、類別等信息自適應(yīng)地聚合來(lái)自所有其他元素的信息。在堆疊多層 TransformerAttention 模塊后，其特征表示即具有更為豐富的聚合與對(duì)齊視覺(jué)和語(yǔ)言線索的能力。

為了更好地建模通用的視覺(jué)-語(yǔ)言表示，在大規(guī)模視覺(jué)-語(yǔ)言語(yǔ)料庫(kù)中對(duì) VL-BERT 進(jìn)行了預(yù)訓(xùn)練。采用的預(yù)訓(xùn)練數(shù)據(jù)集為圖像標(biāo)題生成數(shù)據(jù)集，Conceptual Captions，其中包含了大約 330 萬(wàn)個(gè)圖像標(biāo)題對(duì)。

VL-BERT 的預(yù)訓(xùn)練主要采用三個(gè)任務(wù)：a）屏蔽語(yǔ)言模型（Masked Language Modeling），即隨機(jī)屏蔽掉語(yǔ)句中的一些詞，并預(yù)測(cè)當(dāng)前位置的詞是什么；b）屏蔽 RoI 分類（MaskedRoIClassification），即隨機(jī)屏蔽掉視覺(jué)輸入中的一些 RoIs，并預(yù)測(cè)此空間位置對(duì)應(yīng) RoI 的所屬類別；c）圖像標(biāo)題關(guān)聯(lián)預(yù)測(cè)（Sentence-Image Relationship Prediction），即預(yù)測(cè)圖像與標(biāo)題是否屬于同一對(duì)。

在預(yù)訓(xùn)練結(jié)束后，使用微調(diào)來(lái)進(jìn)行下游任務(wù)的訓(xùn)練。本文中主要在三個(gè)視覺(jué)-語(yǔ)言下游任務(wù)中進(jìn)行微調(diào)，即視覺(jué)常識(shí)推理（VisualCommonsenseReasoning）、視覺(jué)問(wèn)答（VisualQuestionAnswering）與引用表達(dá)式理解（ReferringExpressionComprehension），下面將分別介紹。

視覺(jué)常識(shí)推理任務(wù)即給定圖片與相關(guān)問(wèn)題，機(jī)器不僅需要回答問(wèn)題，還需要提供理由來(lái)證明答案的正確性。此任務(wù)（Q-》AR）被分解為兩個(gè)子任務(wù)，即視覺(jué)問(wèn)答（Q-》A，給定圖片與問(wèn)題，輸出正確答案），以及視覺(jué)推理（QA-》R，給定圖片、問(wèn)題與答案，輸出正確的理由）。

下面以視覺(jué)問(wèn)答子任務(wù)為例，此任務(wù)的輸入為問(wèn)題、答案與圖像的 RoIs，并預(yù)測(cè)此答案是否為正確答案。除此之外，作者發(fā)現(xiàn)微調(diào)時(shí)增加與預(yù)訓(xùn)練類似的 RoI 分類損失也會(huì)進(jìn)一步提升性能，如下：

視覺(jué)問(wèn)答任務(wù)即給定圖片，回答與圖片輸入相關(guān)的問(wèn)題。由此模型的輸入即為問(wèn)題與圖像，基本元素為單詞或 RoI，最終對(duì)答案進(jìn)行預(yù)測(cè)，如下：

引用表達(dá)式理解任務(wù)是使用給定的引用表達(dá)式來(lái)定位圖像中的相關(guān)對(duì)象，由此輸入為查詢（引用表達(dá)式）與圖片中的 RoIs，并預(yù)測(cè)哪個(gè) RoI 為查詢輸入的引用，如下：

下面將介紹論文中的一些主要實(shí)驗(yàn)結(jié)果：

a）在視覺(jué)常識(shí)推理（Visual Commonsense Reasoning）任務(wù)中，與當(dāng)前最好方法的結(jié)果比較如下：

b）在視覺(jué)問(wèn)答（Visual Question Answering）任務(wù)中，與當(dāng)前最好方法的結(jié)果比較如下：

c）在引用表達(dá)式理解（Referring Expression Comprehension）任務(wù)中，與當(dāng)前最好方法的結(jié)果比較如下：

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴