少妇一区在线播放,亚洲日本国产网址,久久久久久九九九

微軟新研究提出一個新的多任務深度神經(jīng)網(wǎng)絡模型——MT-DNN。MT-DNN結合了BERT的優(yōu)點，并在10大自然語言理解任務上超越了BERT，在多個流行的基準測試中創(chuàng)造了新的最先進的結果。

語言嵌入是將自然語言符號文本(如單詞、短語和句子)映射到語義向量表示的過程。這是自然語言理解(NLU)深度學習方法的基礎。學習對多個NLU任務通用的語言嵌入是非常必要的。

學習語言嵌入有兩種流行方法，分別是語言模型預訓練和多任務學習(MTL)。前者通過利用大量未標記的數(shù)據(jù)學習通用語言嵌入，但MTL可以有效地利用來自許多相關任務的有監(jiān)督數(shù)據(jù)，并通過減輕對特定任務的過度擬合，從正則化效果中獲益，從而使學習的嵌入在任務之間具有通用性。

最近，微軟的研究人員發(fā)布了一個用于學習通用語言嵌入的多任務深度神經(jīng)網(wǎng)絡模型——MT-DNN。MT-DNN結合了MTL和BERT的語言模型預訓練方法的優(yōu)點，并在10個NLU任務上超越了BERT，在多個流行的NLU基準測試中創(chuàng)造了新的最先進的結果，包括通用語言理解評估(GLUE)、斯坦福自然語言推理(SNLI)和SciTail。

MT-DNN的架構

MT-DNN擴展了微軟在2015年提出的多任務DNN模型(Multi-Task DNN)，引入了谷歌AI開發(fā)的預訓練雙向transformer語言模型BERT。

MT-DNN架構

MT-DNN模型的架構如上圖所示。低層在所有任務之間共享，而頂層是特定于任務的。輸入X可以是一個句子或一對句子，其中的每個單詞都先被表示為一個嵌入向量序列，表示為l_1。

然后，基于transformer的編碼器捕獲每個單詞的上下文信息，并在l_2中生成共享的上下文嵌入向量。

最后，對于每個任務，額外的 task-speci?c 的層生成特定于任務的表示，然后是分類、相似度評分或相關性排序所需的操作。MT-DNN使用BERT來初始化它的共享層，然后通過MTL改進它們。

領域自適應結果

評估語言嵌入的通用性的一種方法是測量嵌入適應新任務的速度，或者需要多少特定于任務的標簽才能在新任務上獲得不錯的結果。越通用的嵌入，它需要的特定于任務的標簽就越少。

MT-DNN論文的作者將MT-DNN與BERT在領域自適應(domain adaption)方面的表現(xiàn)進行了比較。

在域適應方面，兩種模型都通過逐步增加域內(nèi)數(shù)據(jù)(in-domain data)的大小來適應新的任務。

SNLI和SciTail任務的結果如下表和圖所示?？梢钥吹?，在只有0.1%的域內(nèi)數(shù)據(jù)(SNLI中為549個樣本，SciTail中為23個樣本)的條件下，MT-DNN的準確率超過80%，而BERT的準確率在50%左右，這說明MT-DNN學習的語言嵌入比BERT的更加通用。