微軟語(yǔ)音與對(duì)話(huà)研究團(tuán)隊(duì)開(kāi)發(fā)的SDNet,在面向公共數(shù)據(jù)集CoQA的問(wèn)答對(duì)話(huà)系統(tǒng)模型性能挑戰(zhàn)賽中刷新最佳性能紀(jì)錄,成功奪冠!SDNet成為目前世界上唯一在CoQA領(lǐng)域內(nèi)數(shù)據(jù)集上F1得分超過(guò)80%的模型,達(dá)到80.7%。
近日,微軟語(yǔ)音與對(duì)話(huà)研究團(tuán)隊(duì)在斯坦福機(jī)器對(duì)話(huà)式問(wèn)答數(shù)據(jù)挑戰(zhàn)賽CoQA Challenge中奪冠,并且單模型和集成模型分別位列第二和第一,讓機(jī)器閱讀理解向著人類(lèi)水平又靠近了一步。
這也是繼語(yǔ)音識(shí)別、機(jī)器翻譯等成果之后,微軟取得的又一項(xiàng)好成績(jī)。
微軟研究人員將自注意力模型和外部注意力相結(jié)合,并且用新的方法整合了谷歌BERT語(yǔ)境模型,構(gòu)建了一個(gè)基于注意力的會(huì)話(huà)式問(wèn)答深度神經(jīng)網(wǎng)絡(luò)SDNet,更有效地理解文本和對(duì)話(huà)歷史。
一直以來(lái),微軟研究人員都有在機(jī)器閱讀理解中使用自注意力模型加外部注意力的想法,終于在這項(xiàng)工作中首次得以實(shí)現(xiàn)。
CoQA競(jìng)賽:更接近人類(lèi)對(duì)話(huà)的機(jī)器問(wèn)答挑戰(zhàn)賽
CoQA是面向建立對(duì)話(huà)式問(wèn)答系統(tǒng)的大型數(shù)據(jù)集,CoQA挑戰(zhàn)的目標(biāo)是衡量機(jī)器對(duì)文本的理解能力,以及機(jī)器面向?qū)υ?huà)中出現(xiàn)的彼此相關(guān)的問(wèn)題的回答能力的高低(CoQA的發(fā)音是“扣卡”)。
CoQA包含12.7萬(wàn)個(gè)問(wèn)題和答案,這些內(nèi)容是從8000多個(gè)對(duì)話(huà)中收集而來(lái)的。每組對(duì)話(huà)都是通過(guò)眾籌方式,以真人問(wèn)答的形式在聊天中獲取的。
CoQA的獨(dú)特之處在于:
數(shù)據(jù)集中的問(wèn)題是對(duì)話(huà)式的
答案可以是自由格式的文本
每個(gè)答案還附有對(duì)話(huà)段落中相應(yīng)答案的理由
這些問(wèn)題收集自七個(gè)不同的領(lǐng)域
CoQA 數(shù)據(jù)集旨在體現(xiàn)人類(lèi)對(duì)話(huà)中的特質(zhì),追求答案的自然性和問(wèn)答系統(tǒng)的魯棒性。在CoQA 中,答案沒(méi)有固定的格式,在問(wèn)題中頻繁出現(xiàn)指代詞,而且有專(zhuān)門(mén)用于跨領(lǐng)域測(cè)試的數(shù)據(jù)集。
CoQA具備了許多現(xiàn)有閱讀理解數(shù)據(jù)集中不存在的挑戰(zhàn),比如共用參照和實(shí)用推理等。因此,CoQA Challenge 也更能反映人類(lèi)真實(shí)對(duì)話(huà)的場(chǎng)景。
CoQA 與 SQuAD 兩個(gè)數(shù)據(jù)集對(duì)比:SQuAD 中約一半都是what型,CoAQ種類(lèi)更多;SQuAD中沒(méi)有共識(shí)推斷,CoQA幾乎每組對(duì)話(huà)都需要進(jìn)行上下文理解推斷;SQuAD中所有答案均可從原文本中提取,CoQA中這一比例僅為66.8%。
此前,斯坦福大學(xué)的自然語(yǔ)言處理小組已經(jīng)先后發(fā)表了 SQuAD 和 SQuAD2.0 數(shù)據(jù)集。該數(shù)據(jù)集包含一系列文本和基于文本的問(wèn)題、答案。針對(duì)該數(shù)據(jù)集提出的任務(wù)要求系統(tǒng)閱讀文本后判斷該問(wèn)題是否可以從文本中得出答案,如果可以回答則從文本中截取某一片段做出回答。
目前,微軟語(yǔ)音與對(duì)話(huà)研究已經(jīng)把他們?cè)贑oQA Challenge上奪冠成果的預(yù)印本論文發(fā)在了Arxiv上。下面結(jié)合論文內(nèi)容,對(duì)該團(tuán)隊(duì)的實(shí)驗(yàn)方法和研究成果做簡(jiǎn)單介紹。
結(jié)合自注意力模型和外部注意力,更有效理解文本和對(duì)話(huà)歷史
在本文中,我們提出了SDNet,一種基于語(yǔ)境注意力的會(huì)話(huà)問(wèn)答的深度神經(jīng)網(wǎng)絡(luò)。我們的網(wǎng)絡(luò)源于機(jī)器閱讀理解模型,但具備幾個(gè)獨(dú)特的特征,來(lái)解決面向?qū)υ?huà)的情境理解問(wèn)題。
首先,我們?cè)趯?duì)話(huà)和問(wèn)題中同時(shí)應(yīng)用注意力和自我注意機(jī)制,更有效地理解文章和對(duì)話(huà)的歷史。其次,SDNet利用了NLP領(lǐng)域的最新突破性成果:比如BERT上下文嵌入Devlin等。
我們采用了BERT層輸出的加權(quán)和,以及鎖定的BERT參數(shù)。我們?cè)谇皫纵唵?wèn)題和答案之前加上了當(dāng)前問(wèn)題,以納入背景信息。結(jié)果表明,每個(gè)部分都實(shí)現(xiàn)了顯著提高了預(yù)測(cè)準(zhǔn)確性的作用。
我們?cè)贑oQA數(shù)據(jù)集上對(duì)SDNet進(jìn)行了評(píng)估,結(jié)果在全局F1得分方面,比之前最先進(jìn)模型結(jié)果表現(xiàn)提升了1.6%(從75.0%至76.6%)。整體模型進(jìn)一步將F1得分提升至79.3%。此外,SDNet是有史以來(lái)第一個(gè)在CoQA的領(lǐng)域內(nèi)數(shù)據(jù)集上表現(xiàn)超過(guò)80%的模型。
實(shí)驗(yàn)方法與衡量指標(biāo)
我們?cè)贑oQA 上評(píng)估了我們的模型。在CoQA中,許多問(wèn)題的答案需要理解之前的問(wèn)題和答案,這對(duì)傳統(tǒng)的機(jī)器閱讀模型提出了挑戰(zhàn)。表1總結(jié)了CoQA中的領(lǐng)域分布。如圖所示,CoQA包含來(lái)自多個(gè)領(lǐng)域的段落,并且每個(gè)段落的平均問(wèn)答超過(guò)15個(gè)。許多問(wèn)題需要上下文的理解才能生成正確答案。

對(duì)于每個(gè)域內(nèi)數(shù)據(jù)集,開(kāi)發(fā)集中有100個(gè)段落,測(cè)試集中有100個(gè)段落。其余的域內(nèi)數(shù)據(jù)集位于訓(xùn)練集中。測(cè)試集還包括所有域外段落。
基線(xiàn)模型和指標(biāo)
我們將SDNet與以下基線(xiàn)模型進(jìn)行了比較:PGNet(具有復(fù)制機(jī)制的Seq2Seq)、DrQA、DrQA +PGNet、BiDAF ++ Yatskar(2018)和FlowQA Huang等。 (2018)。與官方排行榜一致,我們使用F1作為評(píng)估指標(biāo),F(xiàn)1是在預(yù)測(cè)答案和基本事實(shí)之間的單詞級(jí)別的精度上的調(diào)和平均。

結(jié)果
上表所示為SDNet和基線(xiàn)模型的性能對(duì)比。如圖所示,使用SDNet的實(shí)現(xiàn)結(jié)果明顯好于基線(xiàn)模型。具體而言,與先前的CoQA FlowQA模型相比,單個(gè)SDNet模型將整體F1得分提高了1.6%。 Ensemble SDNet模型進(jìn)一步將整體F1得分提升了2.7%,SDNet是有史以來(lái)第一個(gè)在CoQA的領(lǐng)域內(nèi)數(shù)據(jù)集上表現(xiàn)超過(guò)80%的模型(80.7%)。

上圖所示為開(kāi)發(fā)集隨epoch變化的F1得分情況。SDNet在第二個(gè)epoch之后的表現(xiàn)超越了兩個(gè)基線(xiàn)模型,并且僅在8個(gè)epoch后就實(shí)現(xiàn)了最優(yōu)秀的表現(xiàn)。

消融研究 (Ablation)
我們對(duì)SDNet模型進(jìn)行了消融研究,結(jié)果在上表中顯示。結(jié)果表明,正確使用上下文嵌入BERT是至關(guān)重要的。雖然移除BERT會(huì)使開(kāi)發(fā)集的F1得分降低6.4%,但在未鎖定內(nèi)部權(quán)重的情況下加入BERT會(huì)使得F1得分降低13%。

上下文歷史
在SDNet中,我們將當(dāng)前問(wèn)題與前N輪問(wèn)題和真實(shí)答案前置一致,來(lái)利用對(duì)話(huà)歷史記錄。我們?cè)囼?yàn)了不同的N值的效果,并在表4中列出了結(jié)果。試驗(yàn)顯示,我們的模型的性能對(duì)N的設(shè)置不是非常敏感。最后,我們的最終模型設(shè)置N = 2。
未來(lái):讓模型更接近于真人對(duì)話(huà)場(chǎng)景
我們提出了一種新的基于情境注意的深度神經(jīng)網(wǎng)絡(luò)SDNet,以解決對(duì)話(huà)問(wèn)題的回答任務(wù)。通過(guò)在通過(guò)和對(duì)話(huà)歷史上利用注意力和自我關(guān)注,該模型能夠理解對(duì)話(huà)流并將其與消化段落內(nèi)容融合在一起。
此外,我們?nèi)谌肓俗匀徽Z(yǔ)言處理領(lǐng)域 BERT的最新突破,并以創(chuàng)新的方式利用它。與以前的方法相比,SDNet取得了卓越的成果。在公共數(shù)據(jù)集CoQA上,SDNet在整體F1指標(biāo)得分上的表現(xiàn)比之前最先進(jìn)的模型高1.6%。
縱觀(guān)CoQA Challenge排行榜,從今年8月21日到11月29日,短短3個(gè)月時(shí)間里,機(jī)器問(wèn)答對(duì)話(huà)的總體成績(jī)就從52.6提升到79.3,距離人類(lèi)水平88.8似乎指日可待。
“最后一公里往往是最難的,很難預(yù)測(cè)機(jī)器能否達(dá)到人類(lèi)水平?!闭撐淖髡咧?、微軟全球技術(shù)Fellow、負(fù)責(zé)微軟語(yǔ)音、自然語(yǔ)言和機(jī)器翻譯工作的黃學(xué)東博士告訴新智元。
未來(lái),他們打算將SDNet模型應(yīng)用于具有大型語(yǔ)料庫(kù)或知識(shí)庫(kù)的開(kāi)放域中,解決多循環(huán)問(wèn)答問(wèn)題,這類(lèi)問(wèn)題中,目標(biāo)段落可能是無(wú)法直接獲得的。這和人類(lèi)世界中的問(wèn)答的實(shí)際情況可能更為接近。
-
微軟
+關(guān)注
關(guān)注
4文章
6759瀏覽量
108125 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4844瀏覽量
108289 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1240瀏覽量
26280
原文標(biāo)題:微軟創(chuàng)CoQA挑戰(zhàn)新紀(jì)錄,最接近人類(lèi)水平的NLP系統(tǒng)誕生
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
AI大模型微調(diào)企業(yè)項(xiàng)目實(shí)戰(zhàn)課
【瑞薩AI挑戰(zhàn)賽】手寫(xiě)數(shù)字識(shí)別模型在RA8P1 Titan Board上的部署
微軟攜手梅賽德斯AMG馬石油F1車(chē)隊(duì)構(gòu)建數(shù)字化智慧引擎
泰凌微:布局端側(cè)AI,產(chǎn)品支持谷歌LiteRT、TVM開(kāi)源模型
阿斯頓馬丁沙特阿美F1車(chē)隊(duì)進(jìn)站背后的Arm技術(shù)支持
SimData:基于aiSim的高保真虛擬數(shù)據(jù)集生成方案
Arm平臺(tái)助力阿斯頓馬丁沙特阿美F1車(chē)隊(duì)在風(fēng)洞中實(shí)現(xiàn)邊緣智能
提高RISC-V在Drystone測(cè)試中得分的方法
世界上最小的傳感器有多小 頭發(fā)絲的十萬(wàn)分之一到百萬(wàn)分之一
3Dfindit上發(fā)布世嘉智尼的上萬(wàn)個(gè)3D CAD模型,優(yōu)化用戶(hù)設(shè)計(jì)流程
大模型時(shí)代,如何推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè)?
上海貝嶺650V80A IGBT在光伏逆變器上的應(yīng)用
SDNet成為目前世界上唯一在CoQA領(lǐng)域內(nèi)數(shù)據(jù)集上F1得分超過(guò)80%的模型,達(dá)到80.7%
評(píng)論