久久久精品国语,久草1婷婷

編者按：從iOS 8開始，蘋果就在iPhone上采用了一個(gè)全新的預(yù)測(cè)文本功能——QuickType鍵盤。當(dāng)你在打字的時(shí)候，系統(tǒng)會(huì)根據(jù)你的書寫風(fēng)格，提示接下來(lái)可能會(huì)鍵入的字詞或短語(yǔ)供你選擇，類似中文輸入法中的智能建議。

這一功能基于其背后強(qiáng)大的自然語(yǔ)言處理（NLP）模型，而在過(guò)去幾年中，這種詞向量模型也是新聞、搜索和地圖等其他應(yīng)用程序的核心。在這篇文章中，我們將介紹蘋果研究人員近期的一項(xiàng)新探索：是否可以利用全局語(yǔ)義上下文改進(jìn)QuickType鍵盤的單詞預(yù)測(cè)？

簡(jiǎn)介

You shall know a word by the company it keeps.（現(xiàn)代語(yǔ)言學(xué)名句：觀其伴而知其意。即通過(guò)分析大型語(yǔ)言語(yǔ)料庫(kù)中詞匯共現(xiàn)的模式，我們可以得出詞語(yǔ)的語(yǔ)義表征）

現(xiàn)如今，訓(xùn)練詞嵌入模型的大多數(shù)方法都圍繞句子中給定單詞的上下文，以出現(xiàn)在中心詞前后的幾個(gè)單詞（比如5個(gè)）為觀察“窗口”，從中挖掘信息。以美國(guó)《獨(dú)立宣言》中出現(xiàn)的代詞“self-evident”為例，它的左側(cè)是“hold these truths to be”，右側(cè)是“that all men are created”。

本文將在這類方法的基礎(chǔ)上做進(jìn)一步擴(kuò)展，探索模型是否能捕獲文檔的整個(gè)語(yǔ)義結(jié)構(gòu)，簡(jiǎn)而言之，在新模型中，“self-evident”將可以把整本《獨(dú)立宣言》作為自己的上下文。那么，這種全局語(yǔ)義上下文能否提高語(yǔ)言模型的性能呢？要解決這個(gè)問(wèn)題，我們先看看現(xiàn)在的詞嵌入用法。

詞嵌入

詞嵌入（Word Embeddings）是NLP中的一個(gè)常見操作，現(xiàn)在，以無(wú)監(jiān)督方式訓(xùn)練的連續(xù)空間詞嵌入已經(jīng)被證實(shí)可用于各種NLP任務(wù)，比如信息檢索、文本分類、問(wèn)答和序列語(yǔ)言建模等。其中最基礎(chǔ)的一種詞嵌入是1-of-N Encoding，即假設(shè)存在一個(gè)大小為N的基礎(chǔ)單詞集，每個(gè)單詞都由一個(gè)N維系數(shù)向量表示（在單詞索引處為1，在其他地方為0）。

但這種方法有兩個(gè)缺陷，一是它的正交性會(huì)弱化相似單詞之間關(guān)系，二是編碼結(jié)果容易過(guò)長(zhǎng)。因此我們也已經(jīng)有了更復(fù)雜的嵌入——將單詞映射到低維連續(xù)向量空間中的密集向量中，這種映射不僅能降低維度，還有利于捕獲關(guān)于單詞的語(yǔ)義、句法和語(yǔ)用信息。

有了詞向量，我們就能通過(guò)計(jì)算向量之間的距離判斷兩個(gè)單詞的相似程度。

比較常見的降維詞嵌入類型有兩種：

從單詞所在文本的上下文中導(dǎo)出表示（前L個(gè)單詞和后L個(gè)單詞，L一般是個(gè)較小的整數(shù)）

利用圍繞單詞的全局上下文的表示（單詞所在的整個(gè)文本）

其中，利用文本上下文的方法包括：

用于預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)架構(gòu)，如連續(xù)詞袋模型和skip-gram模型

序列語(yǔ)言模型中的投影層（projection layer）

自編碼器的Bottleneck表示

利用全局上下文的方法包括：

全局矩陣分解方法，如潛在語(yǔ)義映射（LSM），它計(jì)算word-document共現(xiàn)次數(shù)

Log-Liner Model，如GloVe，它計(jì)算word-word共現(xiàn)次數(shù)

從理想的角度看，像LSM這種計(jì)算全局共現(xiàn)的方法其實(shí)是最接近真正的語(yǔ)義嵌入的，因?yàn)樗鼈儾东@的是整個(gè)文本傳達(dá)的語(yǔ)義概念的統(tǒng)計(jì)信息。相比之下，基于預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)只是把語(yǔ)義關(guān)系封裝到以目標(biāo)單詞為中心的局部文本中，不夠全面。因此，當(dāng)涉及全局語(yǔ)義信息時(shí)，由這種方法產(chǎn)生的嵌入往往存在局限。

但是，盡管存在這種局限，現(xiàn)在越來(lái)越多的研究人員還是投向神經(jīng)網(wǎng)絡(luò)，尤其是廣受歡迎的連續(xù)詞袋模型和skip-gram模型。因?yàn)樗鼈兡芙鉀Q“國(guó)王對(duì)于女王就像男人對(duì)于女人”這類類比，而LSM經(jīng)常失敗。對(duì)此，一種普遍看法是基于LSM的方法會(huì)使向量空間的各個(gè)維度不夠精確，因此只能產(chǎn)生次優(yōu)的空間結(jié)構(gòu)。

這個(gè)認(rèn)識(shí)引起了蘋果研究人員的極大興趣，因?yàn)楝F(xiàn)用QuickType鍵盤是基于LSM設(shè)計(jì)的，在他們最新的博客中，他們就是否可以通過(guò)使用不同類型的神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)實(shí)現(xiàn)更強(qiáng)大的語(yǔ)義嵌入進(jìn)行了探討。

神經(jīng)架構(gòu)

談及生成詞嵌入，最著名的框架之一是word2vec，但研究人員在文章中采用的是一種能提供全局語(yǔ)義嵌入的特殊RNN——bi-LSTM。它允許模型訪問(wèn)先前、當(dāng)前和未來(lái)的輸入信息，把握全局上下文。

為了讓模型能輸入整個(gè)完整文檔，他們重新設(shè)計(jì)了這個(gè)架構(gòu)，如下圖所示，模型的輸出能提供與該文檔相關(guān)聯(lián)的語(yǔ)義類別這意味著生成的詞嵌入捕獲的是輸入的整個(gè)語(yǔ)義結(jié)構(gòu)，而不僅是局部上下文。

這個(gè)架構(gòu)主要解決了兩個(gè)障礙。其一是對(duì)目標(biāo)單詞上下文的單詞數(shù)限制，它原則上可以容納無(wú)限長(zhǎng)度的上下文，這樣就不僅可以處理句子，還可以處理整個(gè)段落，甚至是完整的文檔。

圖一能捕獲全局語(yǔ)義結(jié)構(gòu)的RNN

其二涉及預(yù)測(cè)目標(biāo)本身。到目前為止，神經(jīng)網(wǎng)絡(luò)這種解決方案都基于局部上下文信息，無(wú)法充分反映全局語(yǔ)義信息，但是上圖已經(jīng)是一個(gè)能輸入完整文本的神經(jīng)網(wǎng)絡(luò)了。為了簡(jiǎn)化語(yǔ)義標(biāo)簽的生成，研究人員發(fā)現(xiàn)派生合適的聚類類別是有幫助的，例如，他們可以用LSM獲得初始word-document嵌入。

設(shè)當(dāng)前存在一個(gè)文本塊（可以是句子，也可以是段落、文檔），它由T個(gè)單詞x(t)構(gòu)成（1≤t≤T），且存在一個(gè)全局關(guān)聯(lián)的語(yǔ)義類別z。我們把它輸入修改過(guò)的bi-LSTM。

用1-of-N encoding對(duì)輸入文本中的單詞x(t)編碼，把x(t)轉(zhuǎn)成N維稀疏向量。此時(shí)，x(t)左側(cè)的上下文向量h(t ? 1)維數(shù)為H，它包含前一個(gè)時(shí)間步的隱藏層中輸出值信息的內(nèi)部表示；x(t)右側(cè)的上下文向量g(t + 1)維數(shù)也是H，它包含下一個(gè)時(shí)間步的隱藏層中的右側(cè)上下文輸出值信息。網(wǎng)絡(luò)在當(dāng)前時(shí)間步計(jì)算隱藏節(jié)點(diǎn)的輸出值，如下所示：

其中，

F{·}表示激活函數(shù)，如sigmoid、tanh、ReLU

s(t)表示網(wǎng)絡(luò)狀態(tài)，這是左右上下文隱藏節(jié)點(diǎn)的串聯(lián)：s(t) = [g(t) h(t)]，維數(shù)為2H。我們可以把網(wǎng)絡(luò)狀態(tài)看作是2H向量空間中，單詞x(t)的連續(xù)空間表示

網(wǎng)絡(luò)的輸出是與輸入文本相關(guān)聯(lián)的語(yǔ)義類別。在每個(gè)時(shí)間步，對(duì)應(yīng)于當(dāng)前單詞的輸出標(biāo)簽z再被1-of-K encoding：

其中，G {·}表示softmax激活函數(shù)。

當(dāng)我們訓(xùn)練網(wǎng)絡(luò)時(shí)，我們假設(shè)有一組語(yǔ)義類別注釋可用。如前所述，這些注釋可能來(lái)自使用LSM獲得的初始word-document嵌入。為了避免出現(xiàn)梯度消失，這個(gè)架構(gòu)把隱藏節(jié)點(diǎn)設(shè)計(jì)成了LSTM和GRU里的形式，我們可以根據(jù)需要將圖一中的單個(gè)隱藏層擴(kuò)展到任意復(fù)雜、任意深度的網(wǎng)絡(luò)。

神經(jīng)語(yǔ)言建模

在實(shí)驗(yàn)中，研究人員使用的是之前訓(xùn)練QuickType時(shí)所用的語(yǔ)料庫(kù)的子集，如下表所示，他們測(cè)試了三種不同嵌入模型在測(cè)試集上的困惑度表現(xiàn)，其中“1-of-N”表示標(biāo)準(zhǔn)稀疏嵌入，“word2vec”是標(biāo)準(zhǔn)word2vec嵌入，“bi-LSTM”是他們改進(jìn)后的方法。

可以發(fā)現(xiàn)，“bi-LSTM”使用的訓(xùn)練數(shù)據(jù)是最少的，但它的性能卻和比他多用了6倍訓(xùn)練數(shù)據(jù)的“word2vec”差不多，而“1-of-N”模型如果要達(dá)到同樣的困惑度，它使用的訓(xùn)練數(shù)據(jù)得是“bi-LSTM”的5000倍以上。

因此，這種能捕獲全局語(yǔ)義結(jié)構(gòu)的方法非常適合數(shù)據(jù)量有限的公司、實(shí)驗(yàn)室。

結(jié)論

相比現(xiàn)有方法，將全局語(yǔ)義信息納入神經(jīng)語(yǔ)言模型具有明顯的潛在優(yōu)勢(shì)，它也是NLP研究的一個(gè)趨勢(shì)。但是，在實(shí)驗(yàn)過(guò)程中，研究人員也發(fā)現(xiàn)這種方法確實(shí)還存在限制，在段落數(shù)據(jù)上訓(xùn)練詞嵌入和在句子數(shù)據(jù)上訓(xùn)練語(yǔ)言模型時(shí)，其中還存在一個(gè)長(zhǎng)度不匹配的問(wèn)題。

對(duì)此，研究人員提出的方案是修改語(yǔ)言模型訓(xùn)練中使用的客觀標(biāo)準(zhǔn)，以便人們能在同一段落數(shù)據(jù)上同時(shí)訓(xùn)練嵌入和語(yǔ)言模型?？傊?，使用bi-LSTM RNN訓(xùn)練全局語(yǔ)義詞嵌入確實(shí)可以提高神經(jīng)語(yǔ)言建模的準(zhǔn)確性，它還可以大大降低對(duì)訓(xùn)練所需的數(shù)據(jù)量的要求。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4844

瀏覽量
108274
自然語(yǔ)言處理

自然語(yǔ)言處理

+關(guān)注

關(guān)注
1

文章
630

瀏覽量
14748

原文標(biāo)題：Apple：全局語(yǔ)義上下文可以改善神經(jīng)語(yǔ)言模型嗎？

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

是否可以利用全局語(yǔ)義上下文改進(jìn)QuickType鍵盤的單詞預(yù)測(cè)？

評(píng)論