日韩av天堂淫穴,伊人青青在线播放

處理人工生成的文本數(shù)據(jù)一直是一項(xiàng)重要但具有挑戰(zhàn)性的任務(wù)，因?yàn)槿祟愓Z言對(duì)于機(jī)器理解往往具有自然的魯棒性。

盡管如此，仍然有許多高效的 NLP 模型，例如 Google 的 BERT 和 Open AI 的 GPT2，它們的功能是通過高級(jí)處理和計(jì)算來理解這些數(shù)據(jù)。這些模型在搜索引擎中找到了它們的應(yīng)用，因?yàn)樗阉髅钚枰c相關(guān)的來源和頁面匹配，而與術(shù)語的性質(zhì)無關(guān)。

麻省理工學(xué)院的 SpAtten 學(xué)習(xí)系統(tǒng)通過其優(yōu)化的軟件硬件設(shè)計(jì)專注于高效的搜索預(yù)測(cè)，從而以更少的計(jì)算能力進(jìn)行高級(jí)自然語言處理。因此，SpAtten 系統(tǒng)的架構(gòu)取代了高端 CPU 和 GPU 的組合，它們共同輸出類似于 MIT 的 SpAtten 學(xué)習(xí)系統(tǒng)的效率。

SpAtten 學(xué)習(xí)系統(tǒng)中的注意力機(jī)制

當(dāng)數(shù)據(jù)量大時(shí)，注意力機(jī)制在自然語言處理中起著至關(guān)重要的作用。特別是在文本數(shù)據(jù)包含對(duì)建?？赡懿皇呛苤匾母鞣N特征的情況下。這可能會(huì)浪費(fèi)系統(tǒng)的整體計(jì)算。因此，神經(jīng)網(wǎng)絡(luò)輸入層中的注意力機(jī)制從文本數(shù)據(jù)中動(dòng)態(tài)提取相關(guān)特征，可以優(yōu)化算法在廣泛數(shù)據(jù)集上的處理。

SpAtten 使用注意力機(jī)制算法去除在 NLP 方面權(quán)重較小的單詞。因此，它有選擇地從輸入的文本數(shù)據(jù)中挑選出相關(guān)的關(guān)鍵詞。這避免了對(duì)不必要的文本數(shù)據(jù)的實(shí)時(shí)處理，從而節(jié)省了系統(tǒng)的整體計(jì)算時(shí)間。然而，這種處理提供了效率和準(zhǔn)確性，但它的代價(jià)是設(shè)計(jì)良好的硬件與這種復(fù)雜的算法兼容。

因此，麻省理工學(xué)院一直致力于其新 SpAtten 學(xué)習(xí)系統(tǒng)的軟件和硬件方面。設(shè)計(jì)的硬件致力于優(yōu)化這些復(fù)雜的算法，以減少處理和內(nèi)存訪問。這些技術(shù)在用于文本數(shù)據(jù)時(shí)克服了構(gòu)建具有高效處理速度和能力的系統(tǒng)的挑戰(zhàn)。因此，硬件“以更少的計(jì)算能力實(shí)現(xiàn)了精簡(jiǎn)的 NLP”。

SpAtten 架構(gòu)的優(yōu)化技術(shù)

循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)被認(rèn)為是深度學(xué)習(xí)模型的理想選擇，但麻省理工學(xué)院關(guān)于“SpAtten： Efficient Sparse Attention Architecture with Cascade Token and Head Pruning”的研究論文讓我們注意到注意力機(jī)制可以比這些網(wǎng)絡(luò)表現(xiàn)更好，如前一部分所述。

該架構(gòu)支持級(jí)聯(lián)修剪技術(shù)，該技術(shù)對(duì)令牌??和頭進(jìn)行操作，而不是傳統(tǒng)方法中使用的權(quán)重。正如術(shù)語“剪枝”暗示移除令牌一樣，一旦從層中移除令牌/頭，那么它將永遠(yuǎn)不會(huì)在后續(xù)層中被處理，因?yàn)樗挥谰谩凹糁Α被驈南到y(tǒng)中移除。這就是為什么優(yōu)化數(shù)據(jù)的實(shí)時(shí)處理并且系統(tǒng)適應(yīng)輸入實(shí)例的原因。

該系統(tǒng)使用漸進(jìn)式量化技術(shù)來減少 DRAM 訪問。僅當(dāng) MSB 不足以執(zhí)行量化時(shí)，該技術(shù)才對(duì) LSB 起作用。然而，這是以計(jì)算為代價(jià)的，但內(nèi)存訪問顯著減少。因此，它使注意力層動(dòng)態(tài)和自適應(yīng)以優(yōu)化 DRAM 訪問。該系統(tǒng)還帶有內(nèi)置的 SRAM，用于存儲(chǔ)可在眾多查詢中重復(fù)使用的已刪除令牌。

通用的 AI 加速器、GPU、TPU 和 NPU 即使支持高計(jì)算能力也無法實(shí)現(xiàn)這些技術(shù)，因?yàn)檫@些組件只能增強(qiáng)現(xiàn)有的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)，包括 CNN 和 RNN。因此，麻省理工學(xué)院設(shè)計(jì)了專門的硬件來實(shí)現(xiàn)這些優(yōu)化算法。

SpAtten 學(xué)習(xí)系統(tǒng)的分析

SpAtten 硬件架構(gòu)的模擬揭示了其與競(jìng)爭(zhēng)處理器相比的高處理能力。麻省理工學(xué)院表示：“SpAtten 的運(yùn)行速度比第二好的競(jìng)爭(zhēng)對(duì)手（TITAN Xp GPU）快 100 倍以上。此外，SpAtten 的能源效率是其競(jìng)爭(zhēng)對(duì)手的 1000 多倍，這表明 SpAtten 可以幫助減少 NLP 的大量電力需求?！?/p>

Google 的 BERT 和 Open AI 的 GPT2 模型也使用類似的注意力機(jī)制，但是復(fù)雜的判別和生成技術(shù)會(huì)導(dǎo)致延遲和延遲。MIT 的 SpAtten 是 NLP 算法和專用于注意力機(jī)制的專用硬件的組合。這種組合控制了標(biāo)準(zhǔn) CPU 在 GPT-2 或 BERT 上運(yùn)行時(shí)消耗的高功耗。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
20355

瀏覽量
255446
gpu

gpu

+關(guān)注

關(guān)注
28

文章
5302

瀏覽量
136151
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5612

瀏覽量
124695

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

MIT的SpAtten架構(gòu)將注意力機(jī)制用于高級(jí)NLP

評(píng)論