国产99四区,欧美qc亚洲一区二区

嵌入式視覺技術(shù)賦予機(jī)器視覺的力量，但今天的系統(tǒng)仍然無法理解圖像的所有細(xì)微差別。一種用于自然語言處理的方法可以解決這個(gè)問題。

基于注意力的神經(jīng)網(wǎng)絡(luò)，尤其是變換器網(wǎng)絡(luò)，徹底改變了自然語言處理（NLP），讓機(jī)器比以往任何時(shí)候都更好地理解語言。這種技術(shù)旨在通過為人工神經(jīng)網(wǎng)絡(luò)提供歷史或背景的概念來模擬認(rèn)知過程，與使用記憶的舊方法（如長短期記憶（LSTM）和循環(huán)記憶）相比，它產(chǎn)生了更復(fù)雜的人工智能代理。神經(jīng)網(wǎng)絡(luò)（RNN）。NLP 現(xiàn)在對輸入的問題或提示有了更深層次的理解，并且可以創(chuàng)建很長的文本作為響應(yīng)，這些文本通常與人類可能寫的內(nèi)容沒有區(qū)別。

注意力當(dāng)然可以應(yīng)用于圖像處理，盡管到目前為止它在計(jì)算機(jī)視覺中的使用受到限制。Perceive 首席執(zhí)行官、人工智能專家 Steve Teig 在接受 EE Times 的獨(dú)家采訪時(shí)認(rèn)為，注意力對于視覺應(yīng)用程序?qū)⒆兊脴O為重要。

基于注意力的網(wǎng)絡(luò)

注意機(jī)制查看輸入序列，例如句子，并在序列中的每條數(shù)據(jù)（音節(jié)或單詞）之后決定序列的其他部分是相關(guān)的。這類似于您閱讀本文的方式：您的大腦在記憶中保留了某些單詞，即使它專注于您正在閱讀的每個(gè)新單詞，因?yàn)槟呀?jīng)閱讀的單詞與您正在正確閱讀的單詞結(jié)合在一起現(xiàn)在提供有價(jià)值的上下文來幫助您理解文本。

泰格的例子是：

汽車在街上打滑，因?yàn)樗芑?/p>

當(dāng)你讀完這句話時(shí)，你會(huì)明白“滑”可能是指街道而不是汽車，因?yàn)槟阋呀?jīng)記住了“街道”和“汽車”這兩個(gè)詞，你的經(jīng)驗(yàn)告訴你， “slippery”和“street”比“slippery”和“car”之間的關(guān)聯(lián)性強(qiáng)得多。神經(jīng)網(wǎng)絡(luò)可以嘗試使用注意力機(jī)制來模仿這種能力。

該機(jī)制“獲取最近過去的所有單詞，并以某種方式將它們進(jìn)行比較，以了解哪些單詞可能與哪些其他單詞相關(guān)，”Teig 說?！叭缓缶W(wǎng)絡(luò)知道至少要關(guān)注這一點(diǎn)，因?yàn)椤盎备锌赡芘c街道或汽車［相關(guān)］而不是［任何其他詞］。

因此，注意力是一種專注于將呈現(xiàn)數(shù)據(jù)的序列減少到可能感興趣的子集（可能僅是當(dāng)前和以前的句子），然后分配每個(gè)單詞可能相關(guān)程度的可能性的方法。

“［注意力］最終成為了一種利用時(shí)間的方式，以一種有點(diǎn)原則的方式，沒有查看曾經(jīng)發(fā)生的一切的開銷，”泰格說?！斑@導(dǎo)致人??們，直到最近，還認(rèn)為注意力是一種可以管理時(shí)間的技巧。當(dāng)然，它對語音處理、語言處理和其他時(shí)間事物產(chǎn)生了巨大的積極影響。最近，就在最近幾個(gè)月，人們開始意識到，也許我們可以用注意力來做其他的信息聚焦?！?/p>

視覺轉(zhuǎn)換器

迄今為止，為視覺設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)對注意力技術(shù)的使用非常有限。到目前為止，注意力已與卷積神經(jīng)網(wǎng)絡(luò) （CNN）一起應(yīng)用或用于替換 CNN 的某些組件。但谷歌科學(xué)家最近發(fā)表的一篇論文（“一幅圖像值得 16 × 16 字：大規(guī)模圖像識別的變形金剛，” 2020 年 10 月）認(rèn)為注意力的概念更廣泛地適用于視覺。作者表明，純 Transformer 網(wǎng)絡(luò)是 NLP 中廣泛使用的一種依賴于注意力機(jī)制的網(wǎng)絡(luò)，當(dāng)直接應(yīng)用于圖像塊序列時(shí)，可以很好地執(zhí)行圖像分類任務(wù)。研究人員構(gòu)建的變壓器網(wǎng)絡(luò) Vision Transformer （ViT）取得了優(yōu)于 CNN 的結(jié)果，但訓(xùn)練所需的計(jì)算資源更少。

雖然很容易想象注意力如何應(yīng)用于文本或口語對話，但將相同的概念應(yīng)用于靜止圖像（而不是諸如視頻之類的時(shí)間序列）就不那么明顯了。事實(shí)上，注意力可以用在空間上，而不是這里的時(shí)間上下文中。音節(jié)或單詞類似于圖像的補(bǔ)丁。

Teig 的例子是一張狗的照片。顯示狗耳朵的圖像補(bǔ)丁可能會(huì)將自己識別為耳朵，即使是在毛茸茸的動(dòng)物或四足動(dòng)物身上發(fā)現(xiàn)的特定類型的耳朵。同樣，尾巴補(bǔ)丁知道它也存在于毛茸茸的動(dòng)物和四足動(dòng)物身上。圖像背景中的樹塊知道它有樹枝和樹葉。注意力機(jī)制詢問耳貼和樹貼有什么共同點(diǎn)。答案是，不多。然而，耳貼和尾貼確實(shí)有很多共同點(diǎn)。他們可以討論這些共性，也許神經(jīng)網(wǎng)絡(luò)可以找到比“耳朵”或“尾巴”更大的概念。也許網(wǎng)絡(luò)可以理解圖像提供的一些上下文，以計(jì)算出耳朵加尾巴可能等于狗。

注意力可以通過了解圖像塊之間的相關(guān)性來推斷上下文，從而幫助 AI 代理更好地理解圖像中發(fā)生的事情。

“狗的耳朵和尾巴不是獨(dú)立的這一事實(shí)使我們能夠更簡潔地描述圖片中發(fā)生的事情：‘圖片中有一只狗’，而不是‘旁邊有一個(gè)棕色像素到一個(gè)灰色像素，旁邊是……’，這是對圖片中正在發(fā)生的事情的可怕描述，”Teig 說?！翱梢赃@么說，當(dāng)系統(tǒng)用這些語義術(shù)語描述圖像的各個(gè)部分時(shí)，這就是可能的。然后它可以將這些聚合成更有用的概念，用于下游推理。”

Teig 說，最終的目標(biāo)是讓神經(jīng)網(wǎng)絡(luò)理解圖片是一只追逐飛盤的狗。

“祝你好運(yùn)，用 1600 萬色像素做到這一點(diǎn)，”他說?！斑@是一種嘗試將其處理為‘有一只狗；有一個(gè)飛盤；狗在跑?！?現(xiàn)在我有機(jī)會(huì)理解狗可能在玩飛盤?！?/p>

更近一步

谷歌在視覺系統(tǒng)注意力方面的工作是朝著正確方向邁出的一步，Teig 說，“但我認(rèn)為無論從理論和軟件的角度，還是從硬件的角度來看，這里都有很大的進(jìn)步空間，當(dāng)一個(gè)不必用巨大的矩陣來打擊數(shù)據(jù)，我非常懷疑你的大腦正在做什么。有很多東西可以在上下文中過濾掉，而無需將其與其他所有內(nèi)容進(jìn)行比較?！?/p>

雖然 Google 研究團(tuán)隊(duì)的解決方案比 CNN 更節(jié)省地使用計(jì)算資源，但 NLP 中通常實(shí)現(xiàn)注意力的方式使得像轉(zhuǎn)換器這樣的網(wǎng)絡(luò)非常耗費(fèi)資源。Transformer 經(jīng)常構(gòu)建巨大的 N × N 音節(jié)矩陣（用于文本）或像素（用于圖像），需要大量的計(jì)算能力和內(nèi)存來處理。

“那里的數(shù)據(jù)中心人員認(rèn)為，‘太好了——我們有一個(gè)數(shù)據(jù)中心，所以一切對我們來說都像是釘子，’”Teig 說，這就是我們最終得到像 OpenAI 的 GPT-3 這樣的 NLP 模型的方式，它的 1750 億個(gè)參數(shù)?！爱?dāng)你先驗(yàn)地看到所有東西時(shí)，你可以說前面句子中的幾乎所有內(nèi)容都無關(guān)緊要，這有點(diǎn)荒謬。你不能提前做任何過濾嗎？你真的要因?yàn)槟阌幸粋€(gè)巨大的矩陣乘法器就粗暴地做這個(gè)嗎……？這有任何意義嗎？可能不是。”

科學(xué)界最近嘗試減少注意力的計(jì)算開銷，已將所需的操作數(shù)量從 N 2減少到 N√N(yùn)。但這些嘗試延續(xù)了“近乎普遍的信念——我不同意——即深度學(xué)習(xí)完全是關(guān)于矩陣和矩陣乘法，”Teig 說，并指出最先進(jìn)的神經(jīng)網(wǎng)絡(luò)研究正在由那些能夠獲得大規(guī)模矩陣乘法加速器。

Teig 作為邊緣 AI 加速器芯片公司 Perceive 的首席執(zhí)行官的觀點(diǎn)是，有更有效的方法來概念化神經(jīng)網(wǎng)絡(luò)計(jì)算。Perceive 已經(jīng)在使用其中一些概念，Teig 認(rèn)為類似的見解將適用于注意力機(jī)制和轉(zhuǎn)換器網(wǎng)絡(luò)。

“我認(rèn)為關(guān)注的精神非常重要，”他說?！拔艺J(rèn)為機(jī)器本身將在未來幾年內(nèi)迅速發(fā)展……在軟件、理論上和硬件方面來代表它?！?/p>

今天的大型變壓器網(wǎng)絡(luò)最終會(huì)安裝到邊緣設(shè)備的加速器上嗎？在 Teig 看來，部分問題在于像 GPT-3 的 1750 億個(gè)參數(shù)這樣的網(wǎng)絡(luò)——大約 1 萬億位信息（為了論證而假設(shè) 8 位參數(shù)）。

他說：“這就像我們在玩20個(gè)問題的游戲，只是我要問你一萬億個(gè)問題，才能理解你剛才說的話?！币苍S兩萬或兩百萬不能完成，但一萬億——滾出去！缺陷不是我們有一個(gè)20-MW的小芯片；缺陷在于，擁有1750億個(gè)參數(shù)意味著你真的做錯(cuò)了什么。

根據(jù)泰格的說法，減少基于注意力的網(wǎng)絡(luò)的參數(shù)數(shù)量，并有效地表示它們，可以為邊緣設(shè)備帶來基于注意力的嵌入式視覺。而這樣的發(fā)展“并不遙遠(yuǎn)”。

Percept首席執(zhí)行官Steve Teig將在嵌入式愿景峰會(huì)上發(fā)表兩次演講。在“直面偏見”中，他將討論人工智能系統(tǒng)中歧視的來源，而在“TinyML不夠大”中，他將挑戰(zhàn)TinyML模型必須在準(zhǔn)確性上妥協(xié)以及它們應(yīng)該在CPU或MCU上運(yùn)行的觀念。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

嵌入式

嵌入式

+關(guān)注

關(guān)注
5210

文章
20680

瀏覽量
337429
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4844

瀏覽量
108212

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

注意力可以為視覺應(yīng)用程序帶來所需的上下文

評論