日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解讀CV架構(gòu)回歸多層感知機(jī);自動(dòng)生成模型動(dòng)畫

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2021-05-13 10:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本周的重要論文包括來自谷歌大腦的研究團(tuán)隊(duì)提出了一種舍棄卷積和自注意力且完全使用多層感知機(jī)(MLP)的視覺網(wǎng)絡(luò)架構(gòu),在 ImageNet 數(shù)據(jù)集上實(shí)現(xiàn)了媲美 CNN 和 ViT 的性能表現(xiàn);清華大學(xué)圖形學(xué)實(shí)驗(yàn)室 Jittor 團(tuán)隊(duì)提出了一種新的注意機(jī)制,通過控制記憶單元的大小,External-attention 可以輕松實(shí)現(xiàn)線性的復(fù)雜度等研究。

論文 1:MLP-Mixer: An all-MLP Architecture for Vision

摘要:計(jì)算機(jī)視覺的發(fā)展史證明,規(guī)模更大的數(shù)據(jù)集加上更強(qiáng)的計(jì)算能力往往能夠促成范式轉(zhuǎn)變。雖然卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的標(biāo)準(zhǔn),但最近一段時(shí)間,基于自注意力層的替代方法 Vision Transformer(ViT)實(shí)現(xiàn)新的 SOTA 性能。從技術(shù)上講,ViT 模型延續(xù)了長久以來去除模型中手工構(gòu)建特征和歸納偏置的趨勢,并進(jìn)一步依賴基于原始數(shù)據(jù)的學(xué)習(xí)。

近日,原 ViT 團(tuán)隊(duì)提出了一種不使用卷積或自注意力的 MLP-Mixer 架構(gòu)(簡稱 Mixer),這是一種頗具競爭力并且在概念和技術(shù)上都非常簡單的替代方案。Mixer 架構(gòu)完全基于在空間位置或特征通道重復(fù)利用的多層感知機(jī)(MLP),并且僅依賴于基礎(chǔ)矩陣乘法運(yùn)算、數(shù)據(jù)布局變換(如 reshape 和 transposition)和非線性層。

JAX/Flax 編寫的 MLP-Mixer 代碼。

推薦:CV 領(lǐng)域網(wǎng)絡(luò)架構(gòu)的演變從 MLP 到 CNN 到 Transformer 再回到 MLP,真是太有意思了。

論文 2:Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

摘要:清華大學(xué)圖形學(xué)實(shí)驗(yàn)室 Jittor 團(tuán)隊(duì)提出了一種新的注意機(jī)制,稱之為「External Attention」,基于兩個(gè)外部的、小的、可學(xué)習(xí)的和共享的存儲器,只用兩個(gè)級聯(lián)的線性層和歸一化層就可以取代了現(xiàn)有流行的學(xué)習(xí)架構(gòu)中的「Self-attention」,揭示了線性層和注意力機(jī)制之間的關(guān)系。自注意力機(jī)制一個(gè)明顯的缺陷在于計(jì)算量非常大,存在一定的計(jì)算冗余。通過控制記憶單元的大小,External-attention 可以輕松實(shí)現(xiàn)線性的復(fù)雜度。

d98242e8-b364-11eb-bf61-12bb97331649.jpg

Self Attention 和 External Attention 的區(qū)別。

推薦:External Attention 的部分計(jì)圖代碼已經(jīng)在 Github 開源,后續(xù)將盡快開源全部計(jì)圖代碼。

論文 3:Learning Skeletal Articulations with Neural Blend Shapes

摘要:該論文由北京大學(xué)陳寶權(quán)教授研究團(tuán)隊(duì)、北京電影學(xué)院未來影像高精尖創(chuàng)新中心、Google Research、特拉維夫大學(xué)以及蘇黎世聯(lián)邦理工學(xué)院合作,針對骨骼驅(qū)動(dòng)的模型動(dòng)畫的高質(zhì)量自動(dòng)化生成進(jìn)行改進(jìn),提出了神經(jīng)融合形狀技術(shù)。實(shí)驗(yàn)證明,該方法顯著減少了已有方法中需要的人工干預(yù),大大提升了生成動(dòng)畫的質(zhì)量。

具體而言,為了簡化骨骼搭建和蒙皮權(quán)重綁定的過程、高效利用動(dòng)作捕捉數(shù)據(jù)以及生成高質(zhì)量的動(dòng)畫,研究者開發(fā)了一套能生成具有指定結(jié)構(gòu)的骨骼以及精準(zhǔn)綁定權(quán)重的神經(jīng)網(wǎng)絡(luò)。加以他們提出的神經(jīng)融合形狀(neural blend shapes)技術(shù),研究者實(shí)現(xiàn)了實(shí)時(shí)高質(zhì)量三維人物模型動(dòng)畫的端到端自動(dòng)生成。

d9d77bfa-b364-11eb-bf61-12bb97331649.jpg

框架概覽。

推薦:該論文已被計(jì)算機(jī)圖形學(xué)頂級會議 SIGGRAPH 2021 接收。

論文 4:A Survey of Modern Deep Learning based Object Detection Models

摘要:在本文中,來自阿斯隆理工學(xué)院的研究者概述了基于深度學(xué)習(xí)的目標(biāo)檢測器的最新發(fā)展,提供了用于檢測的基準(zhǔn)數(shù)據(jù)集和評估指標(biāo)的簡要概述以及用于識別任務(wù)的主要主干架構(gòu)。

da0bce78-b364-11eb-bf61-12bb97331649.jpg

文章結(jié)構(gòu)。

推薦:基于現(xiàn)代深度學(xué)習(xí)的目標(biāo)檢測模型綜述。

論文 5:Total Relighting: Learning to Relight Portraits for Background Replacement

摘要:在人像摳圖中,前景預(yù)測背景替換是至關(guān)重要的組成部分,此前也出現(xiàn)過各種效果不錯(cuò)的摳圖方法,如商湯等提出的只需單張圖像、單個(gè)模型的方法 MODNet、華盛頓大學(xué)單塊 GPU 實(shí)現(xiàn) 4K 分辨率每秒 30 幀的 Background Matting 2.0 等。這些方法或多或少都有其局限性。

近日,來自谷歌的幾位研究者提出了一種全新的人像重照明(portrait relighting)和背景替換系統(tǒng),該系統(tǒng)不僅保留了高頻邊界細(xì)節(jié),并精確地合成了目標(biāo)人像在新照明下的外觀,從而為任何所需場景生成逼真的合成圖像。該研究的亮點(diǎn)是通過前景蒙版(alpha matting)、重照明(relighting)和合成(compositing)進(jìn)行前景估計(jì)。

推薦:該論文已被 SIGGRAPH 2021 會議接收。

論文 6:Graph Learning: A Survey

摘要:本文是對圖學(xué)習(xí)的最全面綜述,重點(diǎn)關(guān)注四類已有的圖學(xué)習(xí)方法,包括圖信號處理、矩陣分解、隨機(jī)游走和深度學(xué)習(xí),回顧了采用這四類方法的主要模型和算法。此外,研究者探討了文本、圖像、科學(xué)、知識圖譜和組合優(yōu)化等領(lǐng)域的圖學(xué)習(xí)應(yīng)用。本文作者來自澳大利亞聯(lián)邦大學(xué)、大連理工、莫納什大學(xué)和亞利桑那州立大學(xué)。

推薦:最新圖機(jī)器學(xué)習(xí)論文綜述。

論文 7:Locate then Segment: A Strong Pipeline for Referring Image Segmentation

摘要:如何通過自然語言定位并分割出場景中的目標(biāo)物體?比如給定一張圖片,語言指示 「分割出穿白色襯衫的人」。這個(gè)任務(wù)在學(xué)術(shù)界叫做指代性物體分割(Referring Image Segmentation)。目前指代性分割的工作通常著重于設(shè)計(jì)一種隱式的遞歸特征交互機(jī)制用于融合視覺 - 語言特征來直接生成最終的分割結(jié)果,而沒有顯式建模被指代物體的位置。

為了強(qiáng)調(diào)語言描述的指代作用,來自中科院自動(dòng)化所、字節(jié)跳動(dòng)的研究者將該任務(wù)解耦為先定位再分割的方案(LTS, Locate then Segment),它在直觀上也與人類的視覺感知機(jī)制相同。比如給定一句語言描述,人們通常首先會注意相應(yīng)的目標(biāo)圖像區(qū)域,然后根據(jù)對象的環(huán)境信息生成關(guān)于對象的精細(xì)分割結(jié)果。該方法雖然很簡單但效果較好。在三個(gè)流行的基準(zhǔn)數(shù)據(jù)集上,該方法大幅度優(yōu)于所有以前的方法。這個(gè)框架很有希望作為指代性分割的通用框架。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5283

    瀏覽量

    136099
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    67

    文章

    8567

    瀏覽量

    137255
  • 視覺感知
    +關(guān)注

    關(guān)注

    0

    文章

    53

    瀏覽量

    3641

原文標(biāo)題:7 Papers & Radios | CV架構(gòu)回歸多層感知機(jī);自動(dòng)生成模型動(dòng)畫

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    AIDC底層感知網(wǎng)絡(luò)建設(shè)白皮書:掃描模組工廠推薦與光電耦合架構(gòu)規(guī)范

    一、導(dǎo)言:從外設(shè)組件到“光機(jī)電算”一體化感知中樞在2026年的自動(dòng)識別與數(shù)據(jù)采集(AIDC)架構(gòu)設(shè)計(jì)中,智能終端(如工業(yè)PDA、醫(yī)療自助一體機(jī)、AGV導(dǎo)航小車)所面臨的條碼環(huán)境已逼近光
    的頭像 發(fā)表于 04-24 11:01 ?173次閱讀
    AIDC底層<b class='flag-5'>感知</b>網(wǎng)絡(luò)建設(shè)白皮書:掃描模組工廠推薦與光電耦合<b class='flag-5'>架構(gòu)</b>規(guī)范

    FBX/glTF 模型渲染與動(dòng)畫技術(shù)解析 | 圖撲 HT 框架

    Web 3D 可視化開發(fā)中,模型動(dòng)畫、材質(zhì)質(zhì)感、渲染擴(kuò)展性是提升產(chǎn)品體驗(yàn)的關(guān)鍵,但其底層邏輯復(fù)雜,如骨骼蒙皮、光照計(jì)算,導(dǎo)致開發(fā)門檻高、效率低。圖撲軟件自研 HT for Web(簡稱 HT)高性能
    的頭像 發(fā)表于 04-21 11:31 ?85次閱讀
    FBX/glTF <b class='flag-5'>模型</b>渲染與<b class='flag-5'>動(dòng)畫</b>技術(shù)解析 | 圖撲 HT 框架

    人工智能多模態(tài)與視覺大模型開發(fā)實(shí)戰(zhàn) - 2026必會

    憑空出現(xiàn),其背后蘊(yùn)含著深厚的理論基礎(chǔ)與復(fù)雜的架構(gòu)設(shè)計(jì)。從基礎(chǔ)原理來看,它借鑒了人類視覺系統(tǒng)的運(yùn)作機(jī)制,通過模擬人眼對圖像的感知和理解過程,讓計(jì)算機(jī)能夠自動(dòng)識別、分析和解讀圖像內(nèi)容。 在
    發(fā)表于 04-15 16:06

    【2025夏季班正課】大模型Agent智能體開發(fā)實(shí)戰(zhàn) 課分享

    往往只關(guān)注模型能否生成正確的回復(fù),卻忽視了生產(chǎn)環(huán)境中的穩(wěn)定性保障。體系化開發(fā)要求引入嚴(yán)格的工程化標(biāo)準(zhǔn)。這包括構(gòu)建完善的評測體系,利用自動(dòng)化測試框架對智能體的規(guī)劃能力、工具調(diào)用準(zhǔn)確率以及最終任務(wù)完成率
    發(fā)表于 03-29 16:12

    零碳園區(qū)數(shù)字感知基礎(chǔ)架構(gòu)規(guī)劃的發(fā)展趨勢

    數(shù)字感知基礎(chǔ)架構(gòu)是零碳園區(qū)的“神經(jīng)中樞”,通過部署全場景感知終端、構(gòu)建實(shí)時(shí)傳輸網(wǎng)絡(luò)、沉淀精準(zhǔn)數(shù)據(jù)資產(chǎn),為能源調(diào)度、碳排核算、生態(tài)治理提供核心數(shù)據(jù)支撐。當(dāng)前,隨著《國家應(yīng)對氣候變化標(biāo)準(zhǔn)體系建設(shè)方案
    的頭像 發(fā)表于 03-09 11:26 ?444次閱讀

    安霸發(fā)布高性能端側(cè)AI 8K視覺感知芯片CV7

    SoC,該芯片采用 4 納米制程,專為多元 AI 感知場景深度優(yōu)化。典型應(yīng)用包括:基于 AI 技術(shù)的高端 8K 消費(fèi)級智能產(chǎn)品(如運(yùn)動(dòng)相機(jī)、360 度全景相機(jī))、多傳感器工業(yè)級安防監(jiān)控?cái)z像機(jī)、機(jī)器人(如空中無人機(jī))、工業(yè)自動(dòng)
    的頭像 發(fā)表于 01-08 14:46 ?1118次閱讀

    模型支撐后勤保障方案生成系統(tǒng):功能特點(diǎn)與平臺架構(gòu)解析

    ? ? 大模型支撐后勤保障方案生成系統(tǒng):功能特點(diǎn)與平臺架構(gòu)解析 ? ?大模型支撐后勤保障方案生成系統(tǒng)憑借智能預(yù)測、動(dòng)態(tài)調(diào)度、路徑優(yōu)化、庫存管
    的頭像 發(fā)表于 12-17 15:49 ?431次閱讀

    世界模型是讓自動(dòng)駕駛汽車?yán)斫馐澜邕€是預(yù)測未來?

    做了什么? 世界模型,其實(shí)是一個(gè)“內(nèi)部表征+動(dòng)態(tài)預(yù)測”的組合。簡單理解,世界模型就是將感知到的東西(圖像、點(diǎn)云、雷達(dá)、文本、動(dòng)作歷史)壓縮成一套內(nèi)部狀態(tài),然后用這套內(nèi)部狀態(tài)去生成、預(yù)測
    的頭像 發(fā)表于 12-16 09:27 ?1041次閱讀
    世界<b class='flag-5'>模型</b>是讓<b class='flag-5'>自動(dòng)</b>駕駛汽車?yán)斫馐澜邕€是預(yù)測未來?

    語言模型是否是自動(dòng)駕駛的必選項(xiàng)?

    [首發(fā)于智駕最前沿微信公眾號]自動(dòng)駕駛的發(fā)展并非一成不變,在傳統(tǒng)自動(dòng)駕駛系統(tǒng)中,通常采用分層的體系架構(gòu)。最底層是感知層,負(fù)責(zé)將攝像頭、雷達(dá)、激光雷達(dá)等傳感器數(shù)據(jù)轉(zhuǎn)化為車輛能夠“看到”的
    的頭像 發(fā)表于 11-14 16:23 ?3793次閱讀
    語言<b class='flag-5'>模型</b>是否是<b class='flag-5'>自動(dòng)</b>駕駛的必選項(xiàng)?

    VLA和世界模型,誰才是自動(dòng)駕駛的最優(yōu)解?

    Model)路線,這兩種路徑都為自動(dòng)駕駛快速落地提供了可能,那誰才是最優(yōu)解? 什么是VLA模型? VLA模型,即視覺—語言—行動(dòng)模型,是將視覺感知
    的頭像 發(fā)表于 11-05 08:55 ?958次閱讀
    VLA和世界<b class='flag-5'>模型</b>,誰才是<b class='flag-5'>自動(dòng)</b>駕駛的最優(yōu)解?

    自動(dòng)駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4392次閱讀
    <b class='flag-5'>自動(dòng)</b>駕駛中Transformer大<b class='flag-5'>模型</b>會取代深度學(xué)習(xí)嗎?

    自動(dòng)駕駛感知系統(tǒng)如何設(shè)計(jì)才能確保足夠安全?

    高可靠性、高可用性和高魯棒性,必須多層面、全方位地統(tǒng)籌技術(shù)架構(gòu)、硬件部署、軟件算法、系統(tǒng)冗余與安全管理,共同構(gòu)筑一套穩(wěn)健的感知體系。
    的頭像 發(fā)表于 07-24 18:11 ?1170次閱讀

    動(dòng)態(tài)感知+智能決策,一文解讀 AI 場景組網(wǎng)下的動(dòng)態(tài)智能選路技術(shù)

    人工智能(AI),特別是大規(guī)模模型訓(xùn)練和推理,正以前所未有的方式重塑數(shù)據(jù)中心網(wǎng)絡(luò)。傳統(tǒng)的“盡力而為”網(wǎng)絡(luò)架構(gòu),在處理海量、突發(fā)的AI數(shù)據(jù)洪流時(shí)捉襟見肘。AI模型對網(wǎng)絡(luò)性能的嚴(yán)苛要求——高帶寬、低延遲
    的頭像 發(fā)表于 06-20 15:01 ?1751次閱讀
    動(dòng)態(tài)<b class='flag-5'>感知</b>+智能決策,一文<b class='flag-5'>解讀</b> AI 場景組網(wǎng)下的動(dòng)態(tài)智能選路技術(shù)

    知識分享 | 評估模型架構(gòu)——如何實(shí)現(xiàn)?

    確保良好的模型架構(gòu)對于開發(fā)安全和可靠的軟件非常重要。本文為您介紹MES Model Examiner? (MXAM)如何優(yōu)化模型架構(gòu),簡化復(fù)雜度管理步驟,并最終提升軟件質(zhì)量。
    的頭像 發(fā)表于 06-05 11:46 ?773次閱讀
    知識分享 | 評估<b class='flag-5'>模型</b><b class='flag-5'>架構(gòu)</b>——如何實(shí)現(xiàn)?

    半導(dǎo)體器件CV測量技術(shù)解析

    前言:研究器件特性和器件建模都離不開精確的電容電壓(CV)測量。精確的CV模型在仿真器件的開關(guān)特性,延遲特性等方面尤為重要。目前,在寬禁帶器件(GaN/SiC)、納米器件、有機(jī)器件、MEMS等下
    的頭像 發(fā)表于 06-01 10:02 ?2014次閱讀
    半導(dǎo)體器件<b class='flag-5'>CV</b>測量技術(shù)解析
    黔西| 江西省| 博客| 育儿| 西充县| 金堂县| 大庆市| 金昌市| 涟源市| 井冈山市| 土默特右旗| 县级市| 金塔县| 驻马店市| 进贤县| 长丰县| 普洱| 磐石市| 兴化市| 黑山县| 西昌市| 江门市| 永安市| 札达县| 安达市| 宁国市| 龙泉市| 白河县| 定日县| 潮安县| 黄冈市| 友谊县| 安西县| 远安县| 天峻县| 舟曲县| 天水市| 远安县| 西峡县| 泉州市| 海口市|