日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

視覺新范式Transformer之ViT的成功

深度學習實戰(zhàn) ? 來源:深度學習實戰(zhàn) ? 作者:深度學習實戰(zhàn) ? 2021-02-24 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這是一篇來自谷歌大腦的paper。這篇paper的主要成果是用Transformer[1]取代CNN,并證明了CNN不是必需的,甚至在大規(guī)模數(shù)據(jù)集預訓練的基礎上在一些benchmarks做到了SOTA,并且訓練時使用的資源更少。

圖像分塊

要將圖片分塊是因為Transformer是用于NLP領域的,在NLP里面,Transformer的輸入是一個序列,每個元素是一個word embedding。因此將Transformer用于圖像時也要找出word的概念,于是就有了這篇paper的title:AN IMAGE IS WORTH 16X16 WORDS,將一張圖片看成是16*16個“單詞”。

inductive biases

機器學習中,人們對算法做了各種的假設,這些假設就是inductive biases(歸納偏置),例如卷積神經網(wǎng)絡就有很強的inductive biases。文中做了一個實驗,在中等大小數(shù)據(jù)集訓練時,精度會略遜色于ResNets。但是這個結果也是應該預料到的,因為Transformer缺少了CNN固有的一些inductive biases,比如平移不變性和局部性。所以當沒有足夠的數(shù)據(jù)用于訓練時,你懂的。但是恰恰Transformer就強在這一點,由于Transformer運算效率更高,而且模型性能并沒有因為數(shù)據(jù)量的增大而飽和,至少目前是這樣的,就是說模型性能的上限很高,所以Transformer很適合訓練大型的數(shù)據(jù)集。

ViT

20d8869e-74f8-11eb-8b86-12bb97331649.png

在ViT中,模型只有Encoder的,沒有Decoder,因為只是用于識別任務,不需要Decoder。

首先按照慣例,先把圖像的patch映射成一個embedding,即圖中的linear projection層。然后加上position embedding,這里的position是1D的,因為按照作者的說法是在2D上并沒有性能上的提升。最后還要加上一個learnable classification token放在序列的前面,classification由MLP完成。

Hybrid Architecture。模型也可以是CNN和Transformer的混合,即Transformer的輸入不是原圖像的patch,而是經過CNN得到的feature map的patch。

實驗結果

211198d0-74f8-11eb-8b86-12bb97331649.png

不同大小的ViT的參數(shù)量。

2159b7b4-74f8-11eb-8b86-12bb97331649.png

可以看到在預訓練數(shù)據(jù)集很小的情況下ViT的效果并不好,但是好在隨著預訓練數(shù)據(jù)集越大時ViT的效果越好,最終超過ResNet。

21979b1a-74f8-11eb-8b86-12bb97331649.png

BiT[2]是谷歌用JFT-300M(谷歌內部非公開數(shù)據(jù)集)訓練的ResNet模型。Noisy Student[3]是谷歌提出借助半監(jiān)督大大提升了imagenet性能的算法??梢钥吹?,在JFT-300M預訓練的情況下,ViT比ResNet好上不少,并且開銷更小。

總結

ViT的成功我認為是以下幾點:

1、self-attention比CNN更容易捕捉long-range的信息;

2、大量的數(shù)據(jù),在視覺中CNN是人類實踐中很成功的inductive biases,顯然大量的數(shù)據(jù)是能戰(zhàn)勝inductive biases的;

3、計算效率高,因為self-attention可以看作是矩陣運算,所以效率很高,容易訓練大型的模型。

原文標題:視覺新范式Transformer之ViT

文章出處:【微信公眾號:深度學習實戰(zhàn)】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器視覺
    +關注

    關注

    166

    文章

    4831

    瀏覽量

    126546
  • 機器學習
    +關注

    關注

    67

    文章

    8567

    瀏覽量

    137257
  • Transforme
    +關注

    關注

    0

    文章

    12

    瀏覽量

    8971

原文標題:視覺新范式Transformer之ViT

文章出處:【微信號:gh_a204797f977b,微信公眾號:深度學習實戰(zhàn)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    混合MI-SSVEP是否真的是更優(yōu)的范式

    HUIYING穩(wěn)態(tài)視覺誘發(fā)電位(SSVEP)范式概述穩(wěn)態(tài)視覺誘發(fā)電位是一種基于視覺刺激的腦機接口范式,當用戶注視以固定頻率(如6.67Hz或
    的頭像 發(fā)表于 04-12 16:21 ?1874次閱讀
    混合MI-SSVEP是否真的是更優(yōu)的<b class='flag-5'>范式</b>?

    編碼調制視覺誘發(fā)電位cVEP是否能解決疲勞的問題?

    HUIYINGSSVEP概述穩(wěn)態(tài)視覺誘發(fā)電位(Steady-StateVisualEvokedPotential,SSVEP)是一種基于周期性視覺刺激的腦機接口(BCI)范式。當用戶注視以固定頻率
    的頭像 發(fā)表于 04-10 18:04 ?113次閱讀
    編碼調制<b class='flag-5'>視覺</b>誘發(fā)電位cVEP是否能解決疲勞的問題?

    哈爾濱工業(yè)大學與鴻微科技座談會成功舉辦

    2月12日,“物理人工智能驅動材料研發(fā)新范式—鴻微材料垂類大模型研發(fā)”座談會在哈爾濱工業(yè)大學圓滿舉辦。哈工大副校長劉挺教授、鴻微科技董事長曹榮根攜校企雙方核心力量齊聚一堂,多院系專家線上線下同頻
    的頭像 發(fā)表于 02-25 16:03 ?486次閱讀

    Transformer 入門:從零理解 AI 大模型的核心原理

    │ │ 456 │→ │ 25 │ └─────────┘│ 36 │ (2×3) └─────────┘ (3×2) 記憶技巧:想象沿著對角線折疊紙張。 在 Transformer 中的應用:計算注意力分數(shù)
    發(fā)表于 02-10 16:33

    Transformer如何讓自動駕駛大模型獲得思考能力?

    在談及自動駕駛時,Transformer一直是非常關鍵的技術,為何Transformer在自動駕駛行業(yè)一直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4424次閱讀

    告別漏檢與低效,維視智造用2D+3D視覺攻克3C連接器質檢難題

    本期將結合近期成功交付的實戰(zhàn)案例,詳細解讀智能視覺檢測方案在 3C 電子連接器生產質檢中的落地實踐,為企業(yè)實現(xiàn)視覺智能化升級提供可落地的參考范式。
    的頭像 發(fā)表于 12-24 17:40 ?761次閱讀

    潤和軟件旗下捷科入編2025“人工智能+”行業(yè)生態(tài)范式案例集

    (以下簡稱“捷科”)自主研發(fā)的“JettoAI測試智能助手平臺”憑借與金融業(yè)務場景的深度融合及卓越的AI技術創(chuàng)新能力,成功入編“2025人工智能+行業(yè)生態(tài)范式企業(yè)篇”,成為推動金融行業(yè)數(shù)字化轉型的標桿性范式產品。
    的頭像 發(fā)表于 12-11 11:19 ?772次閱讀
    潤和軟件旗下捷科入編2025“人工智能+”行業(yè)生態(tài)<b class='flag-5'>范式</b>案例集

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經網(wǎng)絡結構,最早在自然語言處理里火起來。與卷積神經網(wǎng)絡(CNN)或循環(huán)神經網(wǎng)絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態(tài)判斷哪些部分更為關鍵,同時可以將這些重要信息有效地關聯(lián)起來。
    的頭像 發(fā)表于 11-19 18:17 ?2484次閱讀

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現(xiàn),“Transformer架構是否正在取代傳統(tǒng)深度學習”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4392次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度學習嗎?

    使用MotorControl Workbench_6.3.2配置STM32H743VIT6E的FOC電機控制軟件時,找不到對應型號怎么解決?

    官方、各位大佬,在使用MotorControl Workbench_6.3.2配置STM32H743VIT6E的FOC電機控制軟件時,找不到對應型號只有745,如何解決,是否可以相似信號替代(如果可以的話有沒有說明手冊),或者有沒有其他手段解決。
    發(fā)表于 06-17 06:17

    MotorControl Workbench_6.3.2配置單片機時找不到STM32H743VIT6E,如何解決?

    官方、各位大佬,在使用MotorControl Workbench_6.3.2配置STM32H743VIT6E的FOC電機控制軟件時,找不到對應型號只有745,如何解決,是否可以相似信號替代(如果可以的話有沒有說明手冊),或者有沒有其他手段解決。
    發(fā)表于 06-16 07:03

    STM32H743VIT6用QSPI的接口,想換個CS的管腳,但芯片內置是綁死的,這個要怎么處理?

    關于STM32H743VIT6 在用QSPI的接口,想換個CS的管腳,但芯片內置是綁死的,這個要怎么處理,用個其他的IO口做片選
    發(fā)表于 06-11 08:02

    Transformer架構中編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?1233次閱讀
    <b class='flag-5'>Transformer</b>架構中編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1463次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    ALVA空間智能視覺焊接方案重構工業(yè)焊接范式

    在智能制造浪潮席卷全球的今天,焊接工藝作為制造業(yè)的核心環(huán)節(jié),正經歷著從“經驗驅動”向“數(shù)據(jù)驅動”的范式躍遷。
    的頭像 發(fā)表于 05-15 11:30 ?1012次閱讀
    巴林左旗| 肥西县| 沐川县| 宝兴县| 高雄市| 八宿县| 宽甸| 长宁区| 江华| 汉寿县| 武安市| 泰来县| 桐乡市| 峨山| 高阳县| 洛宁县| 渭源县| 沁阳市| 峨眉山市| 大同市| 临澧县| 南城县| 元氏县| 互助| 平果县| 家居| 临高县| 长葛市| 偏关县| 九龙县| 肇东市| 合江县| 平顺县| 彭水| 巴彦淖尔市| 阿拉善盟| 南靖县| 嘉义县| 永顺县| 荆门市| 奇台县|