日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LeCun世界模型首個(gè)研究!自監(jiān)督視覺(jué)像人一樣學(xué)習(xí)和推理!

CVer ? 來(lái)源:機(jī)器之心 ? 2023-06-15 15:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI 像人類一樣學(xué)習(xí)和推理,這是人工智能邁向人類智能的重要一步。圖靈獎(jiǎng)得主 Yann LeCun 曾提出自監(jiān)督 + 世界模型的解決方案,如今終于有了第一個(gè)實(shí)實(shí)在在的視覺(jué)模型。

去年初,Meta 首席 AI 科學(xué)家 Yann LeCun 針對(duì)「如何才能打造出接近人類水平的 AI」提出了全新的思路。他勾勒出了構(gòu)建人類水平 AI 的另一種愿景,指出學(xué)習(xí)世界模型(即世界如何運(yùn)作的內(nèi)部模型)的能力或許是關(guān)鍵。這種學(xué)到世界運(yùn)作方式內(nèi)部模型的機(jī)器可以更快地學(xué)習(xí)、規(guī)劃完成復(fù)雜的任務(wù),并輕松適應(yīng)不熟悉的情況。

LeCun 認(rèn)為,構(gòu)造自主 AI 需要預(yù)測(cè)世界模型,而世界模型必須能夠執(zhí)行多模態(tài)預(yù)測(cè),對(duì)應(yīng)的解決方案是一種叫做分層 JEPA(聯(lián)合嵌入預(yù)測(cè)架構(gòu))的架構(gòu)。該架構(gòu)可以通過(guò)堆疊的方式進(jìn)行更抽象、更長(zhǎng)期的預(yù)測(cè)。

6 月 9 日,在 2023 北京智源大會(huì)開(kāi)幕式的 keynote 演講中,LeCun 又再次講解了世界模型的概念,他認(rèn)為基于自監(jiān)督的語(yǔ)言模型無(wú)法獲得關(guān)于真實(shí)世界的知識(shí),這些模型在本質(zhì)上是不可控的。

e99419f6-0b3a-11ee-962d-dac502259ad0.png

今日,Meta 推出了首個(gè)基于 LeCun 世界模型概念的 AI 模型。該模型名為圖像聯(lián)合嵌入預(yù)測(cè)架構(gòu)(Image Joint Embedding Predictive Architecture, I-JEPA),它通過(guò)創(chuàng)建外部世界的內(nèi)部模型來(lái)學(xué)習(xí), 比較圖像的抽象表示(而不是比較像素本身)。

I-JEPA 在多項(xiàng)計(jì)算機(jī)視覺(jué)任務(wù)上取得非常不錯(cuò)的效果,并且計(jì)算效率遠(yuǎn)高于其他廣泛使用的計(jì)算機(jī)視覺(jué)模型。此外 I-JEPA 學(xué)得的表示也可以用于很多不同的應(yīng)用,無(wú)需進(jìn)行大量微調(diào)。

e9a138fc-0b3a-11ee-962d-dac502259ad0.png

舉個(gè)例子,Meta 在 72 小時(shí)內(nèi)使用 16 塊 A100 GPU 訓(xùn)練了一個(gè) 632M 參數(shù)的視覺(jué) transformer 模型,還在 ImageNet 上實(shí)現(xiàn)了 low-shot 分類的 SOTA 性能,其中每個(gè)類只有 12 個(gè)標(biāo)簽樣本。其他方法通常需要 2 到 10 倍的 GPU 小時(shí)數(shù),并在使用相同數(shù)據(jù)量訓(xùn)練時(shí)誤差率更高。

相關(guān)的論文《Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture》已被 CVPR 2023 接收。當(dāng)然,所有的訓(xùn)練代碼和模型檢查點(diǎn)都將開(kāi)源。

e9e1b396-0b3a-11ee-962d-dac502259ad0.png

論文地址:https://arxiv.org/abs/2301.08243

GitHub 地址:https://t.co/DgS9XiwnMz

通過(guò)自監(jiān)督學(xué)習(xí)獲取常識(shí)型知識(shí)

I-JEPA 基于一個(gè)事實(shí),即人類僅通過(guò)被動(dòng)觀察就可以了解關(guān)于世界的大量背景知識(shí),這些常識(shí)信息被認(rèn)為是實(shí)現(xiàn)智能行為的關(guān)鍵。

通常,AI 研究人員會(huì)設(shè)計(jì)學(xué)習(xí)算法來(lái)捕獲現(xiàn)實(shí)世界的常識(shí),并將其編碼為算法可訪問(wèn)的數(shù)字表征。為了高效,這些表征需要以自監(jiān)督的方式來(lái)學(xué)習(xí),即直接從圖像或聲音等未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),而不是從手動(dòng)標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。

在高層級(jí)上,JEPA 的一個(gè)輸入中某個(gè)部分的表征是根據(jù)其他部分的表征來(lái)預(yù)測(cè)的。同時(shí),通過(guò)在高抽象層次上預(yù)測(cè)表征而不是直接預(yù)測(cè)像素值,JEPA 能夠直接學(xué)習(xí)有用的表征,同時(shí)避免了生成模型的局限性。

相比之下,生成模型會(huì)通過(guò)刪除或扭曲模型輸入的部分內(nèi)容來(lái)學(xué)習(xí)。然而,生成模型的一個(gè)顯著缺點(diǎn)是模型試圖填補(bǔ)每一點(diǎn)缺失的信息,即使現(xiàn)實(shí)世界本質(zhì)上是不可預(yù)測(cè)的。因此,生成模型過(guò)于關(guān)注不相關(guān)的細(xì)節(jié),而不是捕捉高級(jí)可預(yù)測(cè)的概念。

ea1f8536-0b3a-11ee-962d-dac502259ad0.png

自監(jiān)督學(xué)習(xí)的通用架構(gòu),其中系統(tǒng)學(xué)習(xí)捕獲其輸入之間的關(guān)系。

邁向能力廣泛的 JEPA 的第一步

I-JEPA 的核心思路是以更類似于人類理解的抽象表征來(lái)預(yù)測(cè)缺失信息。與在像素 /token 空間中進(jìn)行預(yù)測(cè)的生成方法相比,I-JEPA 使用抽象的預(yù)測(cè)目標(biāo),潛在地消除了不必要的像素級(jí)細(xì)節(jié),從而使模型學(xué)習(xí)更多語(yǔ)義特征。

另一個(gè)引導(dǎo) I-JEPA 產(chǎn)生語(yǔ)義表征的核心設(shè)計(jì)是多塊掩碼策略。該研究使用信息豐富的上下文來(lái)預(yù)測(cè)包含語(yǔ)義信息的塊,并表明這是非常必要的。

ea40fe82-0b3a-11ee-962d-dac502259ad0.png

I-JEPA 使用單個(gè)上下文塊來(lái)預(yù)測(cè)源自同一圖像的各種目標(biāo)塊的表征。

I-JEPA 中的預(yù)測(cè)器可以看作是一個(gè)原始的(和受限的)世界模型,它能夠從部分可觀察的上下文中模擬靜態(tài)圖像中的空間不確定性。更重要的是,這個(gè)世界模型是語(yǔ)義級(jí)的,因?yàn)樗A(yù)測(cè)圖像中不可見(jiàn)區(qū)域的高級(jí)信息,而不是像素級(jí)細(xì)節(jié)。

ea46ec20-0b3a-11ee-962d-dac502259ad0.png

預(yù)測(cè)器如何學(xué)習(xí)建模世界的語(yǔ)義。對(duì)于每張圖像,藍(lán)框外的部分被編碼并作為上下文提供給預(yù)測(cè)器。然后預(yù)測(cè)器輸出它期望在藍(lán)框內(nèi)區(qū)域的表示。為了可視化預(yù)測(cè),Meta 訓(xùn)練了一個(gè)生成模型, 它生成了由預(yù)測(cè)輸出表示的內(nèi)容草圖,并在藍(lán)框內(nèi)顯示樣本輸出。很明顯,預(yù)測(cè)器識(shí)別出了應(yīng)該填充哪些部分的語(yǔ)義(如狗的頭部、鳥(niǎo)的腿、狼的前肢、建筑物的另一側(cè))。

為了理解模型捕獲的內(nèi)容,Meta 訓(xùn)練了一個(gè)隨機(jī)解碼器,將 I-JEPA 預(yù)測(cè)的表示映射回像素空間,這展示出了探針操作后在藍(lán)框中進(jìn)行預(yù)測(cè)時(shí)的模型輸出。這種定性評(píng)估表明,I-JEPA 正確捕獲了位置不確定性,并生成了具有正確姿態(tài)的高級(jí)對(duì)象部分(如狗的頭部、狼的前肢)。

簡(jiǎn)而言之,I-JEPA 能夠?qū)W習(xí)對(duì)象部分的高級(jí)表示,而不會(huì)丟棄它們?cè)趫D像中的局部位置信息。

高效率、強(qiáng)性能

I-JEPA 預(yù)訓(xùn)練在計(jì)算上也很高效,在使用更多計(jì)算密集型數(shù)據(jù)增強(qiáng)來(lái)生成多個(gè)視圖時(shí)不會(huì)產(chǎn)生任何開(kāi)銷。目標(biāo)編碼器只需要處理圖像的一個(gè)視圖,上下文編碼器只需要處理上下文塊。

實(shí)驗(yàn)發(fā)現(xiàn),I-JEPA 在不使用手動(dòng)視圖增強(qiáng)的情況下學(xué)習(xí)了強(qiáng)大的現(xiàn)成語(yǔ)義表示,具體可見(jiàn)下圖。此外 I-JEPA 還在 ImageNet-1K 線性探針和半監(jiān)督評(píng)估上優(yōu)于像素和 token 重建方法。

ea567bc2-0b3a-11ee-962d-dac502259ad0.png

ImageNet-1k 數(shù)據(jù)集上的線性評(píng)估。

I-JEPA 還能與以往在語(yǔ)義任務(wù)上依賴手動(dòng)數(shù)據(jù)增強(qiáng)的方法競(jìng)爭(zhēng)。相比之下,I-JEPA 在對(duì)象計(jì)數(shù)和深度預(yù)測(cè)等低級(jí)視覺(jué)任務(wù)上取得了更好的性能。通過(guò)使用較小剛性歸納偏置的更簡(jiǎn)單模型,I-JEPA 適用于更廣泛的任務(wù)集合。

ea8bd09c-0b3a-11ee-962d-dac502259ad0.png

low shot 分類準(zhǔn)確性:使用 1% 標(biāo)簽時(shí) ImageNet-1k 上的半監(jiān)督評(píng)估結(jié)果(每類只有 12 張標(biāo)簽圖像)。

AI 智能向人類水平更近了一步

I-JEPA 展示了無(wú)需通過(guò)手動(dòng)圖像變換來(lái)編碼額外知識(shí)時(shí),學(xué)習(xí)有競(jìng)爭(zhēng)力的現(xiàn)成圖像表示的潛力。繼續(xù)推進(jìn) JEPA 以從更豐富模態(tài)中學(xué)習(xí)更通用世界模型將變得特別有趣,比如人們從一個(gè)短上下文中對(duì)視頻中的將來(lái)事件做出長(zhǎng)期空間和時(shí)間預(yù)測(cè),并利用音頻或文本 prompt 對(duì)這些預(yù)測(cè)進(jìn)行調(diào)整。

Meta 希望將 JEPA 方法擴(kuò)展到其他領(lǐng)域,比如圖像 - 文本配對(duì)數(shù)據(jù)和視頻數(shù)據(jù)。未來(lái),JEPA 模型可以在視頻理解等任務(wù)中得到應(yīng)用。這是應(yīng)用和擴(kuò)展自監(jiān)督方法來(lái)學(xué)習(xí)更通用世界模型的重要一步

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50367

    瀏覽量

    267075
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52289
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    575

    瀏覽量

    11345

原文標(biāo)題:CVPR 2023 | LeCun世界模型首個(gè)研究!自監(jiān)督視覺(jué)像人一樣學(xué)習(xí)和推理!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這
    發(fā)表于 07-03 19:43

    機(jī)器視覺(jué)與機(jī)器視覺(jué)有什么不一樣?

    機(jī)器視覺(jué)、機(jī)器視覺(jué)傻傻分不清楚。你是不是也有這么個(gè)疑問(wèn)呢?機(jī)器視覺(jué)和機(jī)器視覺(jué)
    發(fā)表于 08-28 10:48

    LabVIEW是否能C語(yǔ)言一樣?

    LabVIEW是否能C語(yǔ)言一樣?
    發(fā)表于 09-11 18:41 ?38次下載

    機(jī)器魚能真魚一樣游泳

    本周麻省理工學(xué)院的研究人員揭開(kāi)了種看上去一樣游泳的軟體機(jī)器,他們說(shuō)類似的東西可能會(huì)滲透到真正的魚的學(xué)校,并收集有關(guān)他們行為的數(shù)據(jù)。
    的頭像 發(fā)表于 04-30 05:48 ?4012次閱讀

    機(jī)器能嬰兒一樣通過(guò)眼睛學(xué)習(xí)世界?

    在Facebook人工智能實(shí)驗(yàn)室負(fù)責(zé)人楊樂(lè)昆(Yann LeCun)看來(lái),人類既然已經(jīng)教會(huì)機(jī)器辨別圖片,甚至能做到人臉識(shí)別,那么機(jī)器也能識(shí)別視頻。而教會(huì)機(jī)器學(xué)習(xí)視頻的方法與嬰兒學(xué)習(xí)相似。即讓機(jī)器
    發(fā)表于 05-17 19:21 ?852次閱讀

    如何使機(jī)器一樣對(duì)物理世界直觀理解?

    人工智能追求的長(zhǎng)期目標(biāo)是使機(jī)器能人類一樣感知世界和解決問(wèn)題。對(duì)當(dāng)前人工智能而言,解決某些對(duì)人類來(lái)說(shuō)屬于智力挑戰(zhàn)的問(wèn)題可能是相對(duì)簡(jiǎn)單的,但對(duì)看似簡(jiǎn)單的與真實(shí)物理世界交互的能力依然非常差
    的頭像 發(fā)表于 08-28 09:11 ?4531次閱讀

    世界上第一臺(tái)能夠植物卷須一樣卷曲和攀爬的軟機(jī)器問(wèn)世

    從機(jī)器跳躍,跑酷,開(kāi)門,機(jī)器正日益成為善于利用人類的技能高手。那么機(jī)器是否能善于“學(xué)習(xí)”那些植物的技能呢?目前研究人員設(shè)計(jì)出了第
    發(fā)表于 01-27 10:42 ?1418次閱讀

    監(jiān)督學(xué)習(xí)與Transformer相關(guān)論文

    將在明年5月4日舉行,目前,本次大會(huì)投稿已經(jīng)結(jié)束,最后共有3013篇論文提交。ICLR 采用公開(kāi)評(píng)審機(jī)制,任何人都可以提前看到這些論文。 為了分析最新研究動(dòng)向,我們精選了涵蓋監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 11-02 15:50 ?3407次閱讀
    <b class='flag-5'>自</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>與Transformer相關(guān)論文

    新加坡大學(xué)研發(fā)首個(gè)擁有一樣的觸感智能泡沫

    隨著人工智能技術(shù)被廣泛應(yīng)用,雖然機(jī)器越來(lái)越智能化,但是卻不能人類一樣擁有靈敏的觸覺(jué)和感知環(huán)境的能力。 近日,新加坡國(guó)立大學(xué)(NUS)的研究人員發(fā)明了
    的頭像 發(fā)表于 05-29 14:56 ?2482次閱讀

    研究團(tuán)隊(duì)設(shè)計(jì)出大白一樣的擁抱機(jī)器

    你還記得大白嗎?那個(gè)萌萌的會(huì)主動(dòng)給人溫暖擁抱的機(jī)器? 現(xiàn)如今,來(lái)自德國(guó)馬克斯 - 普朗克研究所(MPI-IS)和蘇黎世聯(lián)邦理工學(xué)院(ETH Zürich)的研究團(tuán)隊(duì)就設(shè)計(jì)出了大白
    的頭像 發(fā)表于 05-31 14:15 ?2354次閱讀

    監(jiān)督學(xué)習(xí)些思考

    監(jiān)督學(xué)習(xí)的流行是勢(shì)在必然的。在各種主流有監(jiān)督學(xué)習(xí)任務(wù)都做到很成熟之后,數(shù)據(jù)成了最重要的瓶頸。從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)有效信息直是...
    發(fā)表于 01-26 18:50 ?1次下載
    <b class='flag-5'>自</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>的<b class='flag-5'>一</b>些思考

    的大腦和監(jiān)督學(xué)習(xí)模型的相似度有多高?

    麥吉爾大學(xué)和魁北克人工智能研究所(Mila)的計(jì)算神經(jīng)科學(xué)家布萊克-理查茲(Blake Richards)說(shuō):「我認(rèn)為毫無(wú)疑問(wèn),大腦所做的90%都是監(jiān)督學(xué)習(xí)?!?/div>
    的頭像 發(fā)表于 08-19 09:50 ?1561次閱讀

    DJ一樣控制 NeoPixels

    電子發(fā)燒友網(wǎng)站提供《DJ一樣控制 NeoPixels.zip》資料免費(fèi)下載
    發(fā)表于 12-28 09:28 ?0次下載
    <b class='flag-5'>像</b>DJ<b class='flag-5'>一樣</b>控制 NeoPixels

    LeCun世界模型首項(xiàng)研究來(lái)了:監(jiān)督視覺(jué),已開(kāi)源

    LeCun 認(rèn)為,構(gòu)造自主 AI 需要預(yù)測(cè)世界模型,而世界模型必須能夠執(zhí)行多模態(tài)預(yù)測(cè),對(duì)應(yīng)的解決方案是
    的頭像 發(fā)表于 06-14 16:53 ?1075次閱讀
    <b class='flag-5'>LeCun</b><b class='flag-5'>世界</b><b class='flag-5'>模型</b>首項(xiàng)<b class='flag-5'>研究</b>來(lái)了:<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>視覺(jué)</b>,已開(kāi)源

    基礎(chǔ)模型監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?

    大型語(yǔ)言模型如 ChatGPT 的成功彰顯了海量數(shù)據(jù)在捕捉語(yǔ)言模式和知識(shí)方面的巨大潛力,這也推動(dòng)了基于大量數(shù)據(jù)的視覺(jué)模型研究。在計(jì)算視覺(jué)領(lǐng)域
    的頭像 發(fā)表于 07-24 16:55 ?1461次閱讀
    基礎(chǔ)<b class='flag-5'>模型</b><b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>預(yù)訓(xùn)練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?
    华蓥市| 石柱| 报价| 太谷县| 怀集县| 石河子市| 荣昌县| 无棣县| 诸暨市| 盘锦市| 克什克腾旗| 临沂市| 铅山县| 龙川县| 景宁| 个旧市| 莎车县| 休宁县| 侯马市| 祥云县| 德阳市| 镇赉县| 东乡族自治县| 东阿县| 井研县| 宾川县| 高雄市| 蓬安县| 三台县| 洞口县| 吉木乃县| 嘉禾县| 石柱| 福贡县| 蓬安县| 永康市| 丰宁| 建始县| 绥芬河市| 湟中县| 利辛县|