日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPT-3引發(fā)公眾的遐想 能根據(jù)文字產(chǎn)生圖片的AI!

hl5C_deeptechch ? 來源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2020-10-09 18:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引發(fā)公眾的遐想。

雖然它可以僅憑很少的文本來輸出詩歌、短篇小說和歌曲,并且成功地讓人們相信這是人類的創(chuàng)作。但是,它在同人類對話時還是顯得非常“幼稚”??杀M管如此,技術人員依然認為,創(chuàng)造了 GPT-3 的技術可能是通往更高級 AI 的必經(jīng)之路。

GPT-3 使用大量文本數(shù)據(jù)進行了訓練,那么,假如同時使用文本和圖像數(shù)據(jù)進行訓練,會發(fā)生什么呢?

艾倫人工智能研究所(AI2)在這個問題上取得了進展,技術人員開發(fā)了一種新的視覺語言模型,可以根據(jù)給定的文本生成對應圖像。

不同于 GAN 所生成的超現(xiàn)實主義作品,AI2 生成的這些圖像看起來非常怪異,但它的確可能是一個實現(xiàn)通用人工智能的新路徑。

AI“做題家”

GPT-3 在分類上屬于 “Transformer” 模型,隨著 Google BERT 的成功,該模型開始流行。而在 BERT 之前,語言模型可用性不佳。

它們雖然具備一定的預測能力,但并不足以生成符合語法和常識的長句子。BERT 通過引入一種稱為 “masking(遮罩)” 的新技術,使模型這方面的能力得到了大幅加強。

模型會被要求完成類似下面的填空題:

這位女士去___鍛煉。

他們買了一個___面包做三明治。

這個想法初衷是,如果強迫模型進行數(shù)百萬次的這類練習,它是否可能學會如何將單詞組合成句子以及如何將句子組合成段落。測試結果表明,模型確實獲得了更好地生成和解釋文本的能力(Google 正在使用 BERT 幫助在其搜索引擎中提供更多相關的搜索結果)。

在證明遮罩行之有效之后,技術人員試圖通過將文本中的單詞隱藏,將其應用于視覺語言模型,例如:

一只站立在樹木旁的___。(來源:MIT TR)

通過數(shù)百萬次的訓練,它不僅可以發(fā)現(xiàn)單詞之間的組合模式,還可以發(fā)現(xiàn)單詞與圖像中元素之間的關聯(lián)。

這樣的結果就是模型擁有了將文字描述與視覺圖像相關聯(lián)的能力,就像人類的嬰兒可以在他們所學的單詞同所見事物之間建立聯(lián)系一樣。

舉個例子,當模型讀取到下面的圖片,便可以給出一個較為貼切標題,如 “打曲棍球的女人”?;蛘咚鼈兛梢曰卮鹬T如“球是什么顏色?” 之類的問題,因為模型可以將單詞 “球” 與圖像中的圓形物體關聯(lián)。

圖 | 女子曲棍球比賽 (來源:MIT TR)

一圖勝千言

技術人員想知道這些模型是否真的像嬰兒一樣 “學會” 了認識這個世界。

孩子不僅可以在看到圖像時聯(lián)想到單詞,還可以在看到單詞時在頭腦中浮現(xiàn)出對應的圖像,哪怕這個圖像是真實和想象的混合體。

技術人員嘗試讓模型做同樣的事情:根據(jù)文本生成圖像。然后模型吐出了無意義的像素圖案。

得到這樣的結果是有原因的,將文本轉換為圖像的任務相比其他要困難得多。AI2 的計算機視覺團隊負責人 Ani Kembhavi 說,文本并未指定圖像中包含的所有內容。因此,模型需要 “聯(lián)想” 許多現(xiàn)實世界的常識來填充細節(jié)。

例如,假設 AI 被要求繪制“在道路上行走的長頸鹿”,它需要推斷出這條道路更可能是灰色而不是粉色,并且更可能毗鄰草地而不是海洋——盡管這些信息都不明確。

因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 決定看看他們是否可以通過調整遮罩的方式,來教授 AI 所有這些隱式視覺知識。他們訓練模型不是為了從對應圖片中預測被遮蓋的單詞,而是為了讓它能從文本中 “腦補” 圖片中的缺失部分。

雖然模型最終生成的圖像并不完全真實,但這不是重點。重要的是這預示著模型已經(jīng)包含了正確的高級視覺概念,即 AI 一定程度上具備了兒童的根據(jù)文本畫圖的能力。

圖 | AI2 模型根據(jù)文本生成的圖像示例 (來源:MIT TR)

視覺語言模型獲得此類圖像生成的能力代表了 AI 研究的重要一步,這表明該模型實際上具有一定程度的抽象能力,而這是理解世界的基本技能。

未來,這項技術很可能對機器人領域產(chǎn)生極大影響。機器人可以使用語言進行交流,當它們對視覺信息的理解越好,就越能夠執(zhí)行復雜的任務。

Hajishirzi 說,從短期來看,這種可視化還可以幫助技術人員更好地理解 AI 模型的學習過程。之后,AI2 團隊計劃展開更多實驗,以提高圖像生成的質量,并拓寬模型的視覺和語言。

文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    41326

    瀏覽量

    302713
  • 人工智能
    +關注

    關注

    1821

    文章

    50367

    瀏覽量

    267060

原文標題:這些令人不安的照片,表明AI越來越聰明了!它正在學習根據(jù)文字生成圖片

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    GPT-5震撼發(fā)布:AI領域的重大飛躍

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)2025年8月8日凌晨1點,OpenAI以一場長達1小時的線上發(fā)布會正式推出GPT-5。這場被業(yè)界稱為“AI進化分水嶺”的發(fā)布,終結了長達兩年的技術猜測,更以多維度性能
    的頭像 發(fā)表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT</b>-5震撼發(fā)布:<b class='flag-5'>AI</b>領域的重大飛躍

    請教RTD GPT 配置問題

    ) RTD版本如下圖: 我在我的項目中包含一個 GPT。我希望它從 0 到 5000 計數(shù)并重新開始。我面臨的問題是似乎沒有辦法配置這個上限。這是一個 16 位計數(shù)器,SDK 配置器似乎不喜歡
    發(fā)表于 04-15 08:32

    AI,智造未來:愛發(fā)科電子半導體技術研討會暨SEMICON China 2026出展圓滿舉行

    大會論壇。在論壇上,愛發(fā)科中國市場總監(jiān)王禹發(fā)表演講,分享了針對AI+AR市場爆發(fā)式增長,愛發(fā)科在新型顯示領域打造的全鏈路解決方案。 賦AI
    的頭像 發(fā)表于 03-27 14:46 ?267次閱讀
    賦<b class='flag-5'>能</b><b class='flag-5'>AI</b>,智造未來:愛<b class='flag-5'>發(fā)</b>科電子半導體技術研討會暨SEMICON China 2026出展圓滿舉行

    Transformer 入門:從零理解 AI 大模型的核心原理

    AI 處理文本的最小單位,可以是詞或詞的一部分 嵌入向量 把文字變成數(shù)字的\"翻譯\"方式 注意力機制 讓詞\"看到\"其他詞,理解關系 Q/K/V 查詢/鍵
    發(fā)表于 02-10 16:33

    腦海里AI8051U數(shù)據(jù)級聯(lián)的過程

    區(qū)分 3 個設備(設備 1=P2.0、設備 2=P2.1、設備 3=P2.2);文字顯示 / 音樂播放依賴基礎硬件(串口、蜂鳴器 P1.0),AI 對話簡化為串口交互(實際需外接
    發(fā)表于 01-24 06:49

    2025年東軟集團在AI醫(yī)療領域實現(xiàn)系統(tǒng)性跨越

    2025年,AI不再懸浮于“技術遐想”,而是深深扎根于“產(chǎn)業(yè)泥土”。這一年,AI與醫(yī)療的融合真正走向了場景深處——它開始聽懂醫(yī)生的嘆息,理順門診的擁堵,賦遠方的診療。
    的頭像 發(fā)表于 01-15 14:18 ?845次閱讀

    日均省電超82萬度!事關AI服務器GaN電源模塊

    !因此GaN技術變得十分重要。 一、AI大模型耗電量驚人,GaN技術成省電關鍵 這可不是在危言聳聽。以著名的OpenAI為例:其GPT-3級別模型單次訓練的耗電量約為128.7萬度,相當于300戶美國家庭一年的用電量;GPT-4
    的頭像 發(fā)表于 12-08 10:46 ?888次閱讀
    日均省電超82萬度!事關<b class='flag-5'>AI</b>服務器GaN電源模塊

    GPT-5.1發(fā)布 OpenAI開始拼情商

    -5.1 Thinking:高級推理模型,在簡單任務上更快,在復雜任務上更持久,也更容易理解。 對于新上線的GPT-5.1大模型,OpenAI?官方表示出色的 AI 不僅是要夠聰明,還要讓人與之對
    的頭像 發(fā)表于 11-13 15:49 ?844次閱讀

    AI6G與衛(wèi)星通信:開啟智能天網(wǎng)新時代

    的自主軌道調整和任務分配。當檢測到某區(qū)域有緊急通信需求時,AI系統(tǒng)自動調整衛(wèi)星姿態(tài),將更多資源分配給該區(qū)域,無需地面人員干預。 AI還能根據(jù)衛(wèi)星健康狀況和環(huán)境條件,自主決定是否執(zhí)行某
    發(fā)表于 10-11 16:01

    【RA4M2-SENSOR】3、使用GPT定時器-PWM輸出

    ,這方面知識非常值得深入了解。 GPT 模塊可用于計數(shù)事件、測量外部輸入信號、作為通用計時器并產(chǎn)生周期性中斷、以及輸出周期性或 PWM 信號到 GTIOC 引腳。 GPT 也可用于輸出單個脈沖,但是注意
    發(fā)表于 09-01 15:20

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    圖像的快速鑒別,滿足實時或準實時的應用需求。 3. 數(shù)據(jù)采集 AI圖片數(shù)據(jù)集,本項目使用gemini生成圖片,使用的是gem來實現(xiàn)的。 提示詞如下 你是一個能夠生成美術繪本風格插畫的智
    發(fā)表于 08-21 13:59

    HarmonyOS AI輔助編程工具(CodeGenie)概述

    DevEco AI輔助編程工具(CodeGenie)基于BitFun Platform AI能力平臺,為開發(fā)者提供高效的應用與服務AI編程支持,支持智能知識問答,同時支持ArkTS代碼生成和萬
    發(fā)表于 08-11 14:31

    關于鴻蒙App上架中“AI文本生成模塊的資質證明文件”的情況說明

    的內容(不管是圖片文字還是視頻)以及AI生成的內容(也不管是什么形式),都要進行審核功能,不能有違法違規(guī)信息,會進行現(xiàn)場測試,但是測試標準為止,對我的項目的測試……就是在生成的內容上加上了“買違禁物品
    發(fā)表于 06-30 18:37

    端側OCR文字識別實現(xiàn) -- Core Vision Kit ##HarmonyOS SDK AI##

    獲取圖片url,把這個url和token再發(fā)給百度的ocr接口獲取識別數(shù)據(jù)……或者圖片轉base64以后把這個base64發(fā)給接口,然而鴻蒙這里,目前我也不知道啥原因(可能是發(fā)送請求的數(shù)據(jù)長度有限
    發(fā)表于 06-30 18:07

    鴻蒙5開發(fā)寶藏案例分享---AI輔助圖文內容高效編創(chuàng)

    自動摳圖 圖片文字智能識別 HDR Vivid高清渲染 無縫接續(xù)編輯 編輯內容實時同步多設備 分布式文件系統(tǒng)自動同步素材 三、關鍵功能實現(xiàn)詳解 1. AI圖片處理(OCR+摳圖) //
    發(fā)表于 06-12 11:40
    丹东市| 基隆市| 普安县| 镇雄县| 苏尼特左旗| 高要市| 定日县| 安顺市| 文昌市| 隆安县| 常州市| 改则县| 子长县| 辽阳市| 高唐县| 新龙县| 岑巩县| 酉阳| 长宁区| 丘北县| 土默特左旗| 宜章县| 宁阳县| 东源县| 都昌县| 西乌| 循化| 湛江市| 津市市| 从化市| 舟曲县| 区。| 盈江县| 皋兰县| 洛浦县| 平阳县| 沛县| 买车| 蚌埠市| 工布江达县| 洛隆县|