日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Vokenization是一種比GPT-3更智能的視覺語言模型

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2020-11-18 10:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

學(xué)習(xí)人工智能,最好的辦法就是先考上大學(xué),學(xué)好計(jì)算機(jī)和數(shù)學(xué),其次就是生個孩子。這可不是一個段子。有了孩子之后,你會能更好理解人工智能到底是如何發(fā)生的。看著一個牙牙學(xué)語的小嬰兒開始對這個世界發(fā)生好奇,終于有一天開始指著一個毛茸茸的東西叫出“貓咪”的時候,你可能就會理解教會一個孩子說話并不比教會人工智能認(rèn)出一只貓更容易。

人工智能靠大量的算力和數(shù)據(jù),而人類靠著五感,還有我們那個低功率的大腦。不過,很快你就會對小孩子的學(xué)習(xí)能力驚訝不已,他會指著各種他不認(rèn)識的東西問你“這是什么”,直到你不勝其煩。等到再長大一些,小孩子就不會滿足于僅僅知道這些東西的名字,開始想你發(fā)問“為什么會這樣”,再次把你問到山窮水盡。

我們知道,現(xiàn)在人工智能領(lǐng)域,圖像識別和自然語言處理(NLP)正處在如日中天的發(fā)展階段。在眾多單項(xiàng)上面,圖像識別的能力要遠(yuǎn)遠(yuǎn)高于普通人,甚至比專家還好,NLP的翻譯、聽讀、寫作能力更是與專業(yè)人士不相上下,特別今年推出的GPT-3,更是以超大參數(shù)規(guī)模這種氪金方式來實(shí)現(xiàn)逆天的寫作能力。

但這又怎樣?盡管GPT-3可以編造出一大段看起來很真實(shí)的假新聞,但它仍然是靠著過去的文本經(jīng)驗(yàn)來認(rèn)知世界的,它會在很多常識性的問題上犯下低級錯誤,比如在回答“太陽有幾只眼睛”的反常識問題上,GPT-3照樣一本正經(jīng)的給出“太陽有一只眼睛”的答案。如果是一個人第一次碰到這種問題,它往往并不是從文本里找答案,而是真的會去看一眼太陽的。而這正是我們?nèi)祟愓莆照Z言、傳遞信息最常見的一種方式。

受此啟發(fā),最近北卡羅來納大學(xué)教堂山分校的研究人員設(shè)計(jì)了一種新的AI模型來改變GPT-3的這種缺陷,他們把這一技術(shù)稱之為“Vokenization”,可以賦予像GPT-3這樣的語言模型以“看”的能力。這個思路很好理解,我們從來不是靠一種方式來認(rèn)識世界的,而把語言處理和機(jī)器視覺聯(lián)系起來,才能更好地讓人工智能來接近人的認(rèn)識能力。那么這種“Voken”技術(shù)到底好不好用,正是本文要重點(diǎn)介紹的。

無所不能的GPT-3,卻“不知道自己在說什么”

今年5月份正式出道的GPT-3,一度成為“無所不能”的代名詞,OpenAI推出的這個第三代NLP語言模型,包含1750億個參數(shù),采用了英文維基百科、數(shù)字化圖書、互聯(lián)網(wǎng)網(wǎng)頁等超大規(guī)模語料進(jìn)行訓(xùn)練,是現(xiàn)有的規(guī)模最大、也最復(fù)雜的語言模型。從GPT-3對外API接口開放之后,研究者就從GPT03的強(qiáng)大文本生成能力中挖掘出層出不窮的應(yīng)用,從答題、寫小說、編新聞到寫代碼、做圖表等等。但GPT-3也印證了“出道即巔峰”這句話,也是從一開始就爭議不斷。人們對其實(shí)際的應(yīng)用前景表示極大的懷疑。

我們復(fù)習(xí)下GPT-3的作用原理。GPT-3采用的是少示例(Few-shot)學(xué)習(xí)的方式,對于一個特定的語言任務(wù),只需要給定任務(wù)描述,并給出幾個從輸入到輸出的映射示例,甚至只是給出一個開頭的文本,GPT-3就可以根據(jù)前景預(yù)設(shè)自動生成相關(guān)下文,以此來完成對話、答題、翻譯和簡單的數(shù)學(xué)計(jì)算等任務(wù)。GPT-3的優(yōu)勢就在于預(yù)訓(xùn)練模型不需要使用大量標(biāo)記的訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào),這種便利性為普通人進(jìn)行相關(guān)語言任務(wù)的使用上消除了障礙。

盡管GPT-3在很多領(lǐng)域的表現(xiàn)都令人折服,文本的質(zhì)量高到能騙過大多數(shù)人類(無法分辨到底是機(jī)器寫的還是人類寫的),但是GPT-3本身的缺陷仍然非常明顯。事實(shí)上,GPT-3的訓(xùn)練方式?jīng)Q定了它并不是真正理解“語義”,而是能夠基于龐大的語料數(shù)據(jù),進(jìn)行海量搜索,匹配相應(yīng)的答案。在這一過程中,GPT-3只是通過純粹統(tǒng)計(jì)學(xué)的方法“建立起聯(lián)系”,但是并沒有真正理解語義。比如在一個幫助患者減輕焦慮情緒的問答中,“患者”表示感覺很糟,想要自殺的時候,GPT-3直接回復(fù)了“你可以”。

GPT-3的問題就像是上世紀(jì)80年代John Searle提出的“中文屋實(shí)驗(yàn)”里的那個并不懂中文的翻譯者,GPT-3也只是手握著一本“無所不知”的百科全書,但是它并不清楚這個世界運(yùn)行的真實(shí)邏輯,更無法解決具體場景下的具體情況。之前,紐約大學(xué)的兩位教授就聯(lián)名指出人們對GPT-3作用的高估,在《傲慢自大的 GPT-3:自己都不知道自己在說什么》里提到,它(GPT-3)本身并不具有 “革命性” 的變化,也不能真正理解語義,如果某項(xiàng)工作的 “結(jié)果” 非常重要,那么你不能完全信任人工智能。

簡單來說就是,人工智能如果想要突破文本的統(tǒng)計(jì)意義而理解語義,那就必須要將文本和現(xiàn)實(shí)世界建立起聯(lián)系。顯然,這一點(diǎn)GPT-3還不能做到。為了能夠讓語言文本和實(shí)際的世界建立起聯(lián)系,研究人員決定將語言模型和機(jī)器視覺結(jié)合起來,研究者們需要用一個包含文本和圖像的數(shù)據(jù)集從頭開始訓(xùn)練一個新模型,這就是被稱作“Vokenization”的視覺語言數(shù)據(jù)集模型。

Vokenization:如何成為既好用又夠用的數(shù)據(jù)集

我們首先如何來理解這兩種模型的差異呢?如果你問一下GPT-3這樣一個問題,“綿羊是什么顏色?”它的回答中出現(xiàn)“黑色”的可能和“白色”一樣多,因?yàn)樗茉诖罅课谋局锌吹健癇lack Sheep”(害群之馬)這個詞。而如果你問一個圖像識別模型,它就不會從抽象的文本中學(xué)習(xí),而是更直接從現(xiàn)實(shí)的圖像中學(xué)習(xí),指出“這是一只白色綿羊”,而“這是一只黑色綿羊”。

我們既需要一個知識特別豐富的機(jī)器人,也需要一個能夠看懂現(xiàn)實(shí)狀況的機(jī)器人,只有把二者結(jié)合起來,才是人工智能更接近和人類交流合作的樣子。但這個過程并不那么容易實(shí)現(xiàn)。實(shí)際上,我們常用的圖像描述是不適用的。比如下面這張圖,通常的描述,只能識別出物體“貓”,或者和貓常常一起出現(xiàn)的局部事物“水杯、毛線球、盒子和貓爪”,并沒有描述出這只貓的狀態(tài)和相互關(guān)系。

相比單純的對象標(biāo)注,Vokenization視覺語言數(shù)據(jù)集就需要對圖像進(jìn)行一組帶有描述性標(biāo)題的編輯。例如,下圖的標(biāo)題會是“一只坐在正在打包的行李箱中的橙色的貓”,這和典型的圖像數(shù)據(jù)集不同,它不僅是用一個名詞(例如:貓)來標(biāo)記主要對象,而是給AI模型標(biāo)注出了如何使用動詞和介詞的相互關(guān)聯(lián)和作用。

但是這類視覺語言數(shù)據(jù)集的缺陷在于其數(shù)量實(shí)在太少,數(shù)據(jù)的生成和管理過程太久,相比較維基百科這種純文本包含近30億個單詞,這僅僅只占GPT-3數(shù)據(jù)集的0.6%的這樣的規(guī)模相比,像微軟的MS COCO(上下文通用對象)這樣的可視化語言數(shù)據(jù)集才包含700萬個數(shù)據(jù),對于訓(xùn)練一個成熟的AI模型來說顯然是不夠的。

“Vokenization”的出現(xiàn)就是要解決這個問題。像GPT-3是通過無監(jiān)督學(xué)習(xí)來訓(xùn)練的,這不需要手動標(biāo)記數(shù)據(jù),才使它極易去擴(kuò)展規(guī)模。Vokenization也采用了無監(jiān)督的學(xué)習(xí)方法,將MS COCO中的小數(shù)據(jù)量增加到英文維基百科的級別。解決了數(shù)據(jù)源的數(shù)量差異問題,Vokenination還要面臨第二個挑戰(zhàn),就是解決視覺監(jiān)督和自然語言文本之間的聯(lián)接問題。

Voken代替Token:讓文本“看懂”世界

一般來看,自然語言中的詞匯中很大一部分是沒有視覺特征的,這為視覺監(jiān)督提出了主要的挑戰(zhàn)。我們知道,在AI訓(xùn)練語言模型中的單詞被稱之為Token(標(biāo)記),而研究人員則把視覺語言模型中與每個Token相關(guān)的圖像稱之為Voken。而Vokenizer就代表為一個Token尋找一個Voken的算法,Vokenization就代表整個算法模型實(shí)現(xiàn)的過程。

Vokenization的過程,就不是從圖像數(shù)據(jù)集開始為圖像標(biāo)注標(biāo)題,而是從一個語言數(shù)據(jù)集開始,采用無監(jiān)督學(xué)習(xí)的方式,將每個單詞與圖像進(jìn)行匹配,實(shí)現(xiàn)一個高擴(kuò)展性,這就是解決第一個挑戰(zhàn)的具體思路。與此同時,研究者還要解決第二個挑戰(zhàn)的單詞和圖像的關(guān)聯(lián)性問題。

GPT-3使用的是“單詞嵌入”的方式,基于上下文來創(chuàng)建每個單詞的數(shù)學(xué)表示,然后依賴這些嵌入把單詞變成句子,把句子組合成段落。Vokenization采取了一種并行的嵌入技術(shù)用于掃描圖像的視覺模式。研究者舉的一個案例是,將貓出現(xiàn)在床上的頻率和出現(xiàn)在樹上的頻率繪制成一個表格,并用這些信息創(chuàng)建一只“貓”的Voken。

研究者就在MS COCO數(shù)據(jù)集上同時采用了兩種嵌入技術(shù),把圖像轉(zhuǎn)換成視覺嵌入,把字幕轉(zhuǎn)換成文字嵌入。這樣做的優(yōu)勢之處在于,這兩種嵌入可以在一個三維空間中繪制出來,并看到文字嵌入和視覺嵌入在圖形中的相互關(guān)聯(lián),一只“貓”的視覺嵌入應(yīng)該會和文本中的“貓”的嵌入相重疊。這能夠解決什么問題呢?這給文本Token提供了一種圖像化的Voken匹配,使得它能夠有更加情景化的表示,對于一個抽象的詞來說,也可以根據(jù)不同的上下文情境,具有了完全不同的意思。

比如,“Contact”這個詞,在下圖左側(cè)的Voken的匹配下,它就代表“聯(lián)系信息”的意思,在下圖右側(cè)的Voken的匹配下,就代表了“撫摸一只貓”的意思。說到這里,我們大概就能理解Voken的作用。當(dāng)GPT-3模型對于一些文本概念無法準(zhǔn)確理解其語境和相應(yīng)語義的時候,它就容易開始自我發(fā)揮,胡言亂語,而一旦通過給這個Token找到圖像化的Voken實(shí)例,就可以真正理解這個詞的實(shí)際涵義。

現(xiàn)在,研究人員通過在MS COCO中創(chuàng)建的視覺和單詞嵌入方法來訓(xùn)練Vokenizer算法,在英語維基百科中已經(jīng)為40%的Token找到了Voken,盡管不到一半,但至少是30億單詞的數(shù)據(jù)集中的40%。基于這一數(shù)據(jù)集,研究人員重新訓(xùn)練了谷歌開發(fā)的BERT模型,并且在6種不同的語言理解的測試中測試了這一新模型,結(jié)果顯示改進(jìn)后的BERT在幾個測試方面都表現(xiàn)良好。

Vokenization現(xiàn)在還只是處在研究階段,我們也只能從其論文的結(jié)果中窺探這一模型的效果,至于這項(xiàng)新的視覺語言化技術(shù)的應(yīng)用和展示,還有待后面我們進(jìn)一步追蹤觀察。不敢怎樣,在無監(jiān)督學(xué)習(xí)幫助下的視覺語言模型,成為NLP領(lǐng)域剛剛閃現(xiàn)的一朵火花,為自然語言處理打開了新的思路,使得純粹的文本訓(xùn)練開始和圖像識別聯(lián)系起來。這就像讓一個博聞強(qiáng)記的機(jī)器人從“自顧自說話”,變得可以聽見和看見外界的真實(shí)狀況,能夠成為那個“睜開眼睛看世界”的人工智能。

最后,讓我們重溫一個經(jīng)典的場景,在海倫凱勒的自傳中,她描述了自己如何學(xué)會“Water”這個單詞的含義。又盲又聾的海倫總是搞混“杯子”和“水”的指代,直到她的老師沙利文女士帶著她來到噴池邊,一邊感受著清涼的泉水,一邊感受著沙利文在她手心寫下的“Water”,她這才終于明白了“水”的真實(shí)指代和含義。用她的話說“不知怎么回事,語言的秘密突然被揭開了,我終于知道水就是流過我手心的一種物質(zhì)。這個叫“水”的字喚醒了我的靈魂……”

幸好,人類在失去光明和聽覺之后,僅能通過觸覺還能理解語言的奧秘,那么對于人工智能來說,擁有了強(qiáng)大的圖像識別能力,又有近乎無限的文本知識,那么,未來AI將能否通向一條具有像人類在日常經(jīng)驗(yàn)中學(xué)習(xí)的常識之路嗎?

fqj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50403

    瀏覽量

    267275
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23347
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    GPT-5震撼發(fā)布:AI領(lǐng)域的重大飛躍

    躍升重新定義了人工智能的能力邊界。OpenAI首席執(zhí)行官山姆·奧特曼在發(fā)布會上直言:“這不僅是模型的升級,更是通往通用人工智能(AGI)的關(guān)鍵里程碑?!?? ? GPT-5:集成
    的頭像 發(fā)表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT</b>-5震撼發(fā)布:AI領(lǐng)域的重大飛躍

    《多模態(tài)大模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第季》精品課程簡介

    的關(guān)鍵區(qū)域。例如在視覺問答任務(wù)中,模型會根據(jù)問題中的\"顏色\"詞,重點(diǎn)關(guān)注圖像中物體的顏色特征。 3. 模態(tài)融合:協(xié)同決策的關(guān)鍵 融合策略直接影響
    發(fā)表于 05-01 17:46

    人工智能多模態(tài)與視覺模型開發(fā)實(shí)戰(zhàn) - 2026必會

    視覺模型特訓(xùn):從原理到部署站式學(xué)會 在科技飛速發(fā)展的當(dāng)下,視覺模型已成為人工智能領(lǐng)域的
    發(fā)表于 04-15 16:06

    九天菜菜大模型agent智能體開發(fā)實(shí)戰(zhàn)2026月班

    架構(gòu)層面來看,大模型 Agent 猶如個精密協(xié)作的智能系統(tǒng)。其“大腦”由大模型擔(dān)當(dāng),憑借強(qiáng)大的語言理解和生成能力,能夠精準(zhǔn)把握用戶意圖,進(jìn)
    發(fā)表于 04-15 16:04

    一種可跨不同領(lǐng)域的異常檢測通用模型UniOD介紹

    本研究提出了一種可跨不同領(lǐng)域、適用于特征維度各異且特征空間異構(gòu)的數(shù)據(jù)集的異常檢測通用模型
    的頭像 發(fā)表于 03-18 09:09 ?600次閱讀
    <b class='flag-5'>一種</b>可跨不同領(lǐng)域的異常檢測通用<b class='flag-5'>模型</b>UniOD介紹

    眾智FlagOS適配面壁智能開源全模態(tài)大模型MiniCPM-o 4.5

    2月3日,面壁智能正式發(fā)布并開源了集語言、視覺、語音于體的全模態(tài)大模型 MiniCPM-o 4
    的頭像 發(fā)表于 02-09 14:45 ?1046次閱讀
    眾智FlagOS適配面壁<b class='flag-5'>智能</b>開源全模態(tài)大<b class='flag-5'>模型</b>MiniCPM-o 4.5

    什么是大模型,智能體...?大模型100問,快速全面了解!

    、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達(dá)到數(shù)十億甚至萬億級別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大
    的頭像 發(fā)表于 02-02 16:36 ?1160次閱讀
    什么是大<b class='flag-5'>模型</b>,<b class='flag-5'>智能</b>體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    上海交大發(fā)布國產(chǎn)光學(xué)大模型Optics GPT

    電子發(fā)燒友網(wǎng)綜合報道 1月25日,上海交通大學(xué)正式推出光學(xué)領(lǐng)域垂直大語言模型——Optics GPT(光學(xué)大模型),這是款完全自主研發(fā)的國
    的頭像 發(fā)表于 01-26 09:59 ?2268次閱讀
    上海交大發(fā)布國產(chǎn)光學(xué)大<b class='flag-5'>模型</b>Optics <b class='flag-5'>GPT</b>

    VLA與世界模型有什么不同?

    Language Action,VLA),另些則致力于構(gòu)建并應(yīng)用世界模型(World Model)。這兩路徑有什么不同? 什么是VLA,什么是世界模型 先說說VLA。VLA是英文
    的頭像 發(fā)表于 12-17 09:13 ?931次閱讀
    VLA與世界<b class='flag-5'>模型</b>有什么不同?

    GPT-5.1發(fā)布 OpenAI開始拼情商

    問題。 Sam Altman 發(fā)文稱GPT-5.1是次不錯的模型升級。 GPT-5.1 Instant:ChatGPT 最常用的模型,
    的頭像 發(fā)表于 11-13 15:49 ?860次閱讀

    中光領(lǐng)跑韓國機(jī)器人3D視覺市場

    近日,國際權(quán)威行業(yè)研究機(jī)構(gòu)Interact Analysis發(fā)布《韓國商用及工業(yè)移動機(jī)器人3D視覺市場分析》報告(以下簡稱“報告”)。數(shù)據(jù)顯示,奧中光在韓國商用和工業(yè)移動機(jī)器人3D
    的頭像 發(fā)表于 10-23 16:27 ?917次閱讀

    【RA4M2-SENSOR】3、使用GPT定時器-PWM輸出

    GPT介紹 通用 PWM 定時器(GPT,General PWM Timer)是 RA MCU 的其中一種 32/16 位的定時器外設(shè)。 在 GPT 當(dāng)中,可分為
    發(fā)表于 09-01 15:20

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬TPS推理

    Token (TPS)。 這兩個 gpt-oss 模型是具有鏈?zhǔn)剿季S和工具調(diào)用能力的文本推理大語言模型 (LLM),采用了廣受歡迎的混合專家模型
    的頭像 發(fā)表于 08-15 20:34 ?2555次閱讀
    NVIDIA從云到邊緣加速OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,實(shí)現(xiàn)150萬TPS推理

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價向美國政府提供ChatGPT

    外界直在期待的OpenAI新代大語言模型GPT-5或?qū)l(fā)布。據(jù)外媒的報道,GPT-5很可能在
    的頭像 發(fā)表于 08-07 14:13 ?1.6w次閱讀

    【HZ-T536開發(fā)板免費(fèi)體驗(yàn)】3 - Cangjie Magic調(diào)用視覺語言模型(VLM)真香,是不是可以沒有YOLO和OCR了?

    的目標(biāo)就是類似前幾天測試Milk-V Duo S所做的識別車牌號,我們會看到VLM做這個工作簡直易如反掌。 編寫視覺語言模型(VLM)程序 視覺
    發(fā)表于 08-01 22:15
    万州区| 铅山县| 康乐县| 安平县| 潍坊市| 沙雅县| 松溪县| 汨罗市| 平安县| 偃师市| 惠州市| 北流市| 仙居县| 调兵山市| 蒙山县| 漠河县| 绿春县| 绥芬河市| 维西| 大化| 开鲁县| 高雄县| 青龙| 星座| 石首市| 葫芦岛市| 咸丰县| 泗阳县| 博白县| 遂宁市| 铁岭市| 吉安市| 汝城县| 牡丹江市| 东乡| 阳春市| 和顺县| 拜泉县| 苏尼特右旗| 萍乡市| 津南区|