日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI下個(gè)大突破之前奏:研究人員正在教大型語言模型

hl5C_deeptechch ? 來源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2022-07-10 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

GPT-3 自動(dòng)生成的語言竟然能和人類差不多,堪稱奇跡。但在很大程度上,GPT-3 也不過是個(gè)噱頭。判斷方法也很簡(jiǎn)單。若提問 GPT-3:羊是什么顏色?它會(huì)說 “白色 ”,還會(huì)說 “黑色 ”, 頻次一樣高。因?yàn)橛⒄Z里有 “black sheep”(黑羊,引申意為害群之馬)。

這就是語言模型的問題。只用文本訓(xùn)練語言模型,會(huì)導(dǎo)致模型缺乏常識(shí)。不過,為了改變這種狀況,北卡羅來納大學(xué)教堂山分校(下文簡(jiǎn)稱 UNC)的學(xué)者莫希特?班薩爾和其博士生譚昊研發(fā)了一種新技術(shù),研究人員稱其為為 “視覺監(jiān)督(vokenization)”,如此,GPT-3 等語言模型便能具備 “看 ” 的功能。

將語言模型與計(jì)算機(jī)視覺結(jié)合起來并不新鮮,該人工智能研究領(lǐng)域其實(shí)正在快速發(fā)展。出發(fā)點(diǎn)是這兩種類型都有不同的優(yōu)勢(shì)。GPT-3 等語言模型通過無監(jiān)督學(xué)習(xí)來訓(xùn)練,不需要人工進(jìn)行數(shù)據(jù)標(biāo)注,因此很容易開發(fā)出大型模型。而物體識(shí)別系統(tǒng)等圖像模型更多是在現(xiàn)實(shí)世界中學(xué)習(xí)。換句話說,圖像模型并不依賴文本所提供的抽象世界來理解世界。比如,圖像模型可以從羊的圖片中 “看到”,羊其實(shí)是白色的。

能夠同時(shí)解析語言和視覺輸入的人工智能模型用處很大。例如,機(jī)器人需要計(jì)算機(jī)視覺來導(dǎo)航,也需要語言來與人類交流,因此該模型能用于開發(fā)機(jī)器人。

但要結(jié)合這兩種類型,是說起來容易做起來難。并非把現(xiàn)有的語言模型與物體識(shí)別系統(tǒng)拼接在一起便大功告成,而是需要從頭開始訓(xùn)練新模型。所用數(shù)據(jù)集要包括文本和圖像,也就是所謂的視覺語言數(shù)據(jù)集。

要獲得這樣一個(gè)數(shù)據(jù)集,最常見的方法是做帶有描述性標(biāo)題的圖片集。例如,下面這張圖片的標(biāo)題設(shè)為 “一只橘貓臥在空行李箱里”。這樣的圖片集便和傳統(tǒng)圖片數(shù)據(jù)集不同。后者只用名詞來標(biāo)注圖片,比如給下面這張圖片只簡(jiǎn)單地命名為 “貓”。因此,視覺語言數(shù)據(jù)集不僅可以教人工智能模型如何識(shí)別對(duì)象,還可以教人工智能模型如何根據(jù)動(dòng)詞和介詞識(shí)別不同對(duì)象之間的相互關(guān)系。

但如此也意味著,創(chuàng)建數(shù)據(jù)集會(huì)耗費(fèi)很長(zhǎng)時(shí)間。因此,現(xiàn)有的視覺語言數(shù)據(jù)集太單薄了。而常用的純文本數(shù)據(jù)集則不同。如英語維基百科,包括了幾乎所有英語維基百科條目,有近 30 億個(gè)單詞。而視覺語言數(shù)據(jù)集 Microsoft Common Objects in Context(下文簡(jiǎn)稱 MS COCO)只包含 700 萬個(gè),根本不足以訓(xùn)練一個(gè)有用的 AI 模型。

有了視覺監(jiān)督,問題迎刃而解。視覺監(jiān)督使用無監(jiān)督學(xué)習(xí)方法,將 MS COCO 的數(shù)據(jù)規(guī)模擴(kuò)展到與英語維基百科相當(dāng)。視覺語言模型用規(guī)模化后的數(shù)據(jù)集訓(xùn)練后,研究人員使用了一些最難的 AI 語言理解能力測(cè)試對(duì)其進(jìn)行檢驗(yàn)。結(jié)果模型的表現(xiàn)甚至優(yōu)于當(dāng)今最先進(jìn)的模型。

自然語言處理初創(chuàng)公司 Hugging Face 的聯(lián)合創(chuàng)始人兼首席科學(xué)官托馬斯?沃爾夫說:“要在這些測(cè)試中擊敗最先進(jìn)的模型,得下大力氣。這些測(cè)試可不是兒戲。能有這樣的結(jié)果,真的讓人非常激動(dòng)。”

我們先理清一些術(shù)語。到底什么是 “voken”?

在人工智能領(lǐng)域,用來訓(xùn)練語言模型的詞稱為 token。UNC 研究人員便以 “voken”,來指代所用視覺語言模型中與任一 token 相關(guān)聯(lián)的圖像。用來匹配 token 和 voken 的算法稱為 vokenizer, 整個(gè)匹配過程稱為 “視覺監(jiān)督”。

說了這么多,主要是為了幫助大家理解視覺監(jiān)督的基本理念。UNC 研究人員沒有拿著圖像數(shù)據(jù)集來手動(dòng)編寫標(biāo)題,這耗時(shí)過長(zhǎng);他們選擇了使用語言數(shù)據(jù)集以及無監(jiān)督學(xué)習(xí)法,匹配每個(gè)單詞與相關(guān)圖像。如此便很容易規(guī)?;?。

此處的無監(jiān)督學(xué)習(xí)技術(shù)正是此項(xiàng)研究的貢獻(xiàn)。那么,究竟如何為每個(gè)單詞找到關(guān)聯(lián)圖像呢?

視覺監(jiān)督

先回到 GPT-3。GPT-3 所屬語言模型家族有 “變形金剛” 之稱。2017 年,該類模型首次面世,便是將無監(jiān)督學(xué)習(xí)應(yīng)用于自然語言處理取得的重大突破。變形金剛可以觀察單詞在上下文中的使用,再根據(jù)上下文創(chuàng)建每個(gè)單詞的數(shù)學(xué)表達(dá)式,即 “單詞嵌入”,以此來學(xué)習(xí)人類語言模式。例如,代表 “貓 ” 的嵌入可能會(huì)顯示,“喵 ” 和 “橙” 兩字周圍,“貓” 出現(xiàn)頻率高,但在 “吠 ” 或 “藍(lán)色 ” 周圍出現(xiàn)的頻率便較低。

因此,變形金剛猜單詞含義的準(zhǔn)確度較高,GPT-3 也因此能寫出仿佛由人所作的句子。變形金剛一定程度上依靠這些嵌入,學(xué)習(xí)如何將單詞組成句子、句子組成段落。

還有一種類似技術(shù)也可以用于處理圖像。這種技術(shù)不是通過掃描文本來尋找單詞使用規(guī)律,而是通過掃描圖像來尋找視覺規(guī)律。比如,該技術(shù)將貓出現(xiàn)在床上與出現(xiàn)在樹上的頻率制成表格,并利用這些上下文信息創(chuàng)建 “貓” 的嵌入。

UNC 研究人員認(rèn)為,處理 MS COCO 要同時(shí)使用這兩種嵌入技術(shù)。研究人員將圖像處理為視覺嵌入,將標(biāo)題處理為文字嵌入。而這些嵌入妙就妙在能在三維空間中繪制出來,完全可以看到嵌入之間的關(guān)系。如果某一視覺嵌入與某一單詞嵌入密切相關(guān),繪制出來后位置很接近。換句話說,理論上,代表貓的視覺嵌入應(yīng)該與代表貓的文字嵌入重合。

之后的工作也就水到渠成。一旦嵌入都繪制完畢、并相互比較和關(guān)聯(lián),就很容易開始匹配圖像(voken)與文字(token)。而且,由于圖像和單詞基于原嵌入進(jìn)行匹配,那么實(shí)際也在基于上下文進(jìn)行匹配。這樣,即便一個(gè)詞可能有多個(gè)不同含義也不必?fù)?dān)心,該技術(shù)能為單詞的每個(gè)含義找到對(duì)應(yīng) voken。

比如:

這是她的聯(lián)系方式 。 一些貓喜歡被人撫摸。

這兩個(gè)例子中的 token 都是 “contact” 一詞。但在第一個(gè)句子中,上下文表明 “contact” 是聯(lián)系的意思,所以 voken 是聯(lián)系圖標(biāo)。在第二個(gè)句子中,上下文表明這個(gè)詞有觸摸的意思,所以 voken 顯示的是一只被撫摸的貓。

這些利用 MS COCO 創(chuàng)建的視覺和單詞嵌入,便用來訓(xùn)練算法 vokenizer。

一旦經(jīng)過訓(xùn)練,vokenizer 就能夠在英語維基百科中找 token 的對(duì)應(yīng) voken。雖然該算法只為大約 40% 的 token 找到了 voken,并不完美,但英語維基百科可是有接近 30 億字。

有了新的數(shù)據(jù)集后,研究人員重新訓(xùn)練了 BERT 語言模型。BERT 是谷歌開發(fā)的開源變形金剛,比 GPT-3 還要早。然后,研究人員使用六個(gè)語言理解測(cè)試,測(cè)試改進(jìn)的 BERT。語言理解測(cè)試中有 SQuAD 斯坦?;卮饠?shù)據(jù)集,該測(cè)試要求模型回答基于文章的閱讀理解題;還有 SWAG 測(cè)試,該測(cè)試?yán)糜⒄Z語言的精妙處,檢測(cè)模型是否只是單純模仿和記憶。改進(jìn)的 BERT 在所有測(cè)試?yán)锉憩F(xiàn)都比原來更突出。沃爾夫說,這并不奇怪。

11 月 16 日到 18 日將舉辦自然語言處理實(shí)證方法會(huì)議。研究人員將在會(huì)議上展示視覺監(jiān)督新技術(shù)。雖然研究還處于早期階段,但沃爾夫認(rèn)為,從在視覺語言模型中利用無監(jiān)督學(xué)習(xí)方面看,這項(xiàng)工作是一項(xiàng)重要觀念突破。當(dāng)年,正是類似突破極大推動(dòng)了自然語言處理的發(fā)展。

沃爾夫說:“在自然語言處理領(lǐng)域,兩年多前便有了這一巨大突破,然后突然間自然語言處理領(lǐng)域有了很大發(fā)展,開始走在其他 AI 領(lǐng)域前面。但是把文字和其他事物聯(lián)系起來還是有很大障礙。就像機(jī)器人只能說話,但不會(huì)看、不會(huì)聽?!?/p>

“這篇論文則做到了將文字與另一種模式連接起來,而且效果更好,樹立了典范??梢韵胂螅绻堰@種非常強(qiáng)大的語言模型用到機(jī)器人上,也許能用到部分新技術(shù)。比如,用同樣的技術(shù)將機(jī)器人的感官和文本聯(lián)系起來?!?/p>

原文標(biāo)題:AI下個(gè)大突破之前奏:研究人員正在教大型語言模型 “看” 世界,進(jìn)而理解世界

文章出處:【微信公眾號(hào):DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器視覺
    +關(guān)注

    關(guān)注

    166

    文章

    4833

    瀏覽量

    126584
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41457

    瀏覽量

    302785
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50388

    瀏覽量

    267145

原文標(biāo)題:AI下個(gè)大突破之前奏:研究人員正在教大型語言模型 “看” 世界,進(jìn)而理解世界

文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI模型小龍蝦-OpenClaw-0基礎(chǔ)從入門到實(shí)戰(zhàn)

    在當(dāng)今的 AI 浪潮中,“大模型”似乎成了一個(gè)專屬于算法科學(xué)家和高級(jí)程序員的封閉游樂場(chǎng)。滿屏的 Tensor、梯度消失、注意力機(jī)制數(shù)學(xué)推導(dǎo),宛如一堵高聳的墻,將無數(shù)對(duì) AI 充滿熱情的零基礎(chǔ)愛好者
    發(fā)表于 05-06 16:04

    AI Ceph 分布式存儲(chǔ)教程資料大模型學(xué)習(xí)資料2026

    。如何構(gòu)建高性能、高吞吐、高可擴(kuò)展的 AI 分布式存儲(chǔ)系統(tǒng),已成為解鎖大模型基建能力的核心科技命題。這不僅關(guān)乎數(shù)據(jù)存得下、讀得快,更直接決定了 GPU 集群的利用率與模型訓(xùn)練的最終效率。 一、
    發(fā)表于 05-01 17:35

    NVIDIA 發(fā)布 Ising,全球首個(gè)開放量子 AI 模型加速實(shí)用量子計(jì)算機(jī)進(jìn)程

    NVIDIA Ising 在量子校準(zhǔn)和糾錯(cuò)領(lǐng)域?qū)崿F(xiàn)突破性性能提升,賦能研究人員和企業(yè)構(gòu)建可擴(kuò)展的高性能量子系統(tǒng) 新聞?wù)?· NVIDIA Ising 開放模型系列提供了全球最先進(jìn)的、基于
    的頭像 發(fā)表于 04-16 15:06 ?3.4w次閱讀
    NVIDIA 發(fā)布 Ising,全球首個(gè)開放量子 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>加速實(shí)用量子計(jì)算機(jī)進(jìn)程

    解讀大型語言模型的偏見

    在一項(xiàng)新的研究中,研究人員發(fā)現(xiàn)了LLM中某種偏見的根本原因,為更準(zhǔn)確、更可靠的AI系統(tǒng)鋪平了道路。研究表明,大型
    的頭像 發(fā)表于 04-15 14:44 ?763次閱讀
    解讀<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>的偏見

    模型 ai coding 比較

    序 我主要用途是 ai coding,從各種渠道獲取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    發(fā)表于 02-19 13:43

    AI基礎(chǔ)設(shè)施中部署大語言模型的三大舉措

    文:Gartner研究副總裁周玲中國企業(yè)機(jī)構(gòu)已逐步在生產(chǎn)環(huán)境中運(yùn)行或者計(jì)劃運(yùn)行大語言模型,但在AI基礎(chǔ)設(shè)施的生產(chǎn)部署與高效運(yùn)營方面仍面臨諸多挑戰(zhàn)。目前,中國正加速提升其生成式
    的頭像 發(fā)表于 02-09 16:28 ?578次閱讀
    在<b class='flag-5'>AI</b>基礎(chǔ)設(shè)施中部署大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的三大舉措

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個(gè)AI模型怎么搞,知識(shí)盲區(qū)
    發(fā)表于 10-14 07:14

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    2)滲透式AI的優(yōu)勢(shì) 5、大型多模態(tài)模型 多模態(tài)模型(LMM)可以被理解成大模型的更高級(jí)版本,不僅可以處理文本,還可以處理和理解多種類型的
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    和關(guān)聯(lián)性 AI驅(qū)動(dòng)科學(xué):研究和模擬人類思維和認(rèn)識(shí)過程。 本章節(jié)作者為我們講解了第五范式,介紹了科學(xué)發(fā)現(xiàn)的一般方法和流程等。一、科學(xué)發(fā)現(xiàn)的5個(gè)范式 第一范式:產(chǎn)生于公元1000年左右的阿拉伯世界和歐洲
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+內(nèi)容總覽

    章 具身智能芯片 第9章 從AI芯片到AGI芯片 圖2 各章重點(diǎn)及邏輯框架 該書可供AI和芯片領(lǐng)域的各層次人群閱讀,無論是學(xué)習(xí)者還是研究人員。 對(duì)于本人來說,讀這本書不但是為了豐富這方面的知識(shí),更主要的是為孩子讀研選擇一個(gè)有前
    發(fā)表于 09-05 15:10

    NVIDIA AI助力科學(xué)研究領(lǐng)域持續(xù)突破

    隨著 AI 技術(shù)的廣泛應(yīng)用,AI 正在成為科學(xué)研究的引擎。NVIDIA 作為重要的技術(shù)推手,持續(xù)驅(qū)動(dòng)著 AI 系統(tǒng)解鎖更多領(lǐng)域的科學(xué)
    的頭像 發(fā)表于 08-05 16:30 ?1351次閱讀

    【書籍評(píng)測(cè)活動(dòng)NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    的應(yīng)用。 對(duì)半導(dǎo)體芯片產(chǎn)業(yè)前沿技術(shù)的講解也緊密聯(lián)系產(chǎn)業(yè)實(shí)際,為技術(shù)從業(yè)者提供實(shí)踐指導(dǎo),同時(shí)為科研人員指明研究方向,為投資者提供產(chǎn)業(yè)發(fā)展洞察。 ▲精彩書摘 AI和芯片領(lǐng)域的研究人員、工
    發(fā)表于 07-28 13:54

    利用自壓縮實(shí)現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個(gè)直接且效果出人意料的解決方案是剪除那些對(duì)任務(wù)貢獻(xiàn)甚微的完整通道(channel)。我們?cè)缙诘?b class='flag-5'>研究提出了一種訓(xùn)練階段的方法——自壓
    的頭像 發(fā)表于 07-28 09:36 ?688次閱讀
    利用自壓縮實(shí)現(xiàn)<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    無刷直流電機(jī)雙閉環(huán)串級(jí)控制系統(tǒng)仿真研究

    Madlab進(jìn)行BLDC建模仿真的方法,并且也提出了很多的建模仿真方案。例如有研究人員提出采用節(jié)點(diǎn)電流法對(duì)電機(jī)控制系統(tǒng)進(jìn)行分析,通過列寫m函數(shù),建立BLDC控制系統(tǒng)真模型,這種方法實(shí)質(zhì)上是一種整體建模
    發(fā)表于 07-07 18:36
    宁都县| 焦作市| 松溪县| 玛沁县| 峨山| 建昌县| 岗巴县| 昂仁县| 临泽县| 通山县| 西吉县| 长岛县| 萍乡市| 兰溪市| 瑞金市| 慈利县| 临汾市| 黑山县| 准格尔旗| 阿城市| 手游| 台山市| 九台市| 唐山市| 肇庆市| 棋牌| 锦屏县| 连云港市| 华坪县| 江津市| 独山县| 宁安市| 彩票| 孙吴县| 郁南县| 涞源县| 麟游县| 城步| 安阳市| 积石山| 玉田县|