技術(shù)創(chuàng)新的步伐在過去一年大大加速,其中最引人注目的是 AI。2024 年,NVIDIA Research 實(shí)現(xiàn)了諸多無與倫比的重大突破。
NVIDIA Research 匯聚了數(shù)百名頂尖智慧精英,他們在 AI 等諸多前沿領(lǐng)域成為推動(dòng)技術(shù)發(fā)展的中流砥柱。
在過去的一年里,NVIDIA Research 在電路、內(nèi)存架構(gòu)和稀疏算法方面取得了豐碩的研究成果,為未來 GPU 性能的改進(jìn)奠定了堅(jiān)實(shí)的基礎(chǔ)。NVIDIA Research 團(tuán)隊(duì)發(fā)明了新穎的圖形技術(shù),繼續(xù)提升實(shí)時(shí)渲染的標(biāo)準(zhǔn)。此外,還開發(fā)了提高 AI 能效的新方法——降低能耗、占用更少的 GPU 周期并提供更優(yōu)的結(jié)果。
但今年最激動(dòng)人心的進(jìn)展都在生成式 AI 領(lǐng)域。
我們現(xiàn)在不僅可以生成圖像和文本,還可以生成 3D 模型、音樂和聲音。我們還開發(fā)了能夠以更好控制生成內(nèi)容的技術(shù):生成逼真的人形機(jī)器人運(yùn)動(dòng),以及生成一系列具有相同主題的圖像。
在科學(xué)領(lǐng)域,生成式 AI 的應(yīng)用能夠提供比傳統(tǒng)數(shù)值天氣模型更準(zhǔn)確的高分辨率天氣預(yù)報(bào)。AI 模型使我們能夠準(zhǔn)確地預(yù)測血糖水平對不同食物的反應(yīng)。具身生成式 AI 正被用于開發(fā)自動(dòng)駕駛汽車和機(jī)器人。
這些僅僅是 NVIDIA 在 2024 年取得的成就。下面,我們將深入介紹 NVIDIA Research 在生成式 AI 領(lǐng)域取得的最突出的成果。當(dāng)然,我們將繼續(xù)為 AI 開發(fā)新的模型和方法,并期望在 2025 年取得更令人興奮的成果。
ConsiStory
AI 生成多幅以同一主角
為主題的圖像
ConsiStory 由 NVIDIA 與特拉維夫大學(xué)的研究人員聯(lián)合開發(fā),能夠使多幅以同一主角為主題的圖像生成變得更加容易,這對于繪制連環(huán)畫或開發(fā)腳本等敘事型應(yīng)用場景來說至關(guān)重要。
研究人員開發(fā)出的這個(gè)方法引入了一種名為“主體驅(qū)動(dòng)的共享注意力”的技術(shù),可將生成同一主體圖像所需的時(shí)間從 13 分鐘縮短到 30 秒左右。
閱讀 ConsiStory 論文,可訪問:https://arxiv.org/abs/2402.03286
ConsiStory 能夠生成一系列以同一人物為主題的圖像
Edify 3D
生成式 AI 進(jìn)入新維度
NVIDIA Edify 3D 是一個(gè)基礎(chǔ)模型,它使開發(fā)人員和內(nèi)容創(chuàng)作者能夠快速地生成 3D 物體,并利用這些物體把想法變成原型以及填充虛擬世界。
Edify 3D 可以幫助創(chuàng)作者使用 AI 生成的資產(chǎn)來快速地構(gòu)思、布局和概念化沉浸式環(huán)境。無論是新手還是經(jīng)驗(yàn)豐富的內(nèi)容創(chuàng)作者,都可以通過文本和圖像提示來利用該模型。該模型現(xiàn)在是用于開發(fā)視覺生成式 AI 的 NVIDIA Edify 多模態(tài)架構(gòu)的一部分。
Fugatto
用于音樂、語音等的
靈活 AI 聲音機(jī)器
NVIDIA 的一個(gè)研究團(tuán)隊(duì)最近發(fā)布了 Fugatto。利用輸入的文本和音頻,這個(gè)基礎(chǔ)性生成式 AI 模型可以生成或轉(zhuǎn)換由任意的音樂、人聲和聲音所構(gòu)成的作品。
例如,它可以根據(jù)文本提示創(chuàng)作音樂片段、在現(xiàn)有歌曲中刪除或添加樂器、改變?nèi)寺暤目谝艋蚯榫w,甚至生成從未聽過的全新聲音。音樂制作人、廣告公司、視頻游戲開發(fā)者或語言學(xué)習(xí)工具的開發(fā)者都有望從中受益。
GluFormer
AI 可預(yù)測四年后的
血糖水平
AI 模型 GluFormer 由魏茲曼科學(xué)研究院、初創(chuàng)公司 Pheno.AI 和 NVIDIA 的研究人員共同主導(dǎo)開發(fā),它能夠根據(jù)過去的血糖監(jiān)測數(shù)據(jù),預(yù)測個(gè)人未來的血糖水平和其他健康指標(biāo)。
研究人員表示,在將飲食攝入數(shù)據(jù)添加到該模型中后,GluFormer 還能預(yù)測個(gè)人的血糖水平對特定食物和飲食變化的反應(yīng),實(shí)現(xiàn)精準(zhǔn)的營養(yǎng)管理。研究團(tuán)隊(duì)在其他 15 個(gè)數(shù)據(jù)集上對 GluFormer 進(jìn)行了驗(yàn)證,發(fā)現(xiàn)它能很好地預(yù)測其他群體的健康狀況,包括糖尿病前期、1 型和 2 型糖尿病、妊娠糖尿病以及肥胖癥。
LATTE3D
幾乎可以做到根據(jù)文字提示
即時(shí)生成 3D 形狀
NVIDIA Research 今年發(fā)布的另一個(gè) 3D 生成模型是 LATTE3D,它就像一臺(tái)高速的虛擬 3D 打印機(jī),能在 1 秒內(nèi)將文字提示轉(zhuǎn)換成 3D 表征。該模型生成的形狀采用標(biāo)準(zhǔn)渲染應(yīng)用中常用的格式,可輕松地服務(wù)于虛擬環(huán)境中,應(yīng)用在視頻游戲開發(fā)、營銷、設(shè)計(jì)項(xiàng)目或搭建機(jī)器人的虛擬訓(xùn)練場地。
MaskedMimic
重建人形機(jī)器人的
真實(shí)運(yùn)動(dòng)
為了推進(jìn)人形機(jī)器人的發(fā)展,NVIDIA 的研究人員發(fā)布了 MaskedMimic,這是一個(gè) AI 框架,它能夠?qū)D像修復(fù)技術(shù)(即從不完整或被遮蔽的視角重建完整數(shù)據(jù)的過程)應(yīng)用于運(yùn)動(dòng)描述中。
MaskedMimic 可以根據(jù)部分信息(例如運(yùn)動(dòng)的文字描述,或來自虛擬現(xiàn)實(shí)頭盔的頭部和手部位置數(shù)據(jù))補(bǔ)全信息以推斷全身運(yùn)動(dòng)。它已經(jīng)成為旨在加速人形機(jī)器人開發(fā)的研究項(xiàng)目 NVIDIA Project GR00T 的一部分。
StormCast
大大加強(qiáng)天氣預(yù)報(bào)、
氣候模擬
在氣候科學(xué)領(lǐng)域,NVIDIA Research 發(fā)布了 StormCast,這是一個(gè)用于模擬大氣動(dòng)力學(xué)的生成式 AI 模型。在全球數(shù)據(jù)上訓(xùn)練而成的其他機(jī)器學(xué)習(xí)模型的空間分辨率通常為 30 公里,時(shí)間分辨率為 6 小時(shí),而 StormCast 達(dá)到了 3 公里的空間分辨率和每小時(shí)的時(shí)間分辨率。
NVIDIA 研究人員利用來自來自美國中部的約三年半美國國家海洋和大氣管理局(NOAA)氣候數(shù)據(jù)對 StormCast 進(jìn)行了訓(xùn)練。當(dāng)與降水雷達(dá)配合使用時(shí),StormCast 能夠提供最多提前 6 小時(shí)的預(yù)報(bào),其準(zhǔn)確度比 NOAA 最先進(jìn)的 3 公里尺度區(qū)域天氣預(yù)報(bào)模型高出 10%。
閱讀與勞倫斯伯克利國家實(shí)驗(yàn)室和華盛頓大學(xué)的研究人員合作撰寫的 StormCast 論文,可訪問:https://arxiv.org/abs/2408.10958
NVIDIA Research 在 AI、自動(dòng)駕駛汽車、機(jī)器人領(lǐng)域創(chuàng)下多項(xiàng)新紀(jì)錄
整個(gè) 2024 年,源自 NVIDIA Research 的模型在 AI 訓(xùn)練和推理、路線優(yōu)化、自動(dòng)駕駛等領(lǐng)域的基準(zhǔn)測試中創(chuàng)下了多項(xiàng)新紀(jì)錄。
NVIDIA cuOpt 是一項(xiàng)用于物流改進(jìn)的優(yōu)化 AI 微服務(wù),在基準(zhǔn)測試中創(chuàng)造了 23 項(xiàng)世界紀(jì)錄。在針對 AI 訓(xùn)練和推理的 MLPerf 行業(yè)基準(zhǔn)測試中,NVIDIA Blackwell 平臺(tái)展現(xiàn)了世界級的性能。
在自動(dòng)駕駛汽車領(lǐng)域,NVIDIA Research 的端到端自動(dòng)駕駛模型 Hydra-MDP 在 CVPR 2024 自動(dòng)駕駛國際挑戰(zhàn)賽上獲得了“端到端自動(dòng)駕駛”賽道冠軍。
在機(jī)器人領(lǐng)域,F(xiàn)oundationPose(一個(gè)用于 6D 姿態(tài)估計(jì)和新物體跟蹤的統(tǒng)一基礎(chǔ)模型)在基于模型的不可見物體姿態(tài)估計(jì) BOP 排行榜上名列第一。
NVIDIA Research在全球擁有數(shù)百名科學(xué)家和工程師,專注于 AI、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、自動(dòng)駕駛汽車和機(jī)器人等領(lǐng)域的研究。點(diǎn)擊“閱讀原文”了解更多有關(guān) NVIDIA Research 的信息。
GTC 2025 將于2025 年 3 月 17 至 21 日在美國加州圣何塞及線上同步舉行。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
31511瀏覽量
223896 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5696瀏覽量
110144 -
AI
+關(guān)注
關(guān)注
91文章
41389瀏覽量
302753 -
生成式AI
+關(guān)注
關(guān)注
0文章
538瀏覽量
1135
原文標(biāo)題:NVIDIA 研究成果年度盤點(diǎn):AI 在 3D 模擬、氣候科學(xué)與音頻工程領(lǐng)域取得豐碩成果
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
纖納光電研究成果入選2025中國光學(xué)十大進(jìn)展
傳音相關(guān)研究成果入選計(jì)算機(jī)視覺頂會(huì)CVPR 2026
達(dá)明機(jī)器人攜最新成果亮相NVIDIA GTC 2026
西井科技攜手兩大高校研究團(tuán)隊(duì)發(fā)布自動(dòng)駕駛感知合作成果
ADI攜最新成果亮相NVIDIA GTC 2026
思特威于ISSCC 2026發(fā)表論文研究成果
西井科技攜手同濟(jì)大學(xué) 三篇AI研究成果入選頂會(huì)ICLR 2026
大華股份榮膺2025年度教育部科學(xué)研究優(yōu)秀成果獎(jiǎng)一等獎(jiǎng)
普華基礎(chǔ)軟件開源小滿入選2025中國汽車ESG案例研究成果
2026年NVIDIA研究生獎(jiǎng)學(xué)金名單公布
奧比中光3D視覺技術(shù)賦能IROS 2025研究成果
NVIDIA展示機(jī)器人領(lǐng)域的研究成果
Nullmax端到端自動(dòng)駕駛最新研究成果入選ICCV 2025
NVIDIA研究成果年度盤點(diǎn)
評論