日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA英偉達(dá) ? 來源:NVIDIA英偉達(dá) ? 2024-11-27 11:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA 開發(fā)了一個(gè)全新的生成式 AI 模型。利用輸入的文本和音頻,該模型可以創(chuàng)作出包含任意的音樂、人聲和聲音組合的作品。

一個(gè)生成式 AI 研究團(tuán)隊(duì)創(chuàng)造了一把如同瑞士軍刀般多功能的聲音工具,支持用戶只需使用文本就能控制輸出的音頻。

雖然一些 AI 模型可以譜曲或修音,但沒有一個(gè)能在靈活性上媲美這個(gè)新模型。

根據(jù)由任意的文本和音頻文件組合所構(gòu)成的提示詞,這個(gè)名為 Fugatto(Foundational Generative Audio Transformer Opus 1 的縮寫)的模型,可以生成或轉(zhuǎn)換由任意的音樂、人聲和聲音所構(gòu)成的作品。

例如,它可以根據(jù)文本提示創(chuàng)作音樂片段、在現(xiàn)有歌曲中刪除或添加樂器、改變?nèi)寺暤目谝艋蚯榫w,甚至讓人們發(fā)出從未聽過的聲音。

One Take Audio 公司是 NVIDIA 初創(chuàng)加速計(jì)劃的成員。該公司的聯(lián)合創(chuàng)始人、曾推出過多張白金唱片的制作人兼詞曲創(chuàng)作人 Ido Zmishlany 表示:“這太瘋狂了!聲音是我的靈感源泉,是我創(chuàng)作音樂的原動(dòng)力。我可以在錄音室里隨心所欲地創(chuàng)造出全新的聲音,這完全突破了人們的想象?!?/p>

準(zhǔn)確掌控音頻

NVIDIA 應(yīng)用音頻研究經(jīng)理 Rafael Valle 表示:“我們希望創(chuàng)建一個(gè)能夠像人類一樣理解和創(chuàng)作聲音的模型?!盧afael Valle 是 Fugatto 背后的十幾個(gè)開發(fā)者之一,同時(shí)也是一位管弦樂指揮家和作曲家。

Fugatto 可支持眾多音頻生成和轉(zhuǎn)換任務(wù),是首個(gè)展現(xiàn)了新能力(即各種經(jīng)過訓(xùn)練的能力相互作用所產(chǎn)生的新能力)并能夠整合自由格式指令的基礎(chǔ)性生成式 AI 模型。

Valle 說:“Fugatto 是我們邁向未來的第一步。未來,音頻合成與轉(zhuǎn)換中的無監(jiān)督多任務(wù)學(xué)習(xí)將從數(shù)據(jù)和模型規(guī)模中產(chǎn)生。”

使用場(chǎng)景示例

例如,音樂制作人可以使用 Fugatto 來快速地制作歌曲原型或編輯歌曲創(chuàng)意,嘗試不同的風(fēng)格、人聲和樂器。他們還可以添加音效,提高現(xiàn)有曲目的整體音質(zhì)。

Zmishlany 說:“音樂發(fā)展史也是一部技術(shù)發(fā)展史。電吉他為我們帶來了搖滾樂。采樣器的出現(xiàn)催生了嘻哈音樂。AI 正在開啟音樂的新篇章。這個(gè)新的音樂創(chuàng)作工具令人超級(jí)興奮?!?/p>

廣告公司可以使用 Fugatto,針對(duì)多個(gè)地區(qū)或多種情形快速地修改現(xiàn)有的營(yíng)銷活動(dòng)素材,在配音中采用不同的口音和情感。

通過使用說話者所選擇的任何人聲,語言學(xué)習(xí)工具可以實(shí)現(xiàn)個(gè)性化。試想一下,在線課程以某個(gè)家庭成員或朋友的特定聲音進(jìn)行。

電子游戲開發(fā)人員可以使用該模型來修改游戲中預(yù)先錄制的音頻資料,以適應(yīng)用戶玩游戲時(shí)不斷變化的行為。或者,他們可以根據(jù)文字說明和可選的音頻輸入來即時(shí)地創(chuàng)建新的音頻資料。

制造令人喜悅的聲音

Valle 說道:“在該模型中,特別讓我們引以為豪的是一個(gè)稱之為‘鱷梨椅’的功能。”鱷梨椅是一個(gè)由針對(duì)成像的生成式 AI 模型所創(chuàng)建的新穎的視覺效果。

例如,F(xiàn)ugatto 可以讓小號(hào)發(fā)出“汪汪”的狗叫聲,或者讓薩克斯管發(fā)出“喵喵”的貓叫聲。只要用戶能描述出來,該模型就能創(chuàng)造出來。

研究人員發(fā)現(xiàn),只需微調(diào)和少量歌唱數(shù)據(jù),它就可以處理未經(jīng)預(yù)訓(xùn)練的任務(wù),比如根據(jù)文本提示來生成高質(zhì)量的歌聲。

用戶獲得藝術(shù)控制權(quán)

除了這些新穎之處,F(xiàn)ugatto 還添加了多項(xiàng)功能。

在推理過程中,該模型使用一種名為 ComposableART 的技術(shù),將訓(xùn)練過程中只能單獨(dú)看到的指令組合在一起。例如,一組提示詞可以要求它用法語口音說出帶有悲傷情緒的文字。

該模型能夠在指令之間插入內(nèi)容,這讓用戶能夠精細(xì)地控制文本指令。在這種情況下,用戶可以控制口音的輕重或悲傷的程度。

為該模型設(shè)計(jì)了相關(guān)功能的 AI 研究員 Rohan Badlani 表示:“我想讓用戶可以以主觀或藝術(shù)化的方式整合各種屬性,并能夠選擇他們對(duì)每個(gè)屬性的側(cè)重點(diǎn)。”

Badlani 說:“在我進(jìn)行的測(cè)試中,結(jié)果常常出人意料,讓我覺得自己有點(diǎn)像藝術(shù)家,盡管我是一名計(jì)算機(jī)專家?!盉adlani 擁有斯坦福大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位,主攻人工智能

這個(gè)模型還能生成隨著時(shí)間的推移而不斷變化的聲音,他把這種功能稱為時(shí)間插值。例如,它可以產(chǎn)生暴雨經(jīng)過某個(gè)區(qū)域的聲音,雷聲逐漸增大,然后慢慢地消失在遠(yuǎn)方。它還能讓用戶精細(xì)地控制聲景的演變。

此外,大多數(shù)模型只能重現(xiàn)它們所接觸過的訓(xùn)練數(shù)據(jù),而 Fugatto 則不同,它讓用戶能夠創(chuàng)建從未見過的聲景,例如雷雨隨著黎明的來臨逐漸停歇并伴隨著鳥鳴聲。

內(nèi)在機(jī)理

Fugatto 是一個(gè)基礎(chǔ)性生成式 Transformer 模型,其源自該團(tuán)隊(duì)之前在諸多領(lǐng)域的研究成果,例如語音建模、音頻聲音編碼和音頻理解等。

模型的完整版使用了 25 億個(gè)參數(shù),并在一系列配備 32 塊 NVIDIA Hopper Tensor Core GPU 的 NVIDIA DGX 系統(tǒng)上進(jìn)行了訓(xùn)練。

Fugatto 是由一群來自印度、巴西、中國(guó)、約旦和韓國(guó)等世界各地的人員共同開發(fā)的。他們的通力合作使 Fugatto 的多口音和多語言功能更加強(qiáng)大。

在開發(fā)該模型的過程中,其中一項(xiàng)最困難的工作是生成一個(gè)混合數(shù)據(jù)集,該數(shù)據(jù)集包含了數(shù)百萬個(gè)用于訓(xùn)練的音頻樣本。在生成數(shù)據(jù)和指令時(shí),該團(tuán)隊(duì)采用了多方面的策略,這大大地?cái)U(kuò)展了模型可執(zhí)行的任務(wù)范圍,同時(shí)實(shí)現(xiàn)了更精準(zhǔn)的性能,并且無需額外數(shù)據(jù)即可完成新任務(wù)。

這些開發(fā)人員還仔細(xì)地研究了現(xiàn)有數(shù)據(jù)集,以揭示數(shù)據(jù)之間的新關(guān)系。整個(gè)工作持續(xù)了一年多。

Valle 提到了兩個(gè)重要時(shí)刻,它們讓團(tuán)隊(duì)意識(shí)到自己走在正確的路上。他說:“它第一次根據(jù)提示詞成功地生成音樂時(shí),我們都驚呆了?!?/p>

后來,團(tuán)隊(duì)演示了 Fugatto 根據(jù)提示詞而創(chuàng)作出電子音樂,其中的狗叫聲實(shí)現(xiàn)了與節(jié)拍同步。

“當(dāng)大家捧腹大笑時(shí),我的心里真的感到很溫暖?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110138
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52285
  • 生成式AI
    +關(guān)注

    關(guān)注

    0

    文章

    538

    瀏覽量

    1133

原文標(biāo)題:世界上最靈活的聲音機(jī)器面市

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA DLI推出全新OpenUSD教學(xué)套件

    GTC 期間,NVIDIA 深度學(xué)習(xí)培訓(xùn)中心(DLI)推出了面向教育工作者的全新 OpenUSD 教學(xué)套件,持續(xù)為高校提供體系化 AI 教學(xué)資源。
    的頭像 發(fā)表于 04-16 11:42 ?440次閱讀

    NVIDIA Jetson模型賦能AI在邊緣端落地

    開源生成 AI 模型不再局限于數(shù)據(jù)中心,而是開始深入到現(xiàn)實(shí)世界的各種機(jī)器中。從 Orin 到 Thor,NVIDIA Jetson 系列正
    的頭像 發(fā)表于 03-16 16:27 ?672次閱讀
    <b class='flag-5'>NVIDIA</b> Jetson<b class='flag-5'>模型</b>賦能<b class='flag-5'>AI</b>在邊緣端落地

    NVIDIA和ComfyUI攜手簡(jiǎn)化本地AI視頻生成工作流

    借助 ComfyUI 的應(yīng)用視圖、NVIDIA RTX Video 超分辨率和全新的 NVFP4 模型,AI 驅(qū)動(dòng)的視頻生成更加易用。
    的頭像 發(fā)表于 03-14 16:37 ?2527次閱讀
    <b class='flag-5'>NVIDIA</b>和ComfyUI攜手簡(jiǎn)化本地<b class='flag-5'>AI</b>視頻<b class='flag-5'>生成</b>工作流

    NVIDIA推出代理式AI藍(lán)圖與電信推理模型

    借助全新開源大型電信模型NVIDIA Blueprint,電信運(yùn)營(yíng)商能夠利用自有數(shù)據(jù)訓(xùn)練 AI 智能體,構(gòu)建自主網(wǎng)絡(luò)。
    的頭像 發(fā)表于 03-06 17:37 ?3107次閱讀

    NVIDIA推出全新Earth-2開放模型家族

    NVIDIA Earth-2 讓氣象 AI 在全球范圍內(nèi)、在天氣預(yù)報(bào)的每個(gè)階段都觸手可及——從處理初始觀測(cè)數(shù)據(jù)到生成 15 天全球預(yù)報(bào)或局地強(qiáng)對(duì)流天氣預(yù)報(bào)。
    的頭像 發(fā)表于 02-02 09:34 ?591次閱讀

    NVIDIA在CES 2026發(fā)布全新開放模型、數(shù)據(jù)和工具

    為擴(kuò)展開放模型生態(tài),NVIDIA 發(fā)布全新開放模型、數(shù)據(jù)和工具,推動(dòng)各行業(yè) AI 技術(shù)的發(fā)展。
    的頭像 發(fā)表于 01-09 10:42 ?748次閱讀

    NVIDIA攜手Mistral AI發(fā)布全新開源大語言模型系列

    全新 Mistral 3 系列涵蓋從前沿級(jí)到緊湊型模型,針對(duì) NVIDIA 平臺(tái)進(jìn)行了優(yōu)化,助力 Mistral AI 實(shí)現(xiàn)云到邊緣分布
    的頭像 發(fā)表于 12-13 09:58 ?1484次閱讀

    NVIDIA推動(dòng)面向數(shù)字與物理AI的開源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語音、安全與輔助駕駛領(lǐng)域的全新 AI 工具,其中包括面向移動(dòng)出行領(lǐng)域的行業(yè)級(jí)開源視覺-語言-動(dòng)作推理模型(Reasoning VLA)
    的頭像 發(fā)表于 12-13 09:50 ?1570次閱讀

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測(cè)試與驗(yàn)證數(shù)據(jù)
    的頭像 發(fā)表于 12-01 09:25 ?1475次閱讀

    NVIDIA推出面向語言、機(jī)器人和生物學(xué)的全新開源AI技術(shù)

    NVIDIA 秉持對(duì)開源的長(zhǎng)期承諾,推出了面向語言、機(jī)器人和生物學(xué)的全新開源 AI 技術(shù),為構(gòu)建開源生態(tài)系統(tǒng)做出貢獻(xiàn),擴(kuò)展 AI 的普及并推
    的頭像 發(fā)表于 11-06 11:49 ?1318次閱讀

    NVIDIA 利用全新開源模型與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    。 ? 借助全新NVIDIA Cosmos 世界基礎(chǔ)模型,開發(fā)者可以生成多樣化數(shù)據(jù),從而大規(guī)模加速物理 AI
    的頭像 發(fā)表于 09-30 09:52 ?3225次閱讀
    <b class='flag-5'>NVIDIA</b> 利用<b class='flag-5'>全新</b>開源<b class='flag-5'>模型</b>與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    NVIDIA通過全新 Omniverse庫、Cosmos物理AI模型AI計(jì)算基礎(chǔ)設(shè)施,為機(jī)器人領(lǐng)域開啟新篇章

    NVIDIA 通過全新 Omniverse 庫、Cosmos 物理 AI 模型AI 計(jì)算基礎(chǔ)設(shè)施,為機(jī)器人領(lǐng)域開啟新篇章 ? ·?
    的頭像 發(fā)表于 08-12 11:29 ?2024次閱讀
    <b class='flag-5'>NVIDIA</b>通過<b class='flag-5'>全新</b> Omniverse庫、Cosmos物理<b class='flag-5'>AI</b><b class='flag-5'>模型</b>及<b class='flag-5'>AI</b>計(jì)算基礎(chǔ)設(shè)施,為機(jī)器人領(lǐng)域開啟新篇章

    谷歌新一代生成AI媒體模型登陸Vertex AI平臺(tái)

    我們?cè)?Vertex AI推出新一代生成 AI 媒體模型: Imagen 4、Veo 3
    的頭像 發(fā)表于 06-18 09:56 ?1325次閱讀

    使用NVIDIA Earth-2生成AI基礎(chǔ)模型革新氣候建模

    NVIDIA 正通過 cBottle(Climate in a Bottle 的簡(jiǎn)稱)為這項(xiàng)工作帶來新的突破,這是全球首個(gè)專為以公里尺度分辨率模擬全球氣候而設(shè)計(jì)的生成 AI 基礎(chǔ)
    的頭像 發(fā)表于 06-12 15:54 ?1471次閱讀

    ETAS全新的嵌入AI解決方案

    “將訓(xùn)練后的AI神經(jīng)網(wǎng)絡(luò)模型,自動(dòng)化生成安全且高效的C代碼,用于嵌入系統(tǒng)” ,近日ETAS攜全新的智能化工具Embedded
    的頭像 發(fā)表于 05-07 11:43 ?2332次閱讀
    ETAS<b class='flag-5'>全新</b>的嵌入<b class='flag-5'>式</b><b class='flag-5'>AI</b>解決方案
    仲巴县| 榆树市| 建湖县| 洪湖市| 南阳市| 和林格尔县| 谷城县| 临潭县| 会东县| 滨州市| 新巴尔虎左旗| 玛沁县| 新余市| 嘉黎县| 威海市| 湘西| 宿迁市| 龙里县| 化德县| 伊春市| 台江县| 崇仁县| 峡江县| 合阳县| 三河市| 鞍山市| 吴桥县| 新河县| 台北县| 临漳县| 临朐县| 大石桥市| 威远县| 武汉市| 乌拉特中旗| 岱山县| 永昌县| 巴林右旗| 南雄市| 宁都县| 泸水县|