日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

商湯科技推出實時語音驅(qū)動數(shù)字人技術(shù)SekoTalk

商湯科技SenseTime ? 來源:商湯科技SenseTime ? 2025-12-17 13:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在數(shù)字人技術(shù)蓬勃發(fā)展的今天,生成效率仍是行業(yè)面臨的核心挑戰(zhàn)。商湯科技憑借在生成式AI 與多模態(tài)交互領(lǐng)域的深厚積累,推出了實時語音驅(qū)動數(shù)字人技術(shù)——SekoTalk。

通過多方面的創(chuàng)新技術(shù),SekoTalk顯著提升了數(shù)字人視頻的生成效率,在8卡服務(wù)器上可以達(dá)到25 fps的生成速度,首幀延遲低至3.5s,在業(yè)內(nèi)率先實現(xiàn)了實時生成。同時,SekoTalk還能支持多人、多語言的口型精準(zhǔn)匹配,和超長時的穩(wěn)定生成。這一技術(shù)突破了數(shù)字人發(fā)展的性能瓶頸,為數(shù)字人的大規(guī)模、實時應(yīng)用打開更多可能。

SekoTalk今年8月上線,應(yīng)用在商湯Seko、如影數(shù)字人等產(chǎn)品中,已助力用戶創(chuàng)作出數(shù)十萬部作品,并誕生了全網(wǎng)播放量超2000萬播放的爆款作品。

算法系統(tǒng)協(xié)同:

實現(xiàn)極致性價比突破

生成效率是數(shù)字人走向?qū)嵱没年P(guān)鍵,而實時性又是生成效率的北極星。SekoTalk通過模型蒸餾,模型結(jié)構(gòu)優(yōu)化,以及模型與系統(tǒng)的協(xié)同設(shè)計,在保證生成質(zhì)量的前提下,實現(xiàn)推理效率的跨越式提升。

與其它方案相比,SekoTalk展現(xiàn)出卓越的性價比優(yōu)勢:開源模型生成一段5s視頻通常超過十分鐘,商用閉源模型生成5s的視頻通常也需1至10分鐘不等。相比之下,SekoTalk在8卡服務(wù)器上可以達(dá)到25 fps的生成速度,即便將SekoTalk與多模態(tài)模型相結(jié)合,整體系統(tǒng)的首幀延遲也可低至3.5s。

Phased DMD分布匹配蒸餾技術(shù),無限逼近base模型效果:

以往的擴(kuò)散模型蒸餾經(jīng)驗發(fā)現(xiàn),擴(kuò)散模型低步數(shù)生成的質(zhì)量受到等效模型容量的制約。而主流的SOTA視頻生成模型已經(jīng)證明混合專家(MoE)技術(shù)在擴(kuò)散模型領(lǐng)域的巨大潛力:不增加推理開銷的同時,增大等效模型容量,進(jìn)而導(dǎo)致更強(qiáng)的性能表現(xiàn)。

然而,MoE技術(shù)在擴(kuò)散模型蒸餾中的應(yīng)用尚未得到探索。商湯科技團(tuán)隊發(fā)現(xiàn),簡單地將分布匹配蒸餾(DMD)應(yīng)用到MoE模型中,會導(dǎo)致生成視頻的運(yùn)動效果和指令遵循能力下降。

為了解決這一問題,研究團(tuán)隊提出了Phased DMD技術(shù),把去噪過程建模為多階段的MoE模型。Phased DMD不僅原生支持MoE模型,而且對于非MoE的教師模型,該技術(shù)也可以將之蒸餾為MoE學(xué)生模型。

這一技術(shù)顯著提升了蒸餾模型生成的動態(tài)效果和多樣性,使SekoTalk推理開銷在降低25倍的情況下,仍保持教師模型良好的肢體運(yùn)動效果和情緒表現(xiàn)力。除了應(yīng)用于SekoTalk,Phased DMD也對開源社區(qū)常用的基模型進(jìn)行了蒸餾并貢獻(xiàn)回開源社區(qū),相關(guān)優(yōu)勢也得到開源社區(qū)的認(rèn)可,進(jìn)一步證明了Phased DMD的通用性和有效性。

LightX2V與模型協(xié)同設(shè)計,支持低資源部署:

LightX2V是商湯開源的行業(yè)首個能夠達(dá)到實時視頻生成的推理框架。在模型和系統(tǒng)設(shè)計之初,就讓它們?nèi)谌氲捅忍亓炕兄?xùn)練、稀疏注意力等原生優(yōu)化,配合自研“SPARSE+NVFP4+低比特通信”高效注意力算子,模型訓(xùn)練完成后可直接低資源部署。

從測試數(shù)據(jù)來看,在不同GPU硬件環(huán)境下,LightX2V均能實現(xiàn)SekoTalk 的高效推理,為不同場景的落地提供靈活支撐。

23455646-d501-11f0-8c8f-92fbcf53809c.png

聲形同步:

多語言+多人場景口型精準(zhǔn)匹配

傳統(tǒng)數(shù)字人技術(shù)在處理多語言、多人交互的復(fù)雜場景時,常出現(xiàn)口型與語音匹配不準(zhǔn)的問題。SekoTalk通過一系列創(chuàng)新設(shè)計,實現(xiàn)了從單人口形到多人互動的高度精準(zhǔn)的聲形同步。

多語言高效同步:在2D數(shù)字人生成領(lǐng)域,一些工作沿用了早期的wav2vec2系列的預(yù)訓(xùn)練語音編碼器來驅(qū)動角色。商湯團(tuán)隊根據(jù)在3D數(shù)字人語音驅(qū)動(UniTalker)中積累的算法經(jīng)驗,發(fā)現(xiàn)語音編碼器的選擇對于數(shù)字人驅(qū)動效果有極大影響。

23a87e10-d501-11f0-8c8f-92fbcf53809c.png

為此,研究團(tuán)隊探究了包含wav2vec2,hubert,wavlm,whisper等多種語音編碼器在2D數(shù)字人驅(qū)動中的性能表現(xiàn),發(fā)現(xiàn)如果沿用wav2vec2系列的語音編碼器,即使是多語言預(yù)訓(xùn)練的wav2vec2-large-xlsr-53,在英語口型驅(qū)動和多語言泛化性上的定量指標(biāo)中也落后其他編碼器。

通過細(xì)致的消融實驗,SekoTalk使用了探究中表現(xiàn)最好的音頻編碼器,通過規(guī)模化的訓(xùn)練,SekoTalk在中英文、多種小語種、日常講話、說唱等場景中上均取得了準(zhǔn)確的驅(qū)動效果。

音視頻幀率解耦,杜絕細(xì)節(jié)丟失:主流視頻生成模型采用了“1+4N”時序壓縮機(jī)制,為實現(xiàn)與與視頻幀的嚴(yán)格同步,SekoTalk對音頻處理分支進(jìn)行了精細(xì)優(yōu)化。它創(chuàng)新地將視頻幀率(16-25fps)與語音特征幀率(50fps)解耦,避免了傳統(tǒng)下采樣放到帶來的口型細(xì)節(jié)丟失,使得音頻可以和任意幀率的視頻在時序上對齊,保證音頻與畫面的高質(zhì)量同步。

可支持中文/法語/日語/葡萄牙語/韓語等多語種語音驅(qū)動

多人場景高度可控:借助良好的模型泛化能力和創(chuàng)新的掩碼注意力機(jī)制(Attention Mask),SekoTalk可在多人對話場景中,獨(dú)立、精準(zhǔn)地控制每個角色的口型與動作,輸出自然流暢的群組互動效果,拓展了技術(shù)的適用場景和應(yīng)用潛力。

高效能、低成本的語音模塊:類似文生視頻中常常借助文本條件的Classifier-Free Guidance(CFG)來提升視頻生成質(zhì)量,在數(shù)字人生成領(lǐng)域中,以往工作也借助這一做法,使用語音條件的CFG來提升口型驅(qū)動的準(zhǔn)確性,然而這相比于單獨(dú)文本條件生成視頻又多出了50%的計算開銷。另一方面,類似于文本條件的CFG通常伴隨著生成畫面過飽和的問題,語音條件的CFG在提升口型驅(qū)動準(zhǔn)確性的同時,通常也帶來夸張不自然的人臉畫面。商湯團(tuán)隊認(rèn)為,通過更好的語音注入模塊的設(shè)計,可以更本質(zhì)地解決這一問題。結(jié)合DiT的設(shè)計經(jīng)驗,研究團(tuán)隊在語音模塊中也引入了Adaptive Layer Normalization(AdaLN),并且使用可學(xué)習(xí)參數(shù)的注入方式代替了Linear Projection,在保持表現(xiàn)力的前提下降低了計算開銷。經(jīng)過這些改進(jìn),SekoTalk模型無需借助語音條件的CFG,就可以達(dá)到準(zhǔn)確的嘴形驅(qū)動。這一改進(jìn)不僅降低了計算開銷,同時也避免了語音條件的CFG帶來的口型準(zhǔn)確性和臉部畫面自然性之間的取舍。

超長時穩(wěn)定生成:

告別畫面漂移與人物偏移

在生成長視頻時,畫面色彩漂移和人物ID不一致,一直是行業(yè)的重要挑戰(zhàn)。SekoTalk提出混合參考圖注入等方案,有效平衡動作多樣性與畫面穩(wěn)定性。

24067a88-d501-11f0-8c8f-92fbcf53809c.png

混合參考圖注入策略,兼顧“段內(nèi)穩(wěn)定”與“段外泛化”:通過在訓(xùn)練階段隨機(jī)選擇片段內(nèi)、外的參考圖,并輔助標(biāo)志位指示參考圖來源,使模型同時掌握了“段內(nèi)穩(wěn)定”與“段外泛化”兩種能力。在推理時靈活切換,有效兼顧了動作多樣性與畫面穩(wěn)定性。

高低語義特征聯(lián)合注入,加快模型收斂速度:采用“高語義特征+低語義特征”的雙通道注入機(jī)制,利用不同層級的語義信息引導(dǎo)模型,這不僅加強(qiáng)了人物ID的一致性,還加速了模型的收斂。

分離式Patchify編碼,高保真條件注入:將加噪視頻、參考圖、前序幀等不同類型的特征交給獨(dú)立的Patchify分支處理,使模型注意力更容易區(qū)分并理解多源信息。這不僅增強(qiáng)了長視頻生成中的人物一致性,還提升了續(xù)寫的連續(xù)性與穩(wěn)定性。

隱空間續(xù)寫優(yōu)化效率,保障流暢續(xù)寫:在效率優(yōu)化上,SekoTalk在時序維度上引入前序幀特征,通過直接取用上一生成片段末尾的隱空間特征,避免了傳統(tǒng)方案中“解碼-再編碼”的冗余流程,并結(jié)合層級化KV緩存與因果注意力機(jī)制,在確保續(xù)寫穩(wěn)定性的同時,大幅提升了長視頻生成的推理效率。

SekoTalk的技術(shù)價值已在實踐中得到驗證。其在線體驗平臺作為首個支持2人以上對口型、生成2分鐘長視頻的免費(fèi)技術(shù)體驗平臺,已生成大量作品,SekoTalk模型也集成進(jìn)入Seko、如影數(shù)字人等產(chǎn)品中使用。此外,SekoTalk實時版在情感陪伴、在線教育、專業(yè)咨詢領(lǐng)域的實時交互案例,也展現(xiàn)了其推動數(shù)字人走向更自然、智能、實時的未來潛力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4368

    瀏覽量

    46464
  • 商湯科技
    +關(guān)注

    關(guān)注

    8

    文章

    619

    瀏覽量

    37684
  • 數(shù)字人
    +關(guān)注

    關(guān)注

    0

    文章

    160

    瀏覽量

    2592

原文標(biāo)題:推理速度25fps,首幀延遲3.5s!商湯SekoTalk:讓實時語音數(shù)字人更近一步

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    商湯科技在虛擬數(shù)字領(lǐng)域再獲國家級權(quán)威認(rèn)可

    近日,國家標(biāo)準(zhǔn)由市場監(jiān)管總局(國家標(biāo)準(zhǔn)委)批準(zhǔn)發(fā)布實施《信息技術(shù)客服型虛擬數(shù)字通用技術(shù)要求》(GB/T 46483—2025)。作為虛擬數(shù)字
    的頭像 發(fā)表于 04-13 14:39 ?440次閱讀

    商湯大裝置聯(lián)合大曉機(jī)器與廣西產(chǎn)業(yè)技術(shù)研究院達(dá)成戰(zhàn)略合作

    近日,商湯大裝置聯(lián)合大曉機(jī)器與廣西產(chǎn)業(yè)技術(shù)研究院達(dá)成戰(zhàn)略合作,就AI基礎(chǔ)設(shè)施建設(shè)、具身數(shù)據(jù)采集、世界模型研發(fā)、機(jī)器應(yīng)用場景拓展等領(lǐng)域達(dá)成深度合作。開啟三方攜手賦能具身智能產(chǎn)業(yè)發(fā)展的
    的頭像 發(fā)表于 03-20 17:40 ?1832次閱讀

    商湯科技智能講解機(jī)器亮相上海中學(xué)國際部

    校園里出現(xiàn)了一位特殊的“迎新使者”——由商湯科技“商量AI講解大腦”驅(qū)動的智能講解機(jī)器亮相校園,以生動鮮活的互動形式迎接返校學(xué)子,為開學(xué)日注入了濃厚的科技活力,成為校園里一道亮眼的風(fēng)景線。
    的頭像 發(fā)表于 03-05 09:34 ?929次閱讀

    商湯科技商量AI講解大腦系統(tǒng)驅(qū)動的智能機(jī)器亮相

    對陣雙方實力懸殊卻又勢均力敵:一方,是以邏輯縝密、反應(yīng)迅捷著稱的前武漢大學(xué)辯論隊隊長;另一方,則是首次以辯手身份亮相、由商湯科技“商量AI 講解大腦”系統(tǒng)驅(qū)動的智能機(jī)器。
    的頭像 發(fā)表于 02-09 15:02 ?684次閱讀

    中科曙光與商湯科技、大曉機(jī)器達(dá)成戰(zhàn)略合作

    12月18日,在首屆光合組織人工智能創(chuàng)新大會(HAIC2025)主論壇上,中科曙光與商湯科技、大曉機(jī)器正式達(dá)成戰(zhàn)略合作。
    的頭像 發(fā)表于 12-23 15:10 ?542次閱讀

    商湯科技日日新Seko系列模型與寒武紀(jì)成功適配

    12月15日,商湯科技基于在生成式AI與多模態(tài)交互領(lǐng)域的技術(shù)積累,正式發(fā)布Seko2.0——行業(yè)首個多劇集生成智能體。該智能體在多劇集視頻生成的一致性方面展現(xiàn)出顯著優(yōu)勢,其背后依托的是商湯自研的日日新Seko系列模型,包括Sek
    的頭像 發(fā)表于 12-17 14:06 ?619次閱讀

    商湯科技聯(lián)合創(chuàng)始王曉剛擔(dān)任大曉機(jī)器董事長

    大曉機(jī)器將于12月18日正式亮相,重磅發(fā)布多項全球領(lǐng)先的技術(shù)與產(chǎn)品陣列,并將推出首個國內(nèi)開源且實現(xiàn)商業(yè)應(yīng)用的“開悟”世界模型3.0,與行業(yè)伙伴一同構(gòu)建自主可控、開放共贏的產(chǎn)業(yè)體系。商湯
    的頭像 發(fā)表于 12-08 11:31 ?853次閱讀

    商湯科技牽頭發(fā)布我國虛擬數(shù)字領(lǐng)域首項國家標(biāo)準(zhǔn)

    商湯科技作為牽頭單位,主導(dǎo)完成了我國虛擬數(shù)字領(lǐng)域首項國家標(biāo)準(zhǔn)——《信息技術(shù)客服型虛擬數(shù)字通用
    的頭像 發(fā)表于 11-21 10:55 ?679次閱讀
    <b class='flag-5'>商湯</b>科技牽頭發(fā)布我國虛擬<b class='flag-5'>數(shù)字</b><b class='flag-5'>人</b>領(lǐng)域首項國家標(biāo)準(zhǔn)

    商湯絕影亮相汽車之家全球AI科技大會

    近日,由汽車之家主辦的「汽車之家全球AI科技大會」在北京舉行。商湯科技聯(lián)合創(chuàng)始、執(zhí)行董事、CTO、商湯絕影CEO王曉剛出席大會,并發(fā)表《世界模型:智能駕駛范式演進(jìn)新路標(biāo)》主題演講,分享了“絕影開悟”世界模型給智能駕駛帶來的
    的頭像 發(fā)表于 09-29 14:09 ?803次閱讀

    商湯如影圖片數(shù)字技術(shù)閃耀央視舞臺

    依托商湯日日新大模型的多模態(tài)能力,只需上傳一張人物照片,輸入文字腳本或音頻文件,AI 就能自動生成人物動態(tài)視頻,并支持多種語言,實現(xiàn)了與真人幾乎無差別的口型匹配、動作呼應(yīng)和情緒表達(dá)。
    的頭像 發(fā)表于 09-22 16:18 ?1162次閱讀

    語音機(jī)器交互系統(tǒng):核心技術(shù)與應(yīng)用挑戰(zhàn)

    ? ? ? 語音機(jī)器交互系統(tǒng)是融合多學(xué)科技術(shù)的復(fù)雜工程,其核心目標(biāo)是實現(xiàn)與機(jī)器間的自然、流暢語音對話。該系統(tǒng)已廣泛應(yīng)用于智能客服、智能家
    的頭像 發(fā)表于 09-02 11:08 ?1022次閱讀

    明遠(yuǎn)智睿SSD2351開發(fā)板:語音機(jī)器領(lǐng)域的變革力量

    接口則讓語音機(jī)器可以連接到互聯(lián)網(wǎng),實時獲取最新的信息,增強(qiáng)其智能性和交互能力。 在實際應(yīng)用場景中,以智能客服語音機(jī)器人為例。SSD2351開發(fā)板可以
    發(fā)表于 05-28 11:36

    OBOO鷗柏丨AI數(shù)字觸摸屏查詢觸控人臉識別語音交互一體機(jī)上市

    OBOO鷗柏丨AI數(shù)字觸摸屏查詢觸控人臉識別語音交互一體機(jī)上市分析OBOO鷗柏品牌推出的AI數(shù)字
    的頭像 發(fā)表于 05-21 20:22 ?1781次閱讀
    OBOO鷗柏丨AI<b class='flag-5'>數(shù)字</b><b class='flag-5'>人</b>觸摸屏查詢觸控人臉識別<b class='flag-5'>語音</b>交互一體機(jī)上市

    芯知識|語音芯片IC技術(shù)解析:優(yōu)化數(shù)字組合播報間隔的解決方案

    一、語音芯片的核心作用與應(yīng)用場景語音芯片作為智能設(shè)備交互的重要載體,廣泛滲透于工業(yè)控制、智能家居、公共服務(wù)等領(lǐng)域。廣州唯創(chuàng)電子推出語音芯片系列產(chǎn)品,憑借其高集成度和靈活的可編程特性,
    的頭像 發(fā)表于 05-12 09:04 ?841次閱讀
    芯知識|<b class='flag-5'>語音</b>芯片IC<b class='flag-5'>技術(shù)</b>解析:優(yōu)化<b class='flag-5'>數(shù)字</b>組合播報間隔的解決方案

    詳細(xì)介紹機(jī)場智能指路機(jī)器的工作原理

    免與行人發(fā)生碰撞,為旅客提供安全、舒適的引導(dǎo)服務(wù)。 智能交互系統(tǒng) 語音識別與理解 :智能指路機(jī)器利用先進(jìn)的語音識別技術(shù),將旅客輸入的語音
    發(fā)表于 05-10 18:26
    灵宝市| 华容县| 仲巴县| 长海县| 大丰市| 九龙城区| 县级市| 华阴市| 修武县| 丽江市| 吉安县| 北京市| 丹东市| 芷江| 冷水江市| 丹阳市| 武宁县| 拉萨市| 保亭| 永吉县| 土默特右旗| 门源| 怀柔区| 喀喇| 永昌县| 门源| 蕲春县| 昌都县| 临沂市| 威信县| 信宜市| 海安县| 泾川县| 宣武区| 丹江口市| 商南县| 星子县| 岳西县| 盘山县| 胶南市| 五台县|