近日,國際聲學(xué)、語音與信號處理會議 ICASSP 2026 公布錄用結(jié)果。江蘇省語言計算及應(yīng)用實驗室多篇論文被會議接收。ICASSP 長期被視為聲學(xué)、語音與信號處理領(lǐng)域最具國際影響力的學(xué)術(shù)會議之一,其錄用成果集中反映了語音語言技術(shù)前沿的發(fā)展方向。
江蘇省語言計算及應(yīng)用重點實驗室(以下簡稱“實驗室”)由思必馳科技股份有限公司牽頭,聯(lián)合上海交通大學(xué)、蘇州大學(xué)共建,是江蘇省在通用人工智能領(lǐng)域布局的重要戰(zhàn)略科技力量。實驗室以思必馳的產(chǎn)業(yè)平臺為依托,匯聚上海交大、蘇大的頂尖科研資源,形成“產(chǎn)學(xué)研用”深度融合的創(chuàng)新共同體,聚焦語言計算核心技術(shù),貫通基礎(chǔ)理論、關(guān)鍵算法、產(chǎn)業(yè)落地的全鏈條創(chuàng)新。
實驗室本次收錄的論文成果聚焦多語種語音識別、高效自回歸語音合成與低碼率神經(jīng)語音編解碼等前沿方向,支撐思必馳核心技術(shù)能力持續(xù)增強(qiáng):提升了多語種交互一致性、優(yōu)化了端云協(xié)同實時響應(yīng)、強(qiáng)化了分布式智能體在復(fù)雜場景中的感知與執(zhí)行穩(wěn)定性;并進(jìn)一步升級了車載座艙語音助手、會議軟硬件產(chǎn)品與智能家居終端的交互體驗,同時提升面向海外與多行業(yè)客戶的標(biāo)準(zhǔn)化交付效率與可擴(kuò)展能力。下面介紹本次收錄的代表性成果:
多語種語音識別
復(fù)雜口音與多語種環(huán)境下的識別魯棒性強(qiáng)化,支撐車載座艙中的多音區(qū)交互與跨區(qū)域語音服務(wù)能力。
MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR面向端到端多語種語音識別中的核心難題。該問題長期受限于兩類結(jié)構(gòu)性瓶頸,一是低資源語言數(shù)據(jù)不足,二是傳統(tǒng)單一投影器難以同時兼顧跨語言共享與語言特異建模。
MOSA 采用簡單適配器混合的結(jié)構(gòu)范式,在統(tǒng)一框架內(nèi)引入多專家協(xié)同機(jī)制,使跨語言共享知識與語言專屬性特征能夠?qū)崿F(xiàn)有效分工與協(xié)同學(xué)習(xí)。該方法并未依賴更重的單體投影結(jié)構(gòu),而是通過多個輕量適配器的組合提升表示能力,因此在工程資源受限條件下更具部署價值。
實驗結(jié)果顯示,在訓(xùn)練參數(shù)量僅為 Ideal-LLM Base 六成的條件下,平均詞錯誤率仍下降 13.3%。這一結(jié)果表明,多專家輕量適配策略不僅提升識別精度,同時在數(shù)據(jù)不平衡情形下展現(xiàn)出更強(qiáng)穩(wěn)定性,為多語種識別系統(tǒng)的大規(guī)模落地提供了可驗證路徑。

高效自回歸語音合成
提升合成語音的可懂度與響應(yīng)效率,加強(qiáng)車載播報、辦公助手語音反饋與多輪任務(wù)執(zhí)行中的自然表達(dá)。
Robust and Efficient Autoregressive Speech Synthesis with Dynamic Chunk-wise Prediction Policy針對自回歸語音合成在長序列建模中的關(guān)鍵矛盾展開研究。傳統(tǒng)逐詞元預(yù)測方案在序列增長后容易出現(xiàn)注意力不穩(wěn)定,進(jìn)而引發(fā)時延上升與可懂度下降,這也是高質(zhì)量合成模型進(jìn)入實時業(yè)務(wù)的重要障礙。
DCAR 提出動態(tài)分塊預(yù)測策略。該策略通過多詞元預(yù)測訓(xùn)練與輕量在軌模塊協(xié)同,按語音內(nèi)容動態(tài)調(diào)整預(yù)測跨度,降低模型對長序列逐步遞推的依賴,同時保持合成細(xì)節(jié)質(zhì)量。其核心價值在于將效率優(yōu)化與語音質(zhì)量優(yōu)化統(tǒng)一到同一生成機(jī)制內(nèi)。
在公開實驗中,DCAR 相較傳統(tǒng)逐詞元預(yù)測模型實現(xiàn)可懂度最高 72.27% 的提升,并將推理速度提升至 2.61 倍。該結(jié)果顯示,動態(tài)分塊范式能夠顯著改善實時語音生成能力,為車載播報、會議助手與多輪語音交互中的低時延輸出提供技術(shù)基礎(chǔ)。

低碼率神經(jīng)語音編解碼
優(yōu)化低碼率語音傳輸與端側(cè)資源開銷,賦能智能家居與消費終端中的低功耗部署、弱網(wǎng)穩(wěn)定交互。
Codecslime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate指向神經(jīng)語音編解碼中的普遍問題。固定幀率機(jī)制默認(rèn)語音時間信息密度均勻,然而真實語音在靜音段、長元音段與快速過渡段的有效信息密度差異顯著。固定幀率因此會在低信息區(qū)產(chǎn)生冗余編碼開銷。
CodecSlime 引入動態(tài)幀率機(jī)制,以插件化方式嵌入現(xiàn)有神經(jīng)編解碼體系,在不依賴額外監(jiān)督的條件下壓縮時間冗余。方法中的 ScheDFR 與 Melt-and-Cool 分別服務(wù)于推理側(cè)與訓(xùn)練側(cè),使模型能夠在不同時間密度區(qū)間自適應(yīng)分配編碼資源。
在典型 VQ-GAN 編解碼骨干上,當(dāng)系統(tǒng)運行于約 40Hz 動態(tài)幀率并保持約 600bps 量級碼率時,CodecSlime 的重建詞錯誤率相較固定幀率基線最多下降 28%。同時,模型在不同幀率設(shè)置下持續(xù)保持競爭性能,體現(xiàn)了重建質(zhì)量與傳輸成本之間更靈活的工程權(quán)衡能力。

產(chǎn)品落地:
智能車載、智慧辦公與智能家居的持續(xù)升級
本次收錄的研究成果共同推動思必馳全鏈路對話式人工智能系統(tǒng)在全流程可控、端到端貫通與規(guī)?;渴鸱矫娉掷m(xù)進(jìn)階。對于企業(yè)級產(chǎn)品而言,這類基礎(chǔ)技術(shù)進(jìn)展不僅提升單點模型指標(biāo),更重要的是提升跨模塊協(xié)同效率與整體用戶體驗的可感知升級:多語種交互更穩(wěn)定、語音反饋更自然及時、弱網(wǎng)與低功耗條件下的使用體驗更順暢。依托上述能力,思必馳在多行業(yè)項目中的交付效率與場景適配速度持續(xù)提升,為客戶提供更一致、更可靠的語音交互服務(wù)。
長期以來,思必馳深度參與國內(nèi)外學(xué)術(shù)前沿研究,在ICASSP、INTERSPEECH、ACL、EMNLP、AAAI、ICML、NeurIPS等頂級學(xué)術(shù)會議上屢獲佳績,持續(xù)產(chǎn)出高質(zhì)量科研成果,彰顯了在人工智能語音語言關(guān)鍵技術(shù)領(lǐng)域的深度探索和重大突破。思必馳秉持科研與產(chǎn)業(yè)應(yīng)用緊密結(jié)合的理念,將持續(xù)推進(jìn)高水平科研成果向產(chǎn)品能力轉(zhuǎn)化,圍繞真實業(yè)務(wù)場景打磨可落地、可規(guī)?;⒖沙掷m(xù)優(yōu)化的語音語言技術(shù)體系。
作為專業(yè)的對話式人工智能平臺型企業(yè),思必馳具有源頭技術(shù)創(chuàng)新和應(yīng)用創(chuàng)新的能力,自2022年7月獲國家科技部批準(zhǔn)建設(shè)“語言計算國家新一代人工智能開放創(chuàng)新平臺”以來,接連于2023-2024年獲批組建蘇州市、江蘇省、長三角三級創(chuàng)新聯(lián)合體,并于2025年攜手上海交通大學(xué)、蘇州大學(xué),牽頭組建“江蘇省語言計算及應(yīng)用重點實驗室”,成為國家人工智能戰(zhàn)略科技力量的重要組成部分。
思必馳承擔(dān)了包括國家重點研發(fā)計劃、國家發(fā)改委“互聯(lián)網(wǎng)+”重大工程和人工智能創(chuàng)新發(fā)展工程、國家工信部人工智能與實體經(jīng)濟(jì)深度融合項目、長三角科技創(chuàng)新共同體聯(lián)合攻關(guān)計劃項目等十余項國家級、省部級項目,展現(xiàn)出卓越的科研實力與項目落地能力。
思必馳深耕語音語言領(lǐng)域,憑借自主研發(fā)的核心技術(shù)多次在國際研究機(jī)構(gòu)評測中奪得冠軍;曾三度斬獲國內(nèi)人工智能最高獎“吳文俊獎”,榮獲中國專利優(yōu)秀獎,以及信通院車載智能語音交互系統(tǒng)最高級別認(rèn)證等重要榮譽(yù)。技術(shù)創(chuàng)新能力備受全球矚目,被高盛全球人工智能報告列為關(guān)鍵參與者,也被Gartner評為東亞五大明星AI公司之一。
截至2025年年底,思必馳擁有近100項全球獨創(chuàng)技術(shù),已授權(quán)知識產(chǎn)權(quán)1700余項,其中已授權(quán)發(fā)明專利700余項,牽頭/參與了70余項國家/行業(yè)/團(tuán)體標(biāo)準(zhǔn),獲得23項國家級的產(chǎn)品認(rèn)證,8項算法通過深度合成算法備案。思必馳堅持自主的大模型技術(shù)路線,加速研發(fā)端云協(xié)同的分布式智能體系統(tǒng),以任務(wù)型交互為核心,結(jié)合智能硬件感知優(yōu)勢,推進(jìn)分布式的可規(guī)劃的可信智能體落地,服務(wù)企業(yè)客戶。
-
人工智能
+關(guān)注
關(guān)注
1821文章
50366瀏覽量
267056 -
思必馳
+關(guān)注
關(guān)注
4文章
418瀏覽量
16056
原文標(biāo)題:ICASSP 2026|江蘇省語言計算及應(yīng)用實驗室多項成果入選,持續(xù)夯實全鏈路語音語言核心技術(shù)
文章出處:【微信號:思必馳,微信公眾號:思必馳】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
江蘇省語言計算及應(yīng)用重點實驗室聯(lián)合培養(yǎng)計劃啟動
佛吉亞鹽城工廠入選2025年度江蘇省綠色工廠
飛譜電子入選2025年度江蘇省博士后創(chuàng)新實踐基地
思必馳出席江蘇省語言計算及應(yīng)用重點實驗室學(xué)術(shù)委員會第一次會議
南京峟思榮獲江蘇省“專精特新”中小企業(yè)認(rèn)定
帝奧微榮獲2025年度江蘇省科技創(chuàng)新協(xié)會科技創(chuàng)新成果轉(zhuǎn)化獎
揚杰科技榮獲2024年度江蘇省科技進(jìn)步獎
上能電氣入選2025年度江蘇省商標(biāo)品牌培育和保護(hù)項目
左藍(lán)微電子入選2025年江蘇省潛在獨角獸企業(yè)
普源精電入選2025年度江蘇省高價值專利培育計劃
美新半導(dǎo)體榮獲2025年江蘇省先進(jìn)級智能工廠
博世蘇州入選2025年江蘇省先進(jìn)級智能工廠
思必馳與上海交大聯(lián)合實驗室12篇論文被ICASSP 2025收錄
江蘇省語言計算及應(yīng)用實驗室多項成果入選ICASSP 2026
評論