水蜜桃免费视频,www..插插

近日，上海人工智能實驗室（上海AI實驗室）開源新一代書生科學多模態(tài)大模型預覽版Intern-S2-Preview，以35B的參數(shù)規(guī)模在多個核心領域實現(xiàn)比肩萬億參數(shù)模型的能力，在綜合科學場景編程任務中達到同量級領先水平，在科學發(fā)現(xiàn)任務中超越Claude-Haiku-4.5、GPT5.4-Nano等主流閉源模型，進一步拓展了“可深度專業(yè)化通用模型”的能力邊界。昇騰Atlas 900 A3超節(jié)點為Intern-S2-Preview提供了算力支持，基于昇騰AI生態(tài)，雙方團隊在訓練、推理與評測等關鍵環(huán)節(jié)實現(xiàn)了全流程協(xié)同優(yōu)化。

算法—系統(tǒng)—算力協(xié)同演進

提升訓推效率

Intern-S2-Preview模型能力釋放的背后，是算法、訓推系統(tǒng)與算力底座的協(xié)同演進?；跁N騰AI生態(tài)，雙方團隊圍繞模型訓練、推理、RL等核心場景，在訓練框架、推理引擎以及多模態(tài)長序列訓練等關鍵方向上實現(xiàn)了深入的系統(tǒng)級優(yōu)化。

在訓練框架方面：

支持SP、chunk loss、ac tivation offload、swap optimizer、虛擬內(nèi)存管理等眾多顯存優(yōu)化特性，使能多模態(tài)長序列模型訓練的穩(wěn)定運行。

重點圍繞TND變長輸入下的GDN進行了持續(xù)打磨。

通過將chunk indices前置計算，減少host和device的同步開銷。

與常見的GPU上的GDN chunk size 64不同，本次在NPU上使能了chunk size 128。對于昇騰架構，更大的chunk size（例如128）能提高矩陣單元（Cube）的FLOP利用率，從而加速GDN內(nèi)的多數(shù)計算步驟。

針對GDN中的關鍵算子，進一步引入Ascend C高性能實現(xiàn)，在不同序列長度下自適應選擇tiling策略，并結合算子流水和算子間Transpose消除等手段聯(lián)合優(yōu)化，持續(xù)降低數(shù)據(jù)搬運與格式轉換開銷，提升長序列訓練中的有效計算占比，更充分釋放A3超節(jié)點的算力潛力。

在推理部署環(huán)節(jié)：

針對Intern-S2-Preview的模型結構和A3超節(jié)點的硬件特點，對ViT和LLM部分進行差異化切分部署，結合cube效率和顯存需求聯(lián)合優(yōu)化prefill的chunk size，替換GMM和后處理算子親和寫法，最終有效支持了超長序列的rollout效率。

在強化學習方面：

RL在A3超節(jié)點上同步支持了token in token out、router replay和partial rollout異步訓練等關鍵特性。在解決rollout長尾阻塞問題的同時，維持了高精度的訓推一致性和RL訓練穩(wěn)定性。

Intern-S2-Preview也延續(xù)了Intern-S1-Pro在“算法—算力”一體化方向上的持續(xù)探索，基于XTuner訓練框架與LMDeploy推理引擎，雙方研發(fā)團隊圍繞訓練與推理一體化進行了聯(lián)合開發(fā)。在支持MTP RL訓練的基礎上，引入共享MTP權重計算方式，不僅有效緩解了訓練與推理階段不一致的問題，還顯著提升了draft token的接受率，從而進一步提升模型訓練穩(wěn)定性與推理效率。在多模態(tài)長序列訓練場景，針對35B模型視覺模塊耗時占比過大的問題，團隊進一步提出聯(lián)合視覺模塊與語言模塊近似FLOPs算力的Packing策略，通過離線模擬不同序列長度下視覺與語言模塊的算力占比，實現(xiàn)更合理的負載均衡，顯著緩解了負載不均衡導致的tgs下降問題，從而提升了多模態(tài)長序列場景下的整體訓練效率。

通過算法、系統(tǒng)策略與算力基礎設施的協(xié)同演進，Intern-S2-Preview在保持高智能密度的同時，實現(xiàn)了訓練效率、推理性能與部署成本之間的更優(yōu)平衡，也進一步驗證了“通專融合”路線在小參數(shù)、高智能方向上的潛力。

以任務Scaling激發(fā)模型潛力

以強化學習加速“通專融合”

將萬億參數(shù)規(guī)模的科學多模態(tài)大模型濃縮為高效、易用的基座模型，是一項極具挑戰(zhàn)的工作。其實現(xiàn)路徑的核心思路，來自上海AI實驗室對“通專融合”技術路線的持續(xù)探索。研究團隊發(fā)現(xiàn)，模型能力進化并非僅依賴傳統(tǒng)的參數(shù)擴容與數(shù)據(jù)增量外，通過提升任務難度、豐富任務多樣性，亦可持續(xù)拉升模型能力上限，具備Scaling效應。

相較于Intern-S1-Pro，Intern-S2-Preview進一步將專業(yè)科學任務擴展為“全鏈路訓練”范式：每一個專業(yè)科學任務均配備從預訓練到后訓練的高質量數(shù)據(jù)與訓練策略，并依托穩(wěn)定高效的訓練基礎設施，實現(xiàn)多任務融合訓練。在這一過程中，當大量高難度、多樣化任務進行統(tǒng)一融合訓練時，小模型能夠在多項科學任務上達到萬億參數(shù)模型的表現(xiàn)水平。這其中的關鍵在于全鏈路的“通專融合”機制：若僅優(yōu)化單一訓練階段，往往會出現(xiàn)能力之間的“此消彼長”；而在全鏈路融合后，不同任務之間反而形成相互促進的協(xié)同效應，從而進一步釋放模型在復雜科學任務中的整體潛力。

強化學習是實現(xiàn)“通專融合”的核心動力之一，Intern-S2-Preview重點通過拓展強化學習的規(guī)模開展多方面探索：

引導模型利用思維鏈來完成生物多組學理解等專業(yè)科學任務，利用思維鏈的泛化性，實現(xiàn)以35B小參數(shù)模型比肩萬億參數(shù)模型的性能；

延長強化學習的訓練步長，結合更加高難度（如研究生級別）的學科推理問題和專業(yè)科學任務，使得小模型能夠在各類問題上得到充分訓練，最終融會貫通，具備跨域推理能力；

基于數(shù)據(jù)思維密度（IQPT，Intelligence Quality per token）理念，探索思維鏈折疊等創(chuàng)新算法，通過構建數(shù)據(jù)思維密度杠桿，撬動模型性能提升。其中，在數(shù)學推理任務中，Intern-S2-Preview以相同的單位智能，性能比肩最新8倍參數(shù)量模型（35B對比284B），實現(xiàn)性能與效率的雙重突破。

科學能力持續(xù)升級

結構理解與生成性能超越主流閉源模型

Intern-S2-Preview以賦能科學發(fā)現(xiàn)為核心目標，聚焦更復雜的科學場景開展探索。以小分子結構空間建模能力為例，其作為模型精準認知分子、晶體等微觀結構的核心支撐，既決定了結構理解與生成的精度上限，也是適配復雜科研場景的重要前提。科研團隊在此前引入傅里葉位置編碼（FoPE）、重構時序編碼器等創(chuàng)新的基礎上，進一步強化該能力，并引入實數(shù)預測模塊，首次在開源通用大模型中實現(xiàn)了材料晶體結構生成能力。

為精準驗證這一能力，團隊選取MolecularIQ評測集開展專項測試——該評測集重點考察模型對分子內(nèi)部結構的空間建模與拓撲理解能力，相比傳統(tǒng)僅通過分子式構成即可完成的任務，挑戰(zhàn)性顯著提升。評測結果顯示：Intern-S2-Preview在MolecularIQ上取得57.26分，超過Gemini-3.1-Pro的41.33分。

如果說結構理解主要服務于科研中的分析與篩選環(huán)節(jié)，那么結構生成則是推動科研創(chuàng)新的“創(chuàng)造性任務”。其中，材料晶體結構生成領域此前長期依賴專業(yè)模型，而Intern-S2-Preview不僅填補了開源通用大模型在該領域的空白，也是首個能給出思考過程的結構生成模型。該任務需要模型生成數(shù)十個高精度的空間坐標以描述材料晶體結構，GPT-5.5等閉源模型生成的結構通過率約為10%，而Intern-S2-Preview的通過率超40%，顯著提升了結構生成質量與可用性，為科研創(chuàng)新提供高效支撐。

通過上述創(chuàng)新，Intern-S2-Preview在無需依賴擴散模型的前提下，仍具備高精度坐標回歸的潛力，這不僅降低了相關任務的實現(xiàn)成本，更為各類坐標回歸類科研任務提供了全新的技術解決方案。

科學智能體能力升級

高效支撐復雜科研任務

得益于訓練階段引入系統(tǒng)化任務合成方法，Intern-S2-Preview通用智能體能力得到進一步提升。團隊依托開源社區(qū)技能倉庫與真實工具生態(tài)，構建貼近實際應用場景的高質量智能體訓練數(shù)據(jù)，重點強化模型對復雜任務的步驟拆解、技能調(diào)用與自主執(zhí)行能力，有效拓寬了從多輪對話到復雜任務規(guī)劃、自主落地執(zhí)行的能力邊界。

在真實沙盒環(huán)境長程任務求解場景中，Intern-S2-Preview在PinchBench等通用智能體評測基準中展現(xiàn)出穩(wěn)健的任務理解、工具調(diào)用、多步?jīng)Q策與狀態(tài)追蹤能力，能夠在動態(tài)環(huán)境中持續(xù)完成任務執(zhí)行，并根據(jù)環(huán)境反饋進行自我修正。同時，憑借持續(xù)增強的科學推理能力，Intern-S2-Preview在面向科學編程與算法求解的SciCode基準上表現(xiàn)優(yōu)異，位居同量級模型前列，具備強勁的科學代碼生成能力，可高效支撐科學計算、算法開發(fā)與科研腳本編寫等復雜科研任務。

自2023年書生大模型首次發(fā)布以來，上海AI實驗室已逐步構建起豐富的書生大模型家族。同時首創(chuàng)并開源了面向大模型研發(fā)與應用的全鏈路開源工具體系，包含訓練框架XTuner、部署推理框架LMDeploy、評測框架OpenCompass、高效文檔解析工具MinerU，形成覆蓋數(shù)十萬開發(fā)者參與的活躍開源社區(qū)。

自發(fā)布以來，Intern-S1多次登頂HuggingFace全球多模態(tài)榜單，累計下載量超過100萬次。其卓越的跨模態(tài)科學理解能力不僅為科研提供了高效工具，也通過開源降低了全球科研團隊邁入AGI for Science的門檻。未來，上海AI實驗室將繼續(xù)推動模型能力提升與科研范式創(chuàng)新，與全球合作伙伴共同構建更加開放、高效的科學AI生態(tài)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關注

關注
91

文章
41796

瀏覽量
302970
開源

開源

+關注

關注
3

文章
4408

瀏覽量
46557
大模型

大模型

+關注

關注
2

文章
3848

瀏覽量
5289

原文標題：書生科學多模態(tài)大模型Intern-S2-Preview發(fā)布并開源，昇騰訓推全流程賦能“科學大腦”

文章出處：【微信號：HWS_yunfuwu，微信公眾號：華為數(shù)字中國】歡迎添加關注！文章轉載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

華為昇騰助力書生科學多模態(tài)大模型Intern-S2-Preview發(fā)布

評論