人人看操妇女,思思热96

2月3日，面壁智能正式發(fā)布并開源了集語言、視覺、語音于一體的全模態(tài)大模型 MiniCPM-o 4.5。作為首個(gè)全雙工全模態(tài)大模型，MiniCPM-o 4.5 首次實(shí)現(xiàn)“類人”感知交互，從“一問一答”變?yōu)椤凹磿r(shí)自由對(duì)話”。

眾智 FlagOS 社區(qū)跟面壁智能深度技術(shù)協(xié)同，通過統(tǒng)一開源的 AI 系統(tǒng)軟件棧 FlagOS 的跨芯片能力，快速實(shí)現(xiàn)了 MiniCPM-o 4.5 模型在 6 家主流硬件平臺(tái)(天數(shù)智芯、華為昇騰、平頭哥、海光、沐曦等)適配、對(duì)齊評(píng)測和開源上線。澎峰科技作為社區(qū)成員積極參與了vLLM-plugin-FL等關(guān)鍵組件的構(gòu)建與優(yōu)化工作。在保證模型精度完全一致的前提下，基于 FlagOS 版本的 MiniCPM-o 4.5 在 6 種芯片上均獲得端到端推理性能提升(硬件一致下，F(xiàn)lagOS 版本相比 CUDA 版本提升端到端推理效率 6.10%)，不同場景下平均加速比為7.76%—22.4%。這是業(yè)界首次實(shí)現(xiàn) “跨芯適配規(guī)模化、推理效率高效化”雙重目標(biāo)的典范，為多元 AI 芯片生態(tài)下的模型部署樹立全新標(biāo)桿。

FlagOS：面向多種 AI 芯片的系統(tǒng)軟件棧

FlagOS Inside：

實(shí)現(xiàn) MiniCPM-o 4.5 在多家芯片的快速適配

MiniCPM-o 4.5 能在較短時(shí)間被適配到 6 種不同 AI 芯片，得益于眾智 FlagOS 的多芯片統(tǒng)一 AI 系統(tǒng)軟件棧能力。

統(tǒng)一多芯片接入插件 vLLM-plugin-FL：在不改變 vLLM 原有接口和使用習(xí)慣的情況下，絲滑實(shí)現(xiàn) MiniCPM-o 4.5 的多芯片推理部署。

高性能算子庫FlagGems：全覆蓋 MiniCPM-o 4.5 的主流 PyTorch Aten 算子，并支持多種 AI 芯片。

統(tǒng)一 AI 編譯器FlagTree：將 MiniCPM-o 4.5 主流算子編譯成 6 種 AI 芯片后端理解的硬件指令。

vllm-plugin-FL 是一個(gè)為 vLLM 推理/服務(wù)框架構(gòu)建的插件，它基于 FlagOS 的統(tǒng)一多芯片后端開發(fā)，旨在擴(kuò)展 vLLM 在多種硬件環(huán)境下的功能和性能表現(xiàn)。此次，面壁智能一共發(fā)布了2個(gè)推理引擎版本的 MiniCPM-o 4.5 模型，分別是 Transformer 和 vLLM。使用 vLLM 推理引擎的 MiniCPM-o 4.5 模型中，vLLM-plugin-FL 基于 Python 的 EntryPoint 機(jī)制把 MiniCPM-o 4.5 模型結(jié)構(gòu)注冊(cè)到 vLLM 支持的模型中，利用統(tǒng)一多芯片高性能算子庫 FlagGems 和統(tǒng)一多后端通信庫 FlagCX，實(shí)現(xiàn)同一套代碼流程多芯片執(zhí)行 MiniCPM-o 4.5。

在代碼實(shí)現(xiàn)層面，眾智 FlagOS 將 FlagGems 算子庫及其運(yùn)行依賴的編譯器 FlagTree 前置性內(nèi)置，并集成到MiniCPM-o 4.5 的模型代碼框架。開發(fā)者在使用 MiniCPM-o 4.5 時(shí)，無需手動(dòng)添加任何啟用 FlagOS 的初始化代碼，就能實(shí)現(xiàn)對(duì)核心計(jì)算模塊(如 RMSNorm等)的無縫替換。這意味著，使用者在加載官方模型時(shí)，F(xiàn)lagOS 系統(tǒng)軟件棧代碼已在底層自動(dòng)生效，真正做到 “開箱即用” 。

開發(fā)者無需關(guān)心底層硬件適配與算子優(yōu)化的復(fù)雜細(xì)節(jié)，只需正常調(diào)用模型，即可在保持精度完全一致的同時(shí)，獲得端到端推理的性能提升。為開發(fā)者提供了更流暢、更高效的模型部署體驗(yàn)。

FlagOS 軟件代碼內(nèi)置于 MiniCPM-o 4.5 模型框架：

Python
importtorch
importflag_gems
importtorch.nnasnn
fromflag_gems.experimental_opsimportrmsnormasgems_rmsnorm




classGemsRMSNorm(nn.Module):
 def__init__(self, hidden_size, eps=1e-6):
super().__init__()
   self.weight = nn.Parameter(torch.ones(hidden_size))
   self.variance_epsilon = eps
 
 defforward(self, hidden_states):
returngems_rmsnorm(hidden_states,self.weight,self.variance_epsilon)
 
 
 defextra_repr(self):
returnf"{tuple(self.weight.shape)}, eps={self.variance_epsilon}"




fromtransformers.models.qwen3importmodeling_qwen3
fromtransformers.models.llamaimportmodeling_llama
modeling_qwen3.Qwen3RMSNorm = GemsRMSNorm
modeling_llama.LlamaRMSNorm = GemsRMSNorm




flag_gems.only_enable(record=True, once=True, path="/root/gems.txt", include=["cumsum","gather","scatter","clamp"])

基于 FlagOS 跨平臺(tái)能力，MiniCPM-o 4.5 實(shí)現(xiàn)在 6 家硬件平臺(tái)的兼容適配，涵蓋 NPU、GPGPU、DSA等多種芯片架構(gòu)。FlagOS 作為開源、統(tǒng)一的 AI 系統(tǒng)技術(shù)棧，能夠高效解決大模型因硬件生態(tài)碎片化導(dǎo)致的“跨平臺(tái)兼容難”行業(yè)難題，展示出加速模型“一次開發(fā)，多芯使用”的巨大潛力。

針對(duì)不同硬件平臺(tái)優(yōu)化后的 MiniCPM-o 4.5 模型，眾智 FlagOS 社區(qū)已通過FlagRelease項(xiàng)目在 HuggingFace、魔搭社區(qū)、魔樂社區(qū)等主流開源社區(qū)平臺(tái)發(fā)布(后續(xù)將陸續(xù)上線阿里云、騰訊云、煥新平臺(tái)等平臺(tái))。

隨著芯片硬件的持續(xù)適配，F(xiàn)lagOS 將加速大模型獲得更廣泛的硬件支持，幫助用戶實(shí)現(xiàn)更低的成本、更靈活的硬件選型方案。

通過 vLLM-plugin-FL 直接使用多芯版 MiniCPM-o 4.5 模型(vLLM 推理引擎)

利用 vLLM-plugin-FL 啟動(dòng) MiniCPM-o 4.5 模型的部署步驟可以參考以下一站式文檔。當(dāng)前 vLLM-plugin-FL已經(jīng)在英偉達(dá)、華為昇騰和平頭哥真武810E進(jìn)行驗(yàn)證。

gitcode：https://gitcode.com/flagos-ai/vllm-plugin-FL/blob/main/examples/minicpm/README.md

github：https://github.com/flagos-ai/vllm-plugin-FL/blob/main/examples/minicpm/README.md

為解決芯片硬件生態(tài)割裂、模型遷移效率不足和大模型應(yīng)用落地難等行業(yè)痛點(diǎn)，面向多種 AI 芯片的統(tǒng)一、開源系統(tǒng)軟件棧 “眾智 FlagOS” 形成了具備高性能通用 AI 算子庫FlagGems/FlagAttention、統(tǒng)一 AI 編譯器 FlagTree、大模型訓(xùn)推一體框架 FlagScale 和統(tǒng)一通信庫 FlagCX 的完整核心技術(shù)庫，并基于 4 個(gè)核心技術(shù)庫搭建面向開發(fā)者用戶的一站式工具平臺(tái) KernelGen、FlagRelease 和 FlagPerf。為推動(dòng) AI 系統(tǒng)軟件邁入“一次開發(fā)、跨芯片運(yùn)行、多框架支持”的新階段，眾智 FlagOS 進(jìn)一步加強(qiáng)技術(shù)創(chuàng)新，加快生態(tài)使能 vllm-plugin-FL、Megatron-LM-FL 和 TransformerEngine-FL 的建設(shè)，逐步整合算力與開源生態(tài)，加速 AI 從實(shí)驗(yàn)室走向規(guī)?；瘧?yīng)用。

關(guān)于眾智 FlagOS 社區(qū)

為解決不同 AI 芯片大規(guī)模落地應(yīng)用，北京智源研究院聯(lián)合眾多科研機(jī)構(gòu)、芯片企業(yè)、系統(tǒng)廠商、算法和軟件相關(guān)單位等國內(nèi)外機(jī)構(gòu)共同發(fā)起并創(chuàng)立了眾智 FlagOS 社區(qū)。成員單位包括北京智源研究院、中科院計(jì)算所、中科加禾、安謀科技、北京大學(xué)、北京師范大學(xué)、百度飛槳、硅基流動(dòng)、寒武紀(jì)、海光信息、華為、基流科技、摩爾線程、沐曦科技、澎峰科技、清微智能、天數(shù)智芯、先進(jìn)編譯實(shí)驗(yàn)室、移動(dòng)研究院、中國礦業(yè)大學(xué)(北京)等多家在 FlagOS 軟件棧研發(fā)中做出卓越貢獻(xiàn)的單位。

FlagOS 是一款專為異構(gòu) AI 芯片打造的開源、統(tǒng)一系統(tǒng)軟件棧，支持 AI 模型一次開發(fā)即可無縫移植至各類硬件平臺(tái)，大幅降低遷移與適配成本。它包括大型算子庫、統(tǒng)一AI編譯器、并行訓(xùn)推框架、統(tǒng)一通信庫等核心開源項(xiàng)目，致力于構(gòu)建「模型-系統(tǒng)-芯片」三層貫通的開放技術(shù)生態(tài)，通過“一次開發(fā)跨芯遷移”釋放硬件計(jì)算潛力，打破不同芯片軟件棧之間生態(tài)隔離。

未來，澎峰科技將持續(xù)投入，積極參與并推動(dòng)更多開源及商業(yè)模型基于FlagOS的適配與性能優(yōu)化工作。我們堅(jiān)信，開源協(xié)作是構(gòu)建繁榮、高效算力生態(tài)的核心。澎峰科技期待與所有社區(qū)伙伴及產(chǎn)業(yè)同仁繼續(xù)并肩，將FlagOS打造為支撐AI創(chuàng)新的堅(jiān)實(shí)底座，共同推動(dòng)多元算力生態(tài)走向深度融合與開放共贏。

官網(wǎng)：https://flagos.io

GitHub 項(xiàng)目地址：https://github.com/flagos-ai

GitCode 項(xiàng)目地址：https://gitcode.com/flagos-ai

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
41315

瀏覽量
302690
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
2166

瀏覽量
36869
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3796

瀏覽量
5276

原文標(biāo)題：業(yè)界首次！眾智FlagOS實(shí)現(xiàn)面壁新模型MiniCPM-o 4.5 “發(fā)布即6芯適配”，性能普遍超過原生

文章出處：【微信號(hào)：perfxlab，微信公眾號(hào)：perfxlab】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

眾智FlagOS適配面壁智能開源全模態(tài)大模型MiniCPM-o 4.5

評(píng)論