4999av在线,曰曰骚aV一区

電子發(fā)燒友網(wǎng)報(bào)道（文/莫婷婷）1月16日，智譜宣布聯(lián)合華為開(kāi)源最新圖像生成模型GLM-Image登頂Hugging Face Trending。

這一事件之所以引發(fā)廣泛關(guān)注，核心在于三個(gè)關(guān)鍵詞：開(kāi)源、SOTA性能、全棧國(guó)產(chǎn)。尤其值得注意的是，GLM-Image從數(shù)據(jù)預(yù)處理到大規(guī)模預(yù)訓(xùn)練全程運(yùn)行在華為昇騰Atlas 800T A2芯片與昇思MindSpore框架之上，這意味著，在高性能算力長(zhǎng)期被海外巨頭壟斷的背景下，中國(guó)團(tuán)隊(duì)首次用純國(guó)產(chǎn)算力底座，訓(xùn)練出達(dá)到世界領(lǐng)先水平的多模態(tài)SOTA模型。

GLM-Image創(chuàng)新架構(gòu)引領(lǐng)新紀(jì)元，知識(shí)密集型場(chǎng)景成新戰(zhàn)場(chǎng)

智譜此次GLM-Image的破局點(diǎn)，在于并非簡(jiǎn)單復(fù)刻Stable Diffusion或Flux的技術(shù)路徑，而是面向新一代“認(rèn)知型生成”范式，提出創(chuàng)新的 “自回歸 + 擴(kuò)散解碼器”混合架構(gòu)。

根據(jù)官方介紹，“自回歸 + 擴(kuò)散解碼器”混合架構(gòu)具備以下亮點(diǎn)，兼顧全局指令理解與局部細(xì)節(jié)刻畫(huà)，其中9B大小的自回歸模型可以負(fù)責(zé)理解語(yǔ)義、畫(huà)面的全局構(gòu)圖，7B大小的擴(kuò)散解碼器專(zhuān)注高頻細(xì)節(jié)還原與文字筆畫(huà)精準(zhǔn)生成。

這種架構(gòu)讓GLM-Image在權(quán)威評(píng)測(cè)中脫穎而出：

在 CVTG-2K（復(fù)雜視覺(jué)文字生成）榜單上，以 0.9116 的文字準(zhǔn)確率和 0.9557 的歸一化編輯距離（NED）雙項(xiàng)第一；在 LongText-Bench（長(zhǎng)文本渲染）中，中文得分高達(dá) 0.979，英文 0.952，穩(wěn)居開(kāi)源榜首。

從智譜給出的GLM-Image生成圖片示例可以看到，GLM-Image擅長(zhǎng)畫(huà)出包含邏輯流程的科普插畫(huà)、小紅書(shū)等社交媒體風(fēng)格較為明顯的圖文，以及商業(yè)海報(bào)、人像等。

圖：GLM-Image生成圖片示例

筆者實(shí)測(cè)發(fā)現(xiàn)，GLM-Image在整體畫(huà)風(fēng)上保持了較高的一致性，尤其在科普插畫(huà)的邏輯表達(dá)方面表現(xiàn)較好，但在文字生成的準(zhǔn)確性上仍存在個(gè)別偏差。

當(dāng)前，圖像生成領(lǐng)域競(jìng)爭(zhēng)激烈。谷歌憑借其Gemini生態(tài)推出的 Nano Banana Pro，以“企業(yè)級(jí)”畫(huà)質(zhì)和強(qiáng)大的語(yǔ)言-圖像協(xié)同能力，成為閉源圖像生成模型的標(biāo)桿產(chǎn)品；國(guó)內(nèi)如阿里通義萬(wàn)相、字節(jié)即夢(mèng)等也紛紛推出多模態(tài)生圖產(chǎn)品。

筆者用同樣的提示詞對(duì)比谷歌Nano Banana、ChatGPT、即夢(mèng)等3款常見(jiàn)模型，看到，不同的大模型有各自的風(fēng)格。

提示詞：赤壁之戰(zhàn)，三國(guó)演義經(jīng)典場(chǎng)景，熊熊大火燃燒曹軍連環(huán)戰(zhàn)船，火光沖天映紅長(zhǎng)江夜空，周瑜指揮若定羽扇指揮，諸葛亮祭東風(fēng)法壇作法，火攻場(chǎng)面震撼，古代中國(guó)水戰(zhàn)，千帆競(jìng)渡，箭矢如雨，煙霧彌漫，史詩(shī)級(jí)戰(zhàn)爭(zhēng)畫(huà)面，傳統(tǒng)中國(guó)畫(huà)風(fēng)與電影感結(jié)合，極致細(xì)節(jié)，電影級(jí)光影，8k，超震撼。

生成的圖片如下圖所示：

圖：GLM-Image生成的圖片

GLM-Image具有漫畫(huà)或游戲原畫(huà)風(fēng)格，色彩飽和度高，線(xiàn)條分明。

圖：NanoBanana生成的圖片

Nano Banana 以“高質(zhì)量、高分辨率、強(qiáng)氛圍渲染”著稱(chēng)，對(duì)動(dòng)態(tài)火焰、水波反射、衣袍飄動(dòng)等細(xì)節(jié)繪制精準(zhǔn)。

圖：ChatGPT生成的圖片

ChatGPT具備復(fù)雜場(chǎng)景構(gòu)建、多物體協(xié)調(diào)，細(xì)節(jié)較為豐富，帶有戰(zhàn)爭(zhēng)史詩(shī)感。

圖：即夢(mèng)生成的圖片

即夢(mèng)在中文語(yǔ)境中則注重歷史文化準(zhǔn)確性和中國(guó)美學(xué)表達(dá)，還原古代戰(zhàn)船結(jié)構(gòu)、旗幟樣式等細(xì)節(jié)。

依舊可以期待的是，隨著技術(shù)的迭代，這些多模態(tài)圖像生成大模型生成的圖片不僅畫(huà)面精美，而且漢字準(zhǔn)確率也大幅提升，拓展了海報(bào)、PPT、科普?qǐng)D等更多知識(shí)密集型場(chǎng)景。

文字渲染達(dá)開(kāi)源SOTA，昇騰A2+MindSpore的硬核協(xié)同

智譜認(rèn)為以Nano Banana Pro為代表的閉源圖像生成模型正在推動(dòng)圖像生成與大語(yǔ)言模型的深度融合。技術(shù)范式正從單一的圖像生成，進(jìn)化為兼具世界知識(shí)與推理能力的認(rèn)知型生成。

GLM-Image通過(guò)架構(gòu)創(chuàng)新探索多模態(tài)大模型的技術(shù)路徑。如果說(shuō)架構(gòu)創(chuàng)新是GLM-Image的“靈魂”，那么華為昇騰與昇思MindSpore提供的全棧國(guó)產(chǎn)算力底座，則是其得以落地的“基石”。

在當(dāng)前高性能GPU受限的背景下，訓(xùn)練一個(gè)數(shù)十億參數(shù)、支持2048×2048分辨率的多模態(tài)SOTA模型，對(duì)算力穩(wěn)定性、通信帶寬和訓(xùn)練效率提出極高要求。傳統(tǒng)觀點(diǎn)認(rèn)為，只有英偉達(dá)的芯片集群才能勝任。但智譜與華為的合作證明：國(guó)產(chǎn)芯片不僅能跑推理，更能支撐最前沿的端到端訓(xùn)練。

資料顯示，GLM-Image的整個(gè)訓(xùn)練生命周期——包括海量圖文數(shù)據(jù)預(yù)處理、大規(guī)模預(yù)訓(xùn)練、監(jiān)督微調(diào)（SFT）及強(qiáng)化學(xué)習(xí)后訓(xùn)練（RL）均在華為Ascend A2芯片集群上完成。

為充分發(fā)揮昇騰NPU潛力，智譜與華為深度協(xié)同，基于昇思MindSpore框架，實(shí)現(xiàn)多項(xiàng)底層優(yōu)化，包括動(dòng)態(tài)圖多級(jí)流水下發(fā)，將Host側(cè)算子下發(fā)的關(guān)鍵階段流水化并高度重疊，消除下發(fā)瓶頸，提升訓(xùn)練能力；多流并行執(zhí)行，打破文本梯度同步、圖像特征廣播等操作的通信墻，提升整體效率。使用AdamW EMA、COC、等昇騰親和高性能融合算子，提升訓(xùn)練的穩(wěn)定性和性能。

智譜指出，傳統(tǒng)模型生成非正方形圖像時(shí)需后期裁剪或重繪，易導(dǎo)致內(nèi)容失真。GLM-Image通過(guò)改進(jìn)Tokenizer策略，原生支持1024×1024至2048×2048任意比例輸出，可直接生成小紅書(shū)封面、電影橫幅等圖片，無(wú)需二次處理，極大提升實(shí)用性。

值得一提的是，GLM-Image是首個(gè)開(kāi)源的工業(yè)級(jí)離散自回歸圖像生成模型。相比閉源的Nano Banana Pro，它不僅性能對(duì)標(biāo)甚至局部超越，還向全球開(kāi)發(fā)者開(kāi)放了完整技術(shù)路徑，為下一代圖像生成模型研究提供了新范本。

結(jié)語(yǔ)：國(guó)產(chǎn)AI的“分水嶺時(shí)刻”

智譜表示，API調(diào)用模式下，生成一張圖片僅需一毛錢(qián)（0.1元），將高質(zhì)量AI生圖成本降至“白菜價(jià)”，讓中小企業(yè)、獨(dú)立開(kāi)發(fā)者、內(nèi)容創(chuàng)作者都能輕松接入SOTA能力。另一方面，通過(guò)開(kāi)源，GLM-Image為學(xué)術(shù)界和工業(yè)界提供了可復(fù)現(xiàn)、可改進(jìn)的研究基線(xiàn)，有望激發(fā)更多基于“認(rèn)知型生成”的創(chuàng)新應(yīng)用。

更為重要的是，GLM-Image是首個(gè)在國(guó)產(chǎn)芯片上完成全流程訓(xùn)練的SOTA多模態(tài)模型，這也意味著國(guó)產(chǎn)大模型走進(jìn)新的階段。正如智譜所說(shuō)：它驗(yàn)證了在國(guó)產(chǎn)全棧算力底座上訓(xùn)練高性能多模態(tài)生成模型的可行性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

華為

華為

+關(guān)注

關(guān)注
218

文章
36212

瀏覽量
262733
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3797

瀏覽量
5279

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

聯(lián)合華為！國(guó)產(chǎn)大模型登頂全球，0.1元一張圖

評(píng)論

搜索歷史

聯(lián)合華為！國(guó)產(chǎn)大模型登頂全球，0.1元一張圖

評(píng)論

聯(lián)合華為！國(guó)產(chǎn)大模型登頂全球，0.1元一張圖