日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OneFlow 將 Stable Diffusion的推理性能推向了一個全新的SOTA

人工智能與大數(shù)據(jù)技術 ? 來源:機器之心 ? 作者:機器之心 ? 2022-11-30 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

OneFlow 將 Stable Diffusion 的推理性能推向了一個全新的 SOTA。

第一輛汽車誕生之初,時速只有 16 公里,甚至不如馬車跑得快,很長一段時間,汽車尷尬地像一種“很酷的玩具”。人工智能作圖的出現(xiàn)也是如此。

AI 作圖一開始的 “風格化” 本身就為 “玩” 而生,大家普遍興致勃勃地嘗試頭像生成、磨皮,但很快就失去興趣。直到擴散模型的降臨,才給 AI 作圖帶來質變,讓人們看到了 “AI 轉成生產(chǎn)力” 的曙光:畫家、設計師不用絞盡腦汁思考色彩、構圖,只要告訴 Diffusion 模型想要什么,就能言出法隨般地生成高質量圖片。

然而,與汽車一樣,如果擴散模型生成圖片時“馬力不足”,那就沒法擺脫玩具的標簽,成為人類手中真正的生產(chǎn)工具。

起初,AI 作圖需要幾天,再縮減到幾十分鐘,再到幾分鐘,出圖時間在不斷加速,問題是,究竟快到什么程度,才會在專業(yè)的美術從業(yè)者甚至普通大眾之間普及開來?

顯然,現(xiàn)在還無法給出具體答案。即便如此,可以確定的是 AI 作圖在技術和速度上的突破,很可能已經(jīng)接近甚至超過閾值,因為這一次,OneFlow 帶來了字面意義上 “一秒出圖” 的 Stable Diffusion 模型。

OneFlow Stable Diffusion 使用地址:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

OneFlow 地址:https://github.com/Oneflow-Inc/oneflow/

比快更快,OneFlow 一馬當先

下面的圖表分別展示了在 A100 (PCIe 40GB / SXM 80GB)、RTX 2080 和 T4 不同類型的 GPU 硬件上,分別使用 PyTorch, TensorRT, AITemplate 和 OneFlow 四種深度學習框架或者編譯器,對 Stable Diffusion 進行推理時的性能表現(xiàn)。

659d18c6-7050-11ed-8abf-dac502259ad0.png

65b0bbce-7050-11ed-8abf-dac502259ad0.png

對于 A100 顯卡,無論是 PCIe 40GB 的配置還是 SXM 80GB 的配置,OneFlow 的性能可以在目前的最優(yōu)性能之上繼續(xù)提升 15% 以上。

特別是在 SXM 80GB A100 上,OneFlow 首次讓 Stable Diffusion 的推理速度達到了 50it/s 以上,首次把生成一張圖片需要采樣 50 輪的時間降到 1 秒以內,是當之無愧的性能之王。

65bb3a0e-7050-11ed-8abf-dac502259ad0.png

在 T4 推理卡上,由于 AITemplate 暫不支持 Stable Diffsuion,相比于目前 SOTA 性能的 TensorRT,OneFlow 的性能是它的 1.5 倍。

65c97db2-7050-11ed-8abf-dac502259ad0.png

而在 RTX2080 上,TensorRT 在編譯 Stable Diffsuion 時會 OOM ,相比于目前 SOTA 性能的 PyTorch,OneFlow 的性能是它的 2.25 倍。

綜上,在各種硬件以及更多框架的對比中,OneFlow 都將 Stable Diffusion 的推理性能推向了一個全新的 SOTA。

生成圖片展示

利用 OneFlow 版的 Stable Diffusion,你可以把天馬行空的想法很快轉化成藝術圖片,譬如:

以假亂真的陽光、沙灘和椰樹:

倉鼠救火員、長兔耳朵的狗子:

在火星上吃火鍋:

未來異世界 AI:

集齊 OneFlow 七龍珠:

圖片均基于 OneFlow 版 Stable Diffusion 生成。如果你一時沒有好的 idea,可以在 lexica 上參考一下廣大網(wǎng)友的創(chuàng)意,不僅有生成圖片還提供了對應的描述文字。

無縫兼容 PyTorch 生態(tài),實現(xiàn)一鍵模型遷移

想體驗 OneFlow Stable Diffusion?只需要修改三行代碼,你就可以將 HuggingFace 中的 PyTorch Stable Diffusion 模型改為 OneFlow 模型,分別是將 import torch 改為 import oneflow as torch 和將 StableDiffusionPipeline 改為 OneFlowStableDiffusionPipeline:

669e52e4-7050-11ed-8abf-dac502259ad0.png

之所以能這么輕松遷移模型,是因為 OneFlow Stable Diffusion 有兩個出色的特性:

OneFlowStableDiffusionPipeline.from_pretrained 能夠直接使用 PyTorch 權重。

OneFlow 本身的 API 也是和 PyTorch 對齊的,因此 import oneflow as torch 之后,torch.autocast、torch.float16 等表達式完全不需要修改。

上述特性使得 OneFlow 兼容了 PyTorch 的生態(tài),這不僅在 OneFlow 對 Stable Diffusion 的遷移中發(fā)揮了作用,也大大加速了 OneFlow 用戶遷移其它許多模型,比如在和 torchvision 對標的 flowvision 中,許多模型只需通過在 torchvision 模型文件中加入 import oneflow as torch 即可得到。

此外,OneFlow 還提供全局 “mock torch” 功能,在命令行運行 eval $(oneflow-mock-torch) 就可以讓接下來運行的所有 Python 腳本里的 import torch 都自動指向 oneflow。

使用 OneFlow 運行 Stable Diffusion

在 docker 中使用 OneFlow 運行 StableDiffusion 模型生成圖片:

docker run --rm -it --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -v ${HF_HOME}:${HF_HOME} -v ${PWD}:${PWD} -w ${PWD} -e HF_HOME=${HF_HOME} -e HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN} oneflowinc/oneflow-sd:cu112 python3 /demos/oneflow-t2i.py # --prompt "a photo of an astronaut riding a horse on mars"

更詳盡的使用方法請參考:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

后續(xù)工作

后續(xù) OneFlow 團隊將積極推動 OneFlow 的 diffusers(https://github.com/Oneflow-Inc/diffusers.git) 和 transformers(https://github.com/Oneflow-Inc/transformers.git) 的 fork 倉庫內容合并到 huggingface 上游的的對應倉庫。這也是 OneFlow 首次以 transformers/diffusers 的后端的形式開發(fā)模型,歡迎各位開發(fā)者朋友在 GitHub 上反饋意見。

值得一提的是,在優(yōu)化和加速 Stable Diffusion 模型的過程中使用了 OneFlow 自研編譯器,不僅讓 PyTorch 前端搭建的 Stable Diffusion 在 NVIDIA GPU 上跑得更快,而且也可以讓這樣的模型在國產(chǎn) AI 芯片和 GPU 上跑得更快,這些將在之后的文章中揭秘技術細節(jié)。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    41333

    瀏覽量

    302731
  • 人工智能
    +關注

    關注

    1821

    文章

    50368

    瀏覽量

    267078
  • 開源
    +關注

    關注

    3

    文章

    4368

    瀏覽量

    46475

原文標題:1秒出圖,這個開源項目太牛了!

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    今日看點:消息稱 AMD、高通考慮導入 SOCAMM 內存;曦望發(fā)布新推理GPU芯片啟望S3

    推理深度定制的GPGPU芯片。其單芯片推理性能提升5倍,支持從FP16到FP8、FP6、FP4等多精度靈活切換,釋放低精度推理效率,這種設計更貼合當前MoE和長上下文模型在推理階段的需
    發(fā)表于 01-28 11:09 ?1365次閱讀

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 與 x86 平臺交付可規(guī)模化的高性能 OCR 能力

    落地過程中,企業(yè)逐漸意識到:** 制約 OCR 應用進步擴展的核心因素,已不再是模型準確率本身,而是整體推理性能與部署成本。 具體來說,規(guī)模化 OCR 應用主要面臨以下幾方面挑戰(zhàn): 吞吐量(FPS)不足 ,難以支撐高并發(fā)或多路輸入場景;
    的頭像 發(fā)表于 01-22 21:02 ?360次閱讀
    DeepX OCR:以 DeepX NPU 加速 PaddleOCR <b class='flag-5'>推理</b>,在 ARM 與 x86 平臺交付可規(guī)?;母?b class='flag-5'>性能</b> OCR 能力

    本地部署Stable Diffusion實現(xiàn)AI文字生成高質量矢量圖片應用于電子商務

    本地部署Stable Diffusion
    的頭像 發(fā)表于 11-28 07:19 ?932次閱讀

    通過NVIDIA Jetson AGX Thor實現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構的新 NVFP4 格式,有助于進步優(yōu)化推理性能。該平臺同時支持推測解碼等新技術,為在邊緣端加速生成式 AI 工作負載提供
    的頭像 發(fā)表于 10-29 16:53 ?1697次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這目標,其構建了多維度的核心實現(xiàn)路徑:
    的頭像 發(fā)表于 10-21 11:04 ?1465次閱讀

    利用NVIDIA DOCA GPUNetIO技術提升MoE模型推理性能

    在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證開發(fā)者與 NVIDIA 網(wǎng)絡技術的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現(xiàn)在 AI 網(wǎng)絡、存儲和安全等領域的創(chuàng)新突破。
    的頭像 發(fā)表于 09-23 15:25 ?1248次閱讀

    使用NVIDIA NVLink Fusion技術提升AI推理性能

    本文詳細闡述 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?1166次閱讀
    使用NVIDIA NVLink Fusion技術提升AI<b class='flag-5'>推理性能</b>

    使用OpenVINOPP-OCRv5模型部署在Intel顯卡上

    用于優(yōu)化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不僅支持以卷積神經(jīng)網(wǎng)絡(CNN)為核心組件的預測式AI模型(Predictive AI),還支持以Transformer為核心組件的生成式AI模型(Gen
    的頭像 發(fā)表于 09-20 11:17 ?1447次閱讀
    使用OpenVINO<b class='flag-5'>將</b>PP-OCRv5模型部署在Intel顯卡上

    DeepSeek R1 MTP在TensorRT-LLM中的實現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現(xiàn)大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4736次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的實現(xiàn)與優(yōu)化

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIA 在 NVIDIA Blackwell 架構上優(yōu)化了這兩款全新的開放權重模型并實現(xiàn)推理性能加速,在 NVIDIA 系統(tǒng)上至高達到每秒 150 萬
    的頭像 發(fā)表于 08-15 20:34 ?2542次閱讀
    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS<b class='flag-5'>推理</b>

    華為亮相2025金融AI推理應用落地與發(fā)展論壇

    創(chuàng)新技術——UCM推理記憶數(shù)據(jù)管理器,旨在推動AI推理體驗升級,提升推理性價比,加速AI商業(yè)正循環(huán)。同時,華為攜手中國銀聯(lián)率先在金融典型場景開展UCM技術試點應用,并聯(lián)合發(fā)布智慧金融AI推理
    的頭像 發(fā)表于 08-15 09:45 ?1412次閱讀

    求助,關于TC387使能以及配置SOTA些問題求解

    你好, 之前我拿到貴司給demo,里面有些使能以及配置SWAP的代碼, 這里有些疑問 問題1. 判斷SOTA功能是否生效,demo中使用的是 SCU_STMEM1中的bit位
    發(fā)表于 08-08 07:31

    中軟國際智算中心成功完成華為EP方案驗證

    在大模型邁向規(guī)?;瘧玫男码A段,推理性能成為決定AI落地成敗的關鍵因素。中軟國際智算中心積極響應國產(chǎn)智算體系建設戰(zhàn)略,率先完成華為昇騰“大規(guī)模專家并行”(EP)推理方案驗證,在DeepSeek-R1模型推理任務中實現(xiàn)3倍單卡吞吐
    的頭像 發(fā)表于 07-14 14:54 ?1545次閱讀

    大模型推理顯存和計算量估計方法研究

    ,為實際應用提供有益的參考。 未來,我們繼續(xù)深入研究大模型推理的優(yōu)化方法,以降低顯存和計算資源的需求,提高深度學習模型在實際應用中的性能。
    發(fā)表于 07-03 19:43

    英偉達Q3發(fā)布新代人工智能系統(tǒng)

    的電氣機械,但是確是全面升級的代,GB300 升級到了 Grace Blackwell Ultra 架構,而且推理性能、HBM 內存容量、網(wǎng)絡性能都有大幅提升。
    的頭像 發(fā)表于 05-19 18:02 ?788次閱讀
    房山区| 巴青县| 鄂尔多斯市| 德清县| 田林县| 永福县| 右玉县| 兴安县| 桃江县| 偏关县| 宜都市| 克拉玛依市| 夏邑县| 崇仁县| 内丘县| 吴川市| 敦化市| 永和县| 敦煌市| 凤山市| 禹州市| 洪洞县| 英山县| 奉化市| 博白县| 嘉义市| 平定县| 婺源县| 大冶市| 扶风县| 德令哈市| 浏阳市| 始兴县| 大竹县| 江津市| 格尔木市| 丘北县| 黄山市| 荃湾区| 亚东县| 太湖县|