日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

提高Kubernetes的GPU利用率

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-06-21 15:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了實(shí)現(xiàn)可擴(kuò)展的數(shù)據(jù)中心性能, NVIDIA GPU 已成為必備產(chǎn)品。

NVIDIA GPU 由數(shù)千個計算核支持的并行處理能力對于加速不同行業(yè)的各種應(yīng)用至關(guān)重要。目前,跨多個行業(yè)的計算密集型應(yīng)用程序使用 GPU :

高性能計算,如航空航天、生物科學(xué)研究或天氣預(yù)報

使用 AI 改進(jìn)搜索、推薦、語言翻譯或交通(如自動駕駛)的消費(fèi)者應(yīng)用程序

醫(yī)療保健,如增強(qiáng)型醫(yī)療成像

財務(wù),如欺詐檢測

娛樂,如視覺效果

此范圍內(nèi)的不同應(yīng)用程序可能有不同的計算要求。訓(xùn)練巨型人工智能模型,其中 GPU 批處理并行處理數(shù)百個數(shù)據(jù)樣本,使 GPU 在訓(xùn)練過程中得到充分利用。然而,許多其他應(yīng)用程序類型可能只需要 GPU 計算的一小部分,從而導(dǎo)致大量計算能力的利用不足。

在這種情況下,為每個工作負(fù)載提供適當(dāng)大小的 GPU 加速是提高利用率和降低部署運(yùn)營成本的關(guān)鍵,無論是在本地還是在云中。

為了解決 Kubernetes ( K8s )集群中 GPU 利用率的挑戰(zhàn), NVIDIA 提供了多種 GPU 并發(fā)和共享機(jī)制,以適應(yīng)廣泛的用例。最新添加的是新的 GPU 時間切片 API ,現(xiàn)在在 Kubernetes 中廣泛可用,具有 NVIDIA K8s 設(shè)備插件 0.12.0 和 NVIDIA GPU 操作符 1.11 。它們共同支持多個 GPU 加速工作負(fù)載的時間分割,并在單個 NVIDIA GPU 上運(yùn)行。

在深入研究這一新功能之前,這里有一些關(guān)于您應(yīng)該考慮共享 GPU 的用例的背景知識,并概述了所有可用的技術(shù)。

何時共享 NVIDIA GPU

以下是共享 GPU 資源以提高利用率的一些示例工作負(fù)載:

低批量推理服務(wù) ,它只能在 GPU 上處理一個輸入樣本

高性能計算( HPC )應(yīng)用 ,例如模擬光子傳播,在 CPU (讀取和處理輸入)和 GPU (執(zhí)行計算)之間平衡計算。由于 CPU 核心性能的瓶頸,一些 HPC 應(yīng)用程序可能無法在 GPU 部分實(shí)現(xiàn)高吞吐量。

ML 模型探索的交互式開發(fā) 使用 Jupyter 筆記本電腦

基于 Spark 的數(shù)據(jù)分析應(yīng)用程序 ,其中一些任務(wù)或最小的工作單元同時運(yùn)行,并受益于更好的 GPU 利用率

可視化或脫機(jī)渲染應(yīng)用程序 這可能是突發(fā)性的

希望使用任何可用的 GPU 進(jìn)行測試的 連續(xù)集成/連續(xù)交付( CICD )管道

在本文中,我們將探討在 Kubernetes 集群中共享 NVIDIA GPU 訪問權(quán)限的各種技術(shù),包括如何使用這些技術(shù)以及在選擇正確方法時需要考慮的權(quán)衡。

GPU 并發(fā)機(jī)制

NVIDIA GPU 硬件結(jié)合 CUDA 編程模型,提供了許多不同的并發(fā)機(jī)制,以提高 GPU 的利用率。這些機(jī)制包括從編程模型 API (應(yīng)用程序需要更改代碼以利用并發(fā))到系統(tǒng)軟件和硬件分區(qū)(包括虛擬化),這對應(yīng)用程序是透明的(圖 1 )。

poYBAGKxd5KACIALAACrLb31_0s517.png

圖 1 GPU 并發(fā)機(jī)制

CUDA 流

CUDA 的異步模型意味著您可以使用 CUDA 流,通過單個 CUDA 上下文(類似于 GPU 端的主機(jī)進(jìn)程)并發(fā)執(zhí)行許多操作。

流是一種軟件抽象,它表示一系列命令,這些命令可能是按順序執(zhí)行的計算內(nèi)核、內(nèi)存拷貝等的組合。在兩個不同流中啟動的工作可以同時執(zhí)行,從而實(shí)現(xiàn)粗粒度并行。應(yīng)用程序可以使用 CUDA 流和 優(yōu)先級 流管理并行性。

CUDA 流最大化了推理服務(wù)的 GPU 利用率,例如,通過使用流并行運(yùn)行多個模型。您可以縮放相同的模型,也可以提供不同的模型。有關(guān)更多信息,請參閱 異步并發(fā)執(zhí)行 。

與 streams 的權(quán)衡是,這些 API 只能在單個應(yīng)用程序中使用,因此提供了有限的硬件隔離,因?yàn)樗匈Y源都是共享的,并且可以在各種流之間進(jìn)行錯誤隔離。

時間分片

在處理多個 CUDA 應(yīng)用程序時,每個應(yīng)用程序都可能沒有充分利用 GPU 的資源,您可以使用簡單的超額訂閱策略來利用 GPU 的時間切片調(diào)度器。從 Pascal 體系結(jié)構(gòu)開始, compute preemption 支持這一點(diǎn)。這種技術(shù)有時被稱為暫時 GPU 共享,在不同的 CUDA 應(yīng)用程序之間切換上下文確實(shí)會帶來成本,但一些未充分利用的應(yīng)用程序仍然可以從該策略中受益。

由于 CUDA 11.1 ( R455 +驅(qū)動程序), CUDA 應(yīng)用程序的時間片持續(xù)時間可通過nvidia-smi實(shí)用程序:

$ nvidia-smi compute-policy --help Compute Policy -- Control and list compute policies. Usage: nvidia-smi compute-policy [options] Options include: [-i | --id]: GPU device ID's. Provide comma separated values for more than one device [-l | --list]: List all compute policies [ | --set-timeslice]: Set timeslice config for a GPU: 0=DEFAULT, 1=SHORT, 2=MEDIUM, 3=LONG [-h | --help]: Display help information

當(dāng)許多不同的應(yīng)用程序在 GPU 上進(jìn)行時間切片時,時間切片的折衷是增加延遲、抖動和潛在的內(nèi)存不足( OOM )情況。這一機(jī)制是我們在本文第二部分重點(diǎn)關(guān)注的。

CUDA 多進(jìn)程服務(wù)

您可以進(jìn)一步使用前面描述的超額預(yù)訂策略 CUDA MPS 。 當(dāng)每個進(jìn)程太小而無法使 GPU 的計算資源飽和時, MPS 允許來自不同進(jìn)程(通常是 MPI 列)的 CUDA 內(nèi)核在 GPU 上并發(fā)處理。與時間切片不同, MPS 允許來自不同進(jìn)程的 CUDA 內(nèi)核在 GPU 上并行執(zhí)行。

CUDA 的較新版本(自 CUDA 11.4 +以來)增加了更多細(xì)粒度資源調(diào)配,能夠指定 MPS 客戶端可分配內(nèi)存量(CUDA_MPS_PINNED_DEVICE_MEM_LIMIT)和可用計算量(CUDA_MPS_ACTIVE_THREAD_PERCENTAGE)的限制。有關(guān)這些調(diào)諧旋鈕用法的更多信息,請參閱 Volta MPS 執(zhí)行資源調(diào)配 。

與 MPS 的權(quán)衡是錯誤隔離、內(nèi)存保護(hù)和服務(wù)質(zhì)量( QoS )的限制。所有 MPS 客戶端仍然共享 GPU 硬件資源。你今天可以通過 Kubernetes (庫伯內(nèi)特斯)訪問 CUDA 議員,但 NVIDIA 計劃在未來幾個月改善對議員的支持。

多實(shí)例 GPU ( MIG )

迄今為止討論的機(jī)制要么依賴于使用 CUDA 編程模型 API (如 CUDA 流)對應(yīng)用程序的更改,要么依賴于 CUDA 系統(tǒng)軟件(如時間切片或 MPS )。

使用 MIG ,基于 NVIDIA 安培體系結(jié)構(gòu)的 GPU ,例如 NVIDIA A100 ,可以為 CUDA 應(yīng)用程序安全劃分多達(dá)七個獨(dú)立的 GPU 實(shí)例,為多個應(yīng)用程序提供專用的 GPU 資源。這些包括流式多處理器( SMs )和 GPU 引擎,如復(fù)制引擎或解碼器,為不同的客戶端(如進(jìn)程、容器或虛擬機(jī)( VM ))提供定義的 QoS 和故障隔離。

當(dāng)對 GPU 進(jìn)行分區(qū)時,可以在單個 MIG 實(shí)例中使用之前的 CUDA 流、 CUDA MPS 和時間切片機(jī)制。

有關(guān)更多信息,請參閱 MIG 用戶指南 和 MIG 支持 Kubernetes 。

使用 vGPU 實(shí)現(xiàn)虛擬化

NVIDIA vGPU 使具有完全輸入輸出內(nèi)存管理單元( IOMMU )保護(hù)的虛擬機(jī)能夠同時直接訪問單個物理 GPU 。除了安全性之外, NVIDIA v GPU 還帶來了其他好處,如通過實(shí)時虛擬機(jī)遷移進(jìn)行虛擬機(jī)管理,能夠運(yùn)行混合的 VDI 和計算工作負(fù)載,以及與許多行業(yè)虛擬機(jī)監(jiān)控程序的集成。

在支持 MIG 的 GPU 上,每個 GPU 分區(qū)都作為 VM 的單根 I / O 虛擬化( SR-IOV )虛擬功能公開。所有虛擬機(jī)都可以并行運(yùn)行,而不是分時間運(yùn)行(在不支持 MIG 的 GPU 上)。

表 1 總結(jié)了這些技術(shù),包括何時考慮這些并發(fā)機(jī)制。

在這種背景下,本文的其余部分將重點(diǎn)介紹使用 Kubernetes 中新的時間切片 API 超額訂閱 GPU 。

Kubernetes 中的時間切片支持

NVIDIA GPU 是 推廣為 通過 設(shè)備插件框架 作為 Kubernetes 中的可調(diào)度資源。然而,此框架僅允許將設(shè)備(包括 GPU (作為nvidia.com/gpu)作為整數(shù)資源進(jìn)行廣告,因此不允許過度訂閱。在本節(jié)中,我們將討論一種使用時間切片在 Kubernetes 中超額訂閱 GPU 的新方法。

在討論新的 API 之前,我們將介紹一種新的機(jī)制,用于使用配置文件配置 NVIDIA Kubernetes 設(shè)備插件。

新配置文件支持

Kubernetes 設(shè)備插件提供了許多配置選項(xiàng),這些選項(xiàng)可以設(shè)置為命令行選項(xiàng)或環(huán)境變量,例如設(shè)置 MIG 策略、設(shè)備枚舉等。類似地, gpu-feature-discovery ( GFD )使用類似的選項(xiàng)來生成標(biāo)簽來描述 GPU 節(jié)點(diǎn)。

隨著配置選項(xiàng)變得越來越復(fù)雜,您可以使用配置文件將這些選項(xiàng)表示為 Kubernetes 設(shè)備插件和 GFD ,然后將其部署為configmap對象,并在啟動期間應(yīng)用于插件和 GFD 吊艙。

配置選項(xiàng)在 YAML 文件中表示。在以下示例中,您將各種選項(xiàng)記錄在名為dp-example-config.yaml的文件中,該文件是在/tmp下創(chuàng)建的。

$ cat << EOF > /tmp/dp-example-config.yaml
version: v1
flags: migStrategy: "none" failOnInitError: true nvidiaDriverRoot: "/" plugin: passDeviceSpecs: false deviceListStrategy: "envvar" deviceIDStrategy: "uuid" gfd: oneshot: false noTimestamp: false outputFile: /etc/kubernetes/node-feature-discovery/features.d/gfd sleepInterval: 60s
EOF

然后,通過指定配置文件的位置并使用gfd.enabled=true選項(xiàng)啟動 GFD 來啟動 Kubernetes 設(shè)備插件:

$ helm install nvdp nvdp/nvidia-device-plugin \ --version=0.12.2 \ --namespace nvidia-device-plugin \ --create-namespace \ --set gfd.enabled=true \ --set-file config.map.config=/tmp/dp-example-config.yaml

動態(tài)配置更改

默認(rèn)情況下,該配置應(yīng)用于所有節(jié)點(diǎn)上的所有 GPU 。 Kubernetes 設(shè)備插件允許指定多個配置文件。通過覆蓋節(jié)點(diǎn)上的標(biāo)簽,可以逐個節(jié)點(diǎn)覆蓋配置。

Kubernetes 設(shè)備插件使用一個 sidecar 容器來檢測所需節(jié)點(diǎn)配置中的更改,并重新加載設(shè)備插件,以便新配置能夠生效。在以下示例中,您為設(shè)備插件創(chuàng)建了兩種配置:一種默認(rèn)配置應(yīng)用于所有節(jié)點(diǎn),另一種配置可根據(jù)需要應(yīng)用于 100 個 GPU 節(jié)點(diǎn)。

$ helm install nvdp nvdp/nvidia-device-plugin \ --version=0.12.2 \ --namespace nvidia-device-plugin \ --create-namespace \ --set gfd.enabled=true \ --set-file config.map.default=/tmp/dp-example-config-default.yaml \ --set-file config.map.a100-80gb-config=/tmp/dp-example-config-a100.yaml

然后,只要覆蓋節(jié)點(diǎn)標(biāo)簽, Kubernetes 設(shè)備插件就可以對配置進(jìn)行動態(tài)更改,如果需要,可以在每個節(jié)點(diǎn)的基礎(chǔ)上進(jìn)行配置:

$ kubectl label node \ --overwrite \ --selector=nvidia.com/gpu.product=A100-SXM4-80GB \ nvidia.com/device-plugin.config=a100-80gb-config

時間切片 API

為了支持 GPU 的時間切片,可以使用以下字段擴(kuò)展配置文件的定義:

version: v1
sharing: timeSlicing: renameByDefault:  failRequestsGreaterThanOne:  resources: - name:  replicas:  ...

也就是說,對于sharing.timeSlicing.resources下的每個命名資源,現(xiàn)在可以為該資源類型指定多個副本。

此外,如果renameByDefault=true,則每個資源都會在名稱下播發(fā)《reZEDZ_insteadofismpl_E H1-31。

對于向后兼容性,failRequestsGreaterThanOne標(biāo)志默認(rèn)為 false 。它控制 POD 是否可以請求多個 GPU 資源。一個以上的 GPU 請求并不意味著 pod 會按比例獲得更多的時間片,因?yàn)?GPU 調(diào)度器當(dāng)前為 GPU 上運(yùn)行的所有進(jìn)程提供相等的時間份額。

failRequestsGreaterThanOne標(biāo)志配置插件的行為,將一個 GPU 的請求視為訪問請求,而不是獨(dú)占資源請求。

創(chuàng)建新的超額訂閱資源時, Kubernetes 設(shè)備插件會將這些資源分配給請求的作業(yè)。當(dāng)兩個或多個作業(yè)落在同一 GPU 上時,這些作業(yè)會自動使用 GPU 的時間切片機(jī)制。該插件不提供任何其他額外的隔離好處。

GFD 應(yīng)用的標(biāo)簽

對于 GFD ,應(yīng)用的標(biāo)簽取決于renameByDefault=true。無論renameByDefault的設(shè)置如何,始終應(yīng)用以下標(biāo)簽:

nvidia.com/.replicas = 

但是,當(dāng)renameByDefault=false時,nvidia.com/《resource-name》.product標(biāo)簽也會添加以下后綴:

nvidia.com/gpu.product = -SHARED

使用這些標(biāo)簽,您可以選擇共享或非共享 GPU ,就像您傳統(tǒng)上選擇一個 GPU 模型而不是另一個模型一樣。也就是說,SHARED注釋確??梢允褂胣odeSelector對象將吊艙吸引到在其上共享 GPU 的節(jié)點(diǎn)。此外, POD 可以確保它們降落在使用新副本標(biāo)簽將 GPU 劃分為所需比例的節(jié)點(diǎn)上。

超額認(rèn)購示例

下面是一個使用時間切片 API 過度訂閱 GPU 資源的完整示例。在本例中,您將遍歷 Kubernetes 設(shè)備插件和 GFD 的其他配置設(shè)置,以設(shè)置 GPU 超額訂閱并使用指定的資源啟動工作負(fù)載。

考慮以下配置文件:

version: v1
sharing: timeSlicing: resources: - name: nvidia.com/gpu replicas: 5 ...

如果將此配置應(yīng)用于具有八個 GPU 的節(jié)點(diǎn),則插件現(xiàn)在將向 Kubernetes 播發(fā) 40 個nvidia.com/gpu資源,而不是八個。如果設(shè)置了renameByDefault: true選項(xiàng),則將播發(fā) 40 個nvidia.com/gpu.shared 資源,而不是 8 個nvidia.com/gpu資源。

您可以在以下示例配置中啟用時間切片。在本例中,超額認(rèn)購 GPU 2 倍:

$ cat << EOF > /tmp/dp-example-config.yaml
version: v1
flags: migStrategy: "none" failOnInitError: true nvidiaDriverRoot: "/" plugin: passDeviceSpecs: false deviceListStrategy: "envvar" deviceIDStrategy: "uuid" gfd: oneshot: false noTimestamp: false outputFile: /etc/kubernetes/node-feature-discovery/features.d/gfd sleepInterval: 60s
sharing: timeSlicing: resources: - name: nvidia.com/gpu replicas: 2
EOF

設(shè)置舵圖存儲庫:

$ helm repo add nvdp https://nvidia.github.io/k8s-device-plugin \ && helm repo update

現(xiàn)在,通過指定前面創(chuàng)建的配置文件的位置來部署 Kubernetes 設(shè)備插件:

$ helm install nvdp nvdp/nvidia-device-plugin \ --version=0.12.2 \ --namespace nvidia-device-plugin \ --create-namespace \ --set gfd.enabled=true \ --set-file config.map.config=/tmp/dp-example-config.yaml

由于節(jié)點(diǎn)只有一個物理 GPU ,您現(xiàn)在可以看到設(shè)備插件發(fā)布了兩個可分配的 GPU :

$ kubectl describe node
...
Capacity: cpu: 4 ephemeral-storage: 32461564Ki hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 16084408Ki nvidia.com/gpu: 2 pods: 110
Allocatable: cpu: 4 ephemeral-storage: 29916577333 hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 15982008Ki nvidia.com/gpu: 2 pods: 110

接下來,部署兩個應(yīng)用程序(在本例中為 FP16 CUDA GEMM 工作負(fù)載),每個應(yīng)用程序都請求一個 GPU 。觀察到應(yīng)用程序上下文在 GPU 上切換,因此在 T4 上僅實(shí)現(xiàn)大約一半的 FP16 峰值帶寬。

$ cat << EOF | kubectl create -f -
apiVersion: v1
kind: Pod
metadata: name: dcgmproftester-1
spec: restartPolicy: "Never" containers: - name: dcgmproftester11 image: nvidia/samples:dcgmproftester-2.0.10-cuda11.0-ubuntu18.04 args: ["--no-dcgm-validation", "-t 1004", "-d 30"] resources: limits: nvidia.com/gpu: 1 securityContext: capabilities: add: ["SYS_ADMIN"] --- apiVersion: v1
kind: Pod
metadata: name: dcgmproftester-2
spec: restartPolicy: "Never" containers: - name: dcgmproftester11 image: nvidia/samples:dcgmproftester-2.0.10-cuda11.0-ubuntu18.04 args: ["--no-dcgm-validation", "-t 1004", "-d 30"] resources: limits: nvidia.com/gpu: 1 securityContext: capabilities: add: ["SYS_ADMIN"]
EOF

現(xiàn)在,您可以看到在單個物理 GPU 上部署和運(yùn)行的兩個容器,如果沒有新的時間切片 API ,這在 Kubernetes 是不可能的:

$ kubectl get pods -A
NAMESPACE NAME READY STATUS RESTARTS AGE
default dcgmproftester-1 1/1 Running 0 45s
default dcgmproftester-2 1/1 Running 0 45s
kube-system calico-kube-controllers-6fcb5c5bcf-cl5h5 1/1 Running 3 32d

您可以在主機(jī)上使用nvidia-smi,通過 GPU 上的插件和上下文開關(guān),查看兩個容器在相同的物理 GPU 上的調(diào)度:

$ nvidia-smi -L
GPU 0: Tesla T4 (UUID: GPU-491287c9-bc95-b926-a488-9503064e72a1) $ nvidia-smi
...... +-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 466420 C /usr/bin/dcgmproftester11 315MiB |
| 0 N/A N/A 466421 C /usr/bin/dcgmproftester11 315MiB |
+-----------------------------------------------------------------------------+

總結(jié)

開始利用 新的 GPU 超額訂閱支持 今天在庫伯內(nèi)特斯。 Kubernetes 設(shè)備插件新版本的 Helm 圖表使您可以輕松地立即開始使用該功能。

短期路線圖包括與 NVIDIA GPU 運(yùn)算符 這樣,您就可以訪問該功能,無論是使用 Red Hat 的 OpenShift 、 VMware Tanzu ,還是使用 NVIDIA LaunchPad 上的 NVIDIA 云本機(jī)核心 等調(diào)配環(huán)境。 NVIDIA 還致力于改進(jìn) Kubernetes 設(shè)備插件中對 CUDA MPS 的支持,以便您可以利用 Kubernetes 中的其他 GPU 并發(fā)機(jī)制。

關(guān)于作者

Kevin Klues 是 NVIDIA 原始云團(tuán)隊(duì)的首席軟件工程師。自加入 NVIDIA 以來, Kevin 一直參與多項(xiàng)技術(shù)的設(shè)計和實(shí)施,包括 Kubernetes 拓?fù)涔芾砥鳌?NVIDIA 的 Kubernetes 設(shè)備插件和 MIG 的容器/ Kubernetes 堆棧。

Kyrylo Perelygin 自 2013 年加入 NVIDIA 后,一直致力于 CUDA 的多進(jìn)程服務(wù)和新的合作團(tuán)隊(duì)等功能。 Kyrylo 畢業(yè)于 EPITECH ,獲得學(xué)士學(xué)位,并獲得 CSULB 碩士學(xué)位。

Pramod Ramarao 是 NVIDIA 加速計算的產(chǎn)品經(jīng)理。他領(lǐng)導(dǎo) CUDA 平臺和數(shù)據(jù)中心軟件的產(chǎn)品管理,包括容器技術(shù)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110143
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5286

    瀏覽量

    136109
  • CUDA
    +關(guān)注

    關(guān)注

    0

    文章

    128

    瀏覽量

    14555
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    設(shè)備管理別瞎忙!中設(shè)智控一套方案,資產(chǎn)利用率狂飆40%(實(shí)操拆解)

    制造業(yè)的核心競爭力,離不開“設(shè)備”這個生產(chǎn)力載體——設(shè)備資產(chǎn)往往占企業(yè)總資產(chǎn)的60%-80%,但很多企業(yè)的設(shè)備管理,卻陷入“瞎忙”困境:設(shè)備臺賬混亂、故障頻發(fā)、維護(hù)盲目、閑置浪費(fèi)嚴(yán)重,資產(chǎn)利用率長期
    的頭像 發(fā)表于 04-27 10:30 ?292次閱讀
    設(shè)備管理別瞎忙!中設(shè)智控一套方案,資產(chǎn)<b class='flag-5'>利用率</b>狂飆40%(實(shí)操拆解)

    基于Arm架構(gòu)服務(wù)器釋放更高CPU利用率

    在大型云服務(wù)提供商的數(shù)據(jù)中心中,CPU 利用率長期偏低,造成了大量資源閑置。根據(jù) CAST AI 的分析,超過 1,000 個 CPU 的大型集群平均占用率僅約 17%[1],不同云服務(wù)商之間略有差異,但這一數(shù)據(jù)仍具有一定代表性。同時這也意味著云計算仍有巨大的降本增效空間
    的頭像 發(fā)表于 03-24 10:19 ?575次閱讀

    K8s部署vLLM推理服務(wù)詳細(xì)步驟

    vLLM在生產(chǎn)環(huán)境部署時,服務(wù)暴露是關(guān)鍵環(huán)節(jié)。Kubernetes的Service和Ingress組件負(fù)責(zé)將內(nèi)部Pod流量對外暴露,合理的Service類型選擇和負(fù)載均衡策略直接影響推理服務(wù)的可用性、響應(yīng)速度和資源利用率。
    的頭像 發(fā)表于 03-13 09:46 ?511次閱讀

    大模型推理服務(wù)的彈性部署與GPU調(diào)度方案

    7B 模型 FP16 推理需要約 14GB 顯存,70B 模型需要 140GB+,KV Cache 隨并發(fā)數(shù)線性增長,顯存碎片化導(dǎo)致實(shí)際利用率不足 60%。
    的頭像 發(fā)表于 03-03 09:29 ?467次閱讀

    KubePi:開源Kubernetes可視化管理面板,讓集群管理如此簡單

    :通過左側(cè)菜單,可以方便地管理Node、Pod、Service、PV、ConfigMap、Role等Kubernetes資源。 故障排查 :利用集成的Web Kubectl功能或日志查看器,可以直接
    發(fā)表于 02-11 12:53

    Kubernetes kubectl命令行工具詳解

    kubectl是Kubernetes官方提供的命令行工具,作為與Kubernetes集群交互的主要接口,它通過調(diào)用Kubernetes API Server實(shí)現(xiàn)對集群資源的全面管理。在生產(chǎn)環(huán)境中,運(yùn)維工程師需要熟練掌握kubec
    的頭像 發(fā)表于 02-02 16:40 ?630次閱讀

    GPU 利用率<30%?這款開源智算云平臺讓算力不浪費(fèi) 1%

    作為 AI 開發(fā)者,你是否早已受夠這些困境:花數(shù)百萬采購的 GPU 集群,利用率常年低于 30%,算力閑置如同燒錢;跨 CPU/GPU/NPU 異構(gòu)資源調(diào)度難如登天,模型訓(xùn)練卡在資源分配環(huán)節(jié);部署
    的頭像 發(fā)表于 01-26 14:20 ?299次閱讀

    華為發(fā)布AI容器技術(shù)Flex:ai,算力平均利用率提升30%

    決方案。 ? 當(dāng)前,AI產(chǎn)業(yè)正處于高速發(fā)展的黃金時期,海量算力需求如潮水般涌來。然而,算力資源利用率偏低的問題卻成為了產(chǎn)業(yè)發(fā)展的關(guān)鍵桎梏。具體表現(xiàn)為,小模型任務(wù)常常獨(dú)占整卡,導(dǎo)致大量資源閑置;大模型任務(wù)又因單機(jī)算力不足而難以支撐;更有大量缺乏GPU
    的頭像 發(fā)表于 11-26 08:31 ?7829次閱讀

    從CPU、GPU到NPU,美格智能持續(xù)優(yōu)化異構(gòu)算力計算效能

    前言AI算力已成為數(shù)字經(jīng)濟(jì)時代的核心生產(chǎn)力,但全球AI產(chǎn)業(yè)正面臨“供給不足、成本高企、生態(tài)待建”三重挑戰(zhàn)。據(jù)行業(yè)統(tǒng)計,行業(yè)算力資源平均利用率僅為30%~40%,存在嚴(yán)重的算力浪費(fèi)現(xiàn)象。國內(nèi)領(lǐng)先
    的頭像 發(fā)表于 11-21 16:05 ?1347次閱讀
    從CPU、<b class='flag-5'>GPU</b>到NPU,美格智能持續(xù)優(yōu)化異構(gòu)算力計算效能

    設(shè)備利用率算不清?智能管理系統(tǒng)自動分析數(shù)據(jù),生成可視化報表幫你降本

    當(dāng)設(shè)備數(shù)據(jù)自動流轉(zhuǎn)生成可視化報表,企業(yè)才算真正掌握降本增效主動權(quán)。曾經(jīng) Excel 里的利用率 “糊涂賬”,變成清晰可追溯的 “明白錢”。制造業(yè)競爭日益激烈的今天,誰能讓設(shè)備數(shù)據(jù)說話,誰就能在成本控制上占先機(jī)。
    的頭像 發(fā)表于 09-12 10:04 ?830次閱讀
    設(shè)備<b class='flag-5'>利用率</b>算不清?智能管理系統(tǒng)自動分析數(shù)據(jù),生成可視化報表幫你降本

    從 “被動維修” 到 “主動管理”:這套系統(tǒng)讓設(shè)備利用率提升 30%

    從 “被動維修” 到 “主動管理”,是設(shè)備管理模式的轉(zhuǎn)變,更是數(shù)字化轉(zhuǎn)型的關(guān)鍵一步。在激烈的市場競爭中,能讓設(shè)備穩(wěn)定高效運(yùn)行的企業(yè),才能在效率與成本上占據(jù)優(yōu)勢。這套提升設(shè)備利用率 30% 的系統(tǒng),為企業(yè)高質(zhì)量發(fā)展提供了有效路徑。
    的頭像 發(fā)表于 09-04 10:04 ?1037次閱讀
    從 “被動維修” 到 “主動管理”:這套系統(tǒng)讓設(shè)備<b class='flag-5'>利用率</b>提升 30%

    海光DCU率先展開文心系列模型的深度技術(shù)合作 FLOPs利用率(MFU)達(dá)47%

    海光DCU實(shí)現(xiàn)文心4.5模型高效適配; FLOPs利用率突破47%。 2025年6月30日,在百度文心4.5系列大模型正式開源當(dāng)日,海光信息技術(shù)股份有限公司宣布其深度計算單元(DCU)率先完成對該系
    的頭像 發(fā)表于 07-01 14:35 ?2591次閱讀

    拼版怎么拼好,板廠經(jīng)常說利用率太低,多收費(fèi)用?

    做板的時候,板廠經(jīng)常說我拼版利用率太低,要多收取費(fèi)用,哪位大神知道怎么算利用率
    發(fā)表于 05-14 13:42

    mes工廠管理系統(tǒng):如何讓設(shè)備利用率提升50%?

    在制造業(yè)競爭日益激烈的今天,設(shè)備利用率直接決定了企業(yè)的盈利能力。許多工廠管理者都在思考同一個問題:如何在不增加設(shè)備投資的情況下,讓現(xiàn)有產(chǎn)能發(fā)揮出最大價值?MES工廠管理系統(tǒng)正是解決這一難題的金鑰匙
    的頭像 發(fā)表于 05-09 15:55 ?990次閱讀
    mes工廠管理系統(tǒng):如何讓設(shè)備<b class='flag-5'>利用率</b>提升50%?

    提升AI訓(xùn)練性能:GPU資源優(yōu)化的12個實(shí)戰(zhàn)技巧

    的行業(yè)調(diào)查數(shù)據(jù)顯示,僅有7%的企業(yè)能在高負(fù)載期間實(shí)現(xiàn)超過85%的GPU利用率,這一數(shù)據(jù)凸顯了當(dāng)前AI基礎(chǔ)設(shè)施資源優(yōu)化方面存在的顯著缺
    的頭像 發(fā)表于 05-06 11:17 ?1702次閱讀
    提升AI訓(xùn)練性能:<b class='flag-5'>GPU</b>資源優(yōu)化的12個實(shí)戰(zhàn)技巧
    绥滨县| 抚顺县| 屯昌县| 德保县| 汉中市| 天柱县| 株洲市| 冷水江市| 郯城县| 洛宁县| 中山市| 南溪县| 政和县| 兴业县| 维西| 巴中市| 拉孜县| 武威市| 灌云县| 凤庆县| 马龙县| 大洼县| 明水县| 武汉市| 丰台区| 分宜县| 凌云县| 龙山县| 德惠市| 新和县| 临桂县| 丽水市| 信阳市| 平潭县| 景泰县| 厦门市| 马鞍山市| 栾川县| 菏泽市| 尖扎县| 兴海县|