日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Kubernetes是如何解決資源拓?fù)涓兄{(diào)度的呢

程序人生 ? 來源:CSDN云原生 ? 作者:方睿 ? 2022-08-25 12:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

資源競爭與資源感知問題

CPU的體系結(jié)構(gòu)上來看,現(xiàn)代CPU多采用NUMA架構(gòu)和方式。

NUMA架構(gòu)是非對稱的,每個NUMA node上會有自己的物理CPU內(nèi)核,以及每個NUMA node之間也共享L3 Cache。同時,內(nèi)存也分布在每個NUMA node上的。某些開啟了超線程的CPU,一個物理CPU內(nèi)核在操作系統(tǒng)上會呈現(xiàn)兩個邏輯的核。

實際上,CPU內(nèi)核是分布在NUMA node上,NUMA node內(nèi)本身就有一些親和性的元素。

2df9aa10-2429-11ed-ba43-dac502259ad0.png

右圖中,CPU開始的訪問速度是不一樣的。

如果程序都跑在同一個NUMA node上,可以更好地去共享一些L3 Cache,L3 Cache的訪問速度會很快。如果L3 Cache沒有命中,可以到內(nèi)存中讀取數(shù)據(jù),訪存速度會大大降低。

因此,從CPU體系結(jié)構(gòu)中可以看到,如果采用一些錯誤的CPU分配方式,可能會導(dǎo)致進(jìn)程訪存速度急劇下降,嚴(yán)重影響應(yīng)用程序的性能。

在這樣的體系結(jié)構(gòu)下,存在云計算中常見的吵鬧的鄰居問題。當(dāng)多個容器在節(jié)點上共同運行時,由于資源分配的不合理,會對CPU本身的性能造成影響。

2e07ab1a-2429-11ed-ba43-dac502259ad0.png

從理想的使用方式來看,如果每個進(jìn)程都使用各自的CPU內(nèi)核,并且不會跨NUMA node訪問,相互之間不會有太多爭搶。

從糟糕的使用方式來看,如果兩個進(jìn)程的CPU內(nèi)核在分配時,可能會沒有遵循NUMA的親和性,會帶來很大的性能問題,體現(xiàn)在三個方面:

CPU爭搶帶來頻繁的上下文切換時間;

頻繁的進(jìn)程切換導(dǎo)致CPU高速緩存失敗;

跨NUMA訪存會帶來更嚴(yán)重的性能瓶頸。

2e13b7c0-2429-11ed-ba43-dac502259ad0.png

Kubernetes中有CPU Manager的功能,CPU Manager可以做一些CPU核心的分配工作。上圖是Kubernetes的一些數(shù)據(jù)呈現(xiàn)。

在Guaranteed和Burstable兩種Pod混部測試下,將CPU Manager執(zhí)行時間做基準(zhǔn),如果是原生Kubernetes的方式在不同測試下,性能有較大波動,最差可能會達(dá)到1.8倍左右。

在Stand-Alone Workloads的情況下,做CPU的綁定和完全不做CPU綁定,執(zhí)行時間差別很大。因為劇烈的CPU爭搶以及頻繁的上下文切換,會導(dǎo)致約1倍的性能差距。

2e2397e4-2429-11ed-ba43-dac502259ad0.png

在吵鬧的鄰居問題下,Kubernetes是如何解決的呢?

CPU Manager是其中的一個解決方法,它被放在Kubelet中,CPUSet將會被CPU Manager分在Default和Exclusive兩個池子中。

Default主要在兩種情況下使用。一種是系統(tǒng)守護(hù)進(jìn)程:kube-reserved、system-reserved,另一種是特殊類型的Pod:Burstable、BestEffort、請求非整數(shù)CPU的Guaranteed。

Exclusive是完全排他的CPU池,主要在兩種情況下使用。一種是Pod:請求整數(shù)CPU的Guaranteed,另一種是Topology Manager:滿足拓?fù)涔芾砥鞫x的要求。

但原生Kubernetes也存在局限性。

調(diào)度器不感知節(jié)點資源拓?fù)洹?/strong>

Kubernetes中調(diào)度器只負(fù)責(zé)為Pod選擇節(jié)點,并不感知節(jié)點NUMA拓?fù)浣Y(jié)構(gòu),Pod的CPU分配交給Kubelet完成。當(dāng)節(jié)點單NUMA node上沒有足夠的CPU時,Pod啟動失敗,控制器重建Pod后會陷入死循環(huán)。

CPUSet分配策略過于單一。

Kubernetes中CPU Manager默認(rèn)為請求整數(shù)CPU的Guaranteed Pod分配獨占的CPUSet,但實際上Pod想定制自己的CPU分配策略,可能只是想分配到一個NUMA node內(nèi),或是固定CPU甚至是不做綁核。

2e41e24e-2429-11ed-ba43-dac502259ad0.png

在混部場景下,也存在離線算力感知問題。

當(dāng)在線與離線任務(wù)混部在同一臺主機上,在線閑時,離線任務(wù)可以充分使用資源,提升主機利用率;在線忙時,離線任務(wù)會被在線搶占,等待資源釋放。

當(dāng)離線可用算力受在線干擾動態(tài)變化時,調(diào)度器僅感知節(jié)點靜態(tài)資源(Kubelet采集)。

如果忙時調(diào)度過多的離線任務(wù),會導(dǎo)致劇烈的資源爭搶,并且每個離線Pod的性能都會下降。 因此,調(diào)度器在調(diào)度時,需要動態(tài)感知離線實時算力。驅(qū)逐器也應(yīng)當(dāng)在線嚴(yán)重干擾離線時,驅(qū)逐離線Pod,保證節(jié)點的算力穩(wěn)定。

Kuberbnetes精細(xì)化調(diào)度

在原生Kubernetes不能很好地解決資源競爭與資源感知問題時,亟需對資源進(jìn)行更加精細(xì)化的調(diào)度。

2e6189f0-2429-11ed-ba43-dac502259ad0.png

如上圖,是精細(xì)化調(diào)度系統(tǒng)的結(jié)構(gòu)。

Cassini-Worker能從節(jié)點采集資源拓?fù)湫畔⒉?chuàng)建NRT對象。

Cassini-Master能從外部系統(tǒng)采集節(jié)點擴展信息(可選)。

Scheduler-Plugins能擴展調(diào)度器,為Pod進(jìn)行資源拓?fù)浞峙洹?/p>

2e70e5da-2429-11ed-ba43-dac502259ad0.png

擴展調(diào)度器是通過Scheduler-Plugins來實現(xiàn)的,可以在幾個插入點做一些插件,保證實現(xiàn)標(biāo)庫資源頭部感知調(diào)度的功能。

在Fitter的插件內(nèi),可以過濾節(jié)點拓?fù)滟Y源和選擇Zone并分配資源。

在Score的插件內(nèi),可以根據(jù)Zone個數(shù)降序打分。

在Reserver的插件內(nèi),可以為待綁定節(jié)點預(yù)留拓?fù)滟Y源避免數(shù)據(jù)不一致。

在PreBind的插件內(nèi),可以將拓?fù)湔{(diào)度結(jié)果附加到Pod Annotations中。

在調(diào)度算法上,可以從性能和負(fù)載均衡兩個方面做出考慮,以便更好地選擇節(jié)點和拓?fù)洹?/strong>

在性能方面,優(yōu)先選擇Pod能綁定在單NUMA node內(nèi)的節(jié)點。如果找不到該節(jié)點,可以優(yōu)先選擇在同一個NUMA Socket內(nèi)的NUMA node

在負(fù)載均衡方面,優(yōu)先選擇空閑資源更多的NUMA node。

容器CPUSet管理

Kubernetes的精細(xì)化調(diào)度做出一些拓?fù)涓兄?,而實際落到節(jié)點上,為了更好地實現(xiàn)資源分配,我們設(shè)計了一個資源分配系統(tǒng)。

2e972db2-2429-11ed-ba43-dac502259ad0.png

首先,節(jié)點Kubelet會監(jiān)聽到Pod并準(zhǔn)備啟動Pod。

隨后,節(jié)點Kubelet調(diào)用容器運行時接口啟動容器。

與此同時,節(jié)點Cassini-Worker通過List Kubelet的10250端口獲得節(jié)點上的所有Pod,再從Pod Annotations中獲取調(diào)度器的拓?fù)湔{(diào)度結(jié)果。

節(jié)點Cassini-Worker調(diào)用容器運行時接口來更改容器的綁核結(jié)果。

2ea85420-2429-11ed-ba43-dac502259ad0.png

關(guān)于容器多級資源QoS分配策略,在CPUSet的策略上,可以劃分為四種:

Exclusive:它可以獨占CPU內(nèi)核心,其他Pod不可使用,一般是高利用率的容器會采取該策略;

None:不做CPU綁核的策略,可以使用節(jié)點的Default CPU共享池;

NUMA:讓CPUSet固定到NUMA node上的共享池內(nèi);

Immovable:將CPU內(nèi)核心固定,讓其他Pod也可共享。

在CPU內(nèi)核心選擇策略上:

首先,按照調(diào)度結(jié)果獲取NUMA node上需分配的核心數(shù);

隨后,從共享池中選擇可分配的CPU內(nèi)核心;

同時,還希望一個Pod盡量不使用在同一個物理核上的邏輯核。

在離線混部場景下的實踐

由于離線混部場景中,離線會受到在線的影響,算力是波動的。因此,在離線混部場景下,還會做一些差異化重調(diào)度:

當(dāng)在線負(fù)載上升時,離線的算力會被壓制。因此,離線的Pod需要及時驅(qū)逐,以便剛好滿足節(jié)點離線算力的要求;

通過改造Descheduler組件,建立通用的可配置的平臺通用驅(qū)逐框架,支持Metrics驅(qū)逐,以及支持動態(tài)調(diào)整/配置驅(qū)逐策略;

建立算力平臺通用Metrics;

支持業(yè)務(wù)自定義Metrics驅(qū)逐。

在不同混部場景下,容器CPUSet策略也是不同的。

2ec76f86-2429-11ed-ba43-dac502259ad0.png

離線CVM混部的場景中,一臺物理機的各個NUMA node上都生產(chǎn)了許多在線的CVM,當(dāng)在線利用率很低時,需要更好地利用資源。

此時需要采取Exclusive策略:

離線CVM通過內(nèi)核VMF調(diào)度器獲取低優(yōu)的CPU時間片;

離線Pod通過獨占CPU內(nèi)核心的方式,保證互不干擾;

內(nèi)核VMF調(diào)度器保證離線Pod在忙時,可實現(xiàn)核心漂移,充分利用CPU資源。

在容器混部的場景中,在線Pod和離線Pod同時部署在同一臺物理機上。

此時需要采取NUMA策略:

離線Pod通過限制Cgroups,獲取低優(yōu)的CPU時間片;

離線Pod綁定整個NUMA node,防止某幾個CPU內(nèi)核心被壓制;

離線Pod共享整個NUMA node,充分利用CPU資源。

總結(jié)

本文圍繞Kubernetes的資源拓?fù)涓兄{(diào)度的主題展開。從CPU體系結(jié)構(gòu)和吵鬧的鄰居問題切人,隨后闡述了原生Kubernetes的不足和混部場景下的算力感知的局限,最后從采集節(jié)點拓?fù)滟Y源、擴展Kubernetes調(diào)度器、多級資源QoS分配策略幾個方面給出了相應(yīng)的解決方案。在策略的優(yōu)化后,資源得到更合理地利用。

未來,Kubernetes精細(xì)化調(diào)度將會覆蓋更多的場景,例如碎片GPU、網(wǎng)絡(luò)拓?fù)浼軜?gòu)、電力調(diào)度。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11332

    瀏覽量

    225982
  • 操作系統(tǒng)
    +關(guān)注

    關(guān)注

    37

    文章

    7443

    瀏覽量

    129643
  • 調(diào)度算法
    +關(guān)注

    關(guān)注

    1

    文章

    68

    瀏覽量

    12253

原文標(biāo)題:騰訊方睿:詳解Kubernetes資源拓?fù)涓兄{(diào)度

文章出處:【微信號:coder_life,微信公眾號:程序人生】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Java并發(fā)編程的“基石”——多線程概念初識

    基于 Kubernetes 擴展的云原生 AI 系統(tǒng))中,Java 正在通過深度耦合展現(xiàn)其實戰(zhàn)價值。 一方面是 異構(gòu)資源池的拓?fù)?/b>感知 。現(xiàn)代 AI 訓(xùn)練需要卡與卡之間極速互通(如 NV
    發(fā)表于 04-16 18:50

    Kubernetes Ingress Controller對比解析

    Kubernetes集群對外提供服務(wù)時,Ingress是標(biāo)準(zhǔn)的服務(wù)暴露方式。Ingress資源定義了HTTP/HTTPS路由規(guī)則,而Ingress Controller則是這些規(guī)則的實現(xiàn)者
    的頭像 發(fā)表于 04-09 10:09 ?267次閱讀

    動態(tài)流量池數(shù)據(jù)資源交付技術(shù):破解網(wǎng)絡(luò)流量調(diào)度的核心難題

    前言在數(shù)字經(jīng)濟(jì)全面滲透的當(dāng)下,數(shù)據(jù)傳輸與網(wǎng)絡(luò)流量已成為支撐數(shù)字業(yè)務(wù)運行的核心基礎(chǔ)。從日常的互聯(lián)網(wǎng)訪問、企業(yè)跨地域辦公,到工業(yè)物聯(lián)網(wǎng)終端互聯(lián)、智算中心的算力調(diào)度,都離不開穩(wěn)定、高效的流量資源交付體系
    的頭像 發(fā)表于 03-30 13:50 ?1895次閱讀
    動態(tài)流量池數(shù)據(jù)<b class='flag-5'>資源</b>交付技術(shù):破解網(wǎng)絡(luò)流量<b class='flag-5'>調(diào)度</b>的核心難題

    Kubernetes Pod調(diào)度策略原理與落地指南

    Pod調(diào)度Kubernetes的核心機制之一,決定了Pod最終運行在哪個節(jié)點上。默認(rèn)調(diào)度器kube-scheduler通過一系列預(yù)選(Filtering)和優(yōu)選(Scoring)算法完成調(diào)度
    的頭像 發(fā)表于 02-27 11:08 ?333次閱讀

    KubePi:開源Kubernetes可視化管理面板,讓集群管理如此簡單

    維人員 :能夠在一個統(tǒng)一的界面上監(jiān)控和管理所有集群資源,大幅提升效率。 企業(yè)IT :實現(xiàn)對跨地域、跨云的Kubernetes集群進(jìn)行統(tǒng)一管理,提升運維效率。 二、核心功能特點:不止于可視化
    發(fā)表于 02-11 12:53

    Kubernetes kubectl命令行工具詳解

    kubectl是Kubernetes官方提供的命令行工具,作為與Kubernetes集群交互的主要接口,它通過調(diào)用Kubernetes API Server實現(xiàn)對集群資源的全面管理。在
    的頭像 發(fā)表于 02-02 16:40 ?626次閱讀

    嵌入式基礎(chǔ)知識-系統(tǒng)調(diào)度

    調(diào)度,有許多相似之處。 1、進(jìn)程的三種狀態(tài) 執(zhí)行態(tài)(Run):進(jìn)程占用CPU資源,對于單核處理器,任一時刻只能有一個進(jìn)行處于執(zhí)行態(tài)。 就緒態(tài)(Ready):進(jìn)程本身具備運行條件,但由于處理機的個數(shù)少于
    發(fā)表于 12-16 08:15

    后勤資源大模型智能調(diào)度系統(tǒng):功能特點與平臺架構(gòu)解析

    ? ? 后勤資源大模型智能調(diào)度系統(tǒng)解析 ? ?后勤資源大模型智能調(diào)度系統(tǒng)融合大數(shù)據(jù)、人工智能與機器學(xué)習(xí)技術(shù),針對物資、設(shè)備、人員、運輸工具等后勤資源
    的頭像 發(fā)表于 12-15 16:35 ?448次閱讀

    資源狀態(tài)感知是如何實現(xiàn)對網(wǎng)絡(luò)鏈路狀態(tài)的實時感知的?

    資源狀態(tài)感知對網(wǎng)絡(luò)鏈路狀態(tài)的實時監(jiān)測是通過硬件底層檢測、協(xié)議層交互、算法模型分析的多層協(xié)同實現(xiàn)的,具體技術(shù)路徑如下: 一、硬件層:物理信號的實時捕獲 PHY 芯片的直接感知以太網(wǎng) PHY 芯片(如
    的頭像 發(fā)表于 11-06 14:49 ?889次閱讀

    企業(yè)級HDFS高可用與YARN資源調(diào)度方案

    作為一名在大數(shù)據(jù)運維領(lǐng)域摸爬滾打8年的老兵,我見過太多因為基礎(chǔ)架構(gòu)不夠健壯而導(dǎo)致的生產(chǎn)事故。今天,我想和大家分享一套經(jīng)過實戰(zhàn)檢驗的 HDFS 高可用與 YARN 資源調(diào)度方案,這套方案幫助我們團(tuán)隊將平臺可用性從 99.5% 提升到 99.99%,年故障時間從 43 小時降
    的頭像 發(fā)表于 09-08 17:15 ?883次閱讀

    生產(chǎn)環(huán)境中Kubernetes容器安全的最佳實踐

    隨著容器化技術(shù)的快速發(fā)展,Kubernetes已成為企業(yè)級容器編排的首選平臺。然而,在享受Kubernetes帶來的便利性和可擴展性的同時,安全問題也日益凸顯。本文將從運維工程師的角度,深入探討生產(chǎn)環(huán)境中Kubernetes容器
    的頭像 發(fā)表于 07-14 11:09 ?969次閱讀

    智能路徑調(diào)度:AI驅(qū)動負(fù)載均衡的異常路徑治理實踐

    在AI驅(qū)動的數(shù)據(jù)中心網(wǎng)絡(luò)環(huán)境中,傳統(tǒng)的“盡力而為”和“無差別均分”負(fù)載均衡策略已力不從心?;诼窂骄C合質(zhì)量的動態(tài)WCMP機制,通過實時感知路徑狀態(tài)、果斷剔除異常、智能調(diào)度“健康”資源,有效解決了AI流量對網(wǎng)絡(luò)高可靠、高性能的核心
    的頭像 發(fā)表于 07-03 16:26 ?1303次閱讀
    智能路徑<b class='flag-5'>調(diào)度</b>:AI驅(qū)動負(fù)載均衡的異常路徑治理實踐

    樹莓派部署 Kubernetes:通過 UDM Pro 實現(xiàn) BGP 負(fù)載均衡!

    最近,我將家庭實驗室的架構(gòu)核心切換為一組樹莓派。盡管在樹莓派上運行的Kubernetes發(fā)行版眾多,但在資源受限的設(shè)備上運行Kubernetes時,控制平面的開銷是一個常見挑戰(zhàn)
    的頭像 發(fā)表于 06-25 18:00 ?1091次閱讀
    樹莓派部署 <b class='flag-5'>Kubernetes</b>:通過 UDM Pro 實現(xiàn) BGP 負(fù)載均衡!

    詳解Kubernetes中的Pod調(diào)度親和性

    Kubernetes(K8s)中,Pod 調(diào)度親和性(Affinity) 是一種高級調(diào)度策略,用于控制 Pod 與節(jié)點(Node)或其他 Pod 之間的關(guān)聯(lián)(親和)或反關(guān)聯(lián)(反親和)關(guān)系。通過親和性規(guī)則,管理員可以更精細(xì)地控
    的頭像 發(fā)表于 06-07 13:56 ?1116次閱讀

    安全生產(chǎn)調(diào)度管理系統(tǒng)的核心功能模塊

    安全生產(chǎn)調(diào)度管理系統(tǒng)是運用現(xiàn)代信息技術(shù)構(gòu)建的智能化管理平臺,旨在實現(xiàn)生產(chǎn)安全風(fēng)險的全面管控和應(yīng)急資源的優(yōu)化調(diào)度。該系統(tǒng)通過整合物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等前沿技術(shù),建立起覆蓋風(fēng)險監(jiān)測、預(yù)警預(yù)測、指揮
    的頭像 發(fā)表于 05-16 15:25 ?691次閱讀
    邢台市| 南乐县| 攀枝花市| 福海县| 莆田市| 阿坝| 朝阳市| 壤塘县| 汝城县| 安达市| 阿克陶县| 色达县| 固阳县| 利川市| 平果县| 银川市| 镇赉县| 阿合奇县| 枣庄市| 新建县| 樟树市| 咸阳市| 亳州市| 柘荣县| 新民市| 东莞市| 茶陵县| 惠水县| 蓬安县| 塔城市| 姚安县| 东源县| 赤壁市| 临沭县| 株洲县| 连南| 色达县| 海淀区| 蕉岭县| 梅州市| 双辽市|