浪潮云平臺(tái)InCloud OpenStack是面向下一代云數(shù)據(jù)中心和云原生應(yīng)用的智慧云操作系統(tǒng),全面基于OpenStack,采用開放標(biāo)準(zhǔn)技術(shù)路線,實(shí)現(xiàn)用戶業(yè)務(wù)的自動(dòng)感知、業(yè)務(wù)的智能管理和服務(wù)的自動(dòng)化交付,為用戶構(gòu)建開放、融合、安全的云,支撐面向未來的智慧計(jì)算世界。浪潮云平臺(tái)InCloud OpenStack已成功應(yīng)用于金融、政府、能源、環(huán)保、教育等行業(yè),累計(jì)擁有3000+用戶。
OpenStack是開源 IaaS解決方案,組件眾多,架構(gòu)復(fù)雜,并且技術(shù)棧長(zhǎng)。隨著基于OpenStack的客戶系統(tǒng)和業(yè)務(wù)規(guī)模的快速提升,實(shí)現(xiàn)對(duì)系統(tǒng)和業(yè)務(wù)進(jìn)行高效、快速、靈活監(jiān)控和告警的需求越來越迫切,既要保證服務(wù)的高可用、高性能、可擴(kuò)展,又要提高異常處理效率,降低損失。
以zabbix、為代表的傳統(tǒng)監(jiān)控,具有采集方式多樣、插件成熟、配置靈活等優(yōu)點(diǎn),但在大規(guī)模OpenStack集群監(jiān)控中,卻存在如下缺點(diǎn):
配置麻煩,無法根據(jù)節(jié)點(diǎn)上運(yùn)行的服務(wù)自動(dòng)配置監(jiān)控項(xiàng)。性能瓶頸,多采用關(guān)系型數(shù)據(jù)庫(kù),并發(fā)能力、讀寫性能等無法支撐大規(guī)模集群。用戶界面專業(yè)復(fù)雜,不夠簡(jiǎn)單易用。不易擴(kuò)展,以監(jiān)控為目標(biāo),不易添加智能分析等功能。
浪潮云平臺(tái)InCloud OpenStack監(jiān)控模塊,提升監(jiān)控效率
浪潮云平臺(tái)InCloud OpenStack監(jiān)控模塊就是在這個(gè)背景下誕生并不斷進(jìn)行優(yōu)化的,其整體架構(gòu)圖如下所示,此架構(gòu)能夠有效提升監(jiān)控?cái)?shù)據(jù)獲取密度與存儲(chǔ)數(shù)量級(jí),為運(yùn)維決策提供數(shù)據(jù)支撐。
浪潮云平臺(tái)InCloud OpenStack監(jiān)控模塊
浪潮云平臺(tái)InCloud OpenStack監(jiān)控模塊提供了簡(jiǎn)單易用的頁(yè)面供用戶進(jìn)行監(jiān)控管理配置及查看,包括:支持資源實(shí)時(shí)指標(biāo)、歷史曲線;支持采集配置、告警配置、通知配置;支持配置的及時(shí)下發(fā)和快速生效;支持告警歷史記錄、通知?dú)v史記錄的管理。
浪潮云平臺(tái)InCloud OpenStack監(jiān)控頁(yè)面面對(duì)日十億量級(jí)監(jiān)控項(xiàng),浪潮InCloud OpenStack如何實(shí)現(xiàn)秒級(jí)監(jiān)控?
大規(guī)模監(jiān)控是浪潮云平臺(tái)InCloud OpenStack解決的最核心問題。以某行業(yè)客戶的InCloud OpenStack項(xiàng)目為例,其監(jiān)控模塊的物理服務(wù)器規(guī)模有500+臺(tái),性能數(shù)據(jù)采集周期10秒,服務(wù)數(shù)據(jù)周期1-5分鐘,當(dāng)全部監(jiān)控項(xiàng)都設(shè)置為采集時(shí),每個(gè)節(jié)點(diǎn)約2000+監(jiān)控項(xiàng)/周期,每天集群約產(chǎn)生50億項(xiàng)監(jiān)控?cái)?shù)據(jù)。
面對(duì)如此龐大量級(jí)的監(jiān)控項(xiàng),并實(shí)現(xiàn)秒級(jí)監(jiān)控,需要解決五個(gè)主要問題:大規(guī)模部署和海量監(jiān)控的采集配置該如何進(jìn)行?大規(guī)模集群的采集壓力如何化解?監(jiān)控?cái)?shù)據(jù)的實(shí)時(shí)性和高并發(fā)如何應(yīng)對(duì)?多OpenStack集群的集中監(jiān)控如何實(shí)現(xiàn)?面對(duì)海量告警,又該怎樣快速定位問題?
面對(duì)這五個(gè)棘手問題,浪潮云平臺(tái)InCloud OpenStack逐一給出了解決方案:
1、容器化一鍵部署
集群規(guī)模的擴(kuò)大對(duì)于云平臺(tái)監(jiān)控的部署特別是監(jiān)控的配置的要求很高,浪潮云平臺(tái)InCloud OpenStack監(jiān)控模塊的安裝部署實(shí)現(xiàn)了容器化,采用Kolla-ansible進(jìn)行一鍵化部署,部署流程包括采集配置、容器部署、配置表初始化、腳本發(fā)布、監(jiān)控變量導(dǎo)入、頁(yè)面導(dǎo)入等,部署時(shí)根據(jù)OpenStack節(jié)點(diǎn)角色自動(dòng)配置采集項(xiàng),例如當(dāng)此節(jié)點(diǎn)部署有mariadb服務(wù),則此節(jié)點(diǎn)配置mariadb相關(guān)采集;當(dāng)此節(jié)點(diǎn)部署nova-compute服務(wù)時(shí),則此節(jié)點(diǎn)配置nova-compute相關(guān)采集。通過此方案InCloud OpenStack實(shí)現(xiàn)了監(jiān)控一鍵部署。
2、主被動(dòng)混合采集機(jī)制
浪潮云平臺(tái)InCloud OpenStack監(jiān)控模塊數(shù)據(jù)采集支持集中采集、代理采集以及事件采集三種采集方式,如下圖所示,可實(shí)現(xiàn)異構(gòu)設(shè)備的數(shù)據(jù)采集,具體包括OpenStack系統(tǒng)本身(宿主機(jī)、虛擬機(jī)、集群、容器、核心服務(wù))、原生OpenStack(宿主機(jī)、虛擬機(jī)、集群、核心服務(wù))、操作系統(tǒng)、數(shù)據(jù)庫(kù)、存儲(chǔ)服務(wù)、中間件、CEPH存儲(chǔ)等。
這種主被動(dòng)混合采集機(jī)制,既減少了性能數(shù)據(jù)的采集壓力,有效地校驗(yàn)了關(guān)鍵資源的數(shù)據(jù)完整性,又提高了關(guān)鍵數(shù)據(jù)的實(shí)時(shí)性。
混合采集機(jī)制3、高效緩存,兼顧時(shí)效
浪潮云平臺(tái)InCloud OpenStack采集控器采用客戶端緩存機(jī)制,可以配置時(shí)間和緩存量?jī)蓚€(gè)緩存閾值,默認(rèn)時(shí)間閾值,只有達(dá)到閾值時(shí),才能觸發(fā)數(shù)據(jù)發(fā)送,這種機(jī)制大大減低了存儲(chǔ)端的寫入并發(fā),同時(shí)兼顧了數(shù)據(jù)的時(shí)效性。另外客戶端采集采用go語言開發(fā),具有并發(fā)好、資源占用低、插件開發(fā)簡(jiǎn)單等優(yōu)點(diǎn)。
高效緩存,兼顧時(shí)效4、多OpenStack監(jiān)控級(jí)聯(lián)架構(gòu)
隨著多云的應(yīng)用越來越廣泛,多數(shù)據(jù)中心的集中監(jiān)控亟待解決。浪潮云平臺(tái)InCloud OpenStack采用自研監(jiān)控管理組件pluto級(jí)聯(lián)方案,每個(gè)OpenStack集群采用獨(dú)立的pluto用于配置管理上層pluto的接口進(jìn)行調(diào)用;而上層的監(jiān)控平臺(tái)的pluto對(duì)所有集群的pluto進(jìn)行統(tǒng)管,并對(duì)各集群數(shù)據(jù)進(jìn)行分析。其架構(gòu)圖如下所示:
監(jiān)控級(jí)聯(lián)架構(gòu)5、智能告警聚合及分析
大規(guī)模集群的海量洪水告警及問題的快速定位是運(yùn)維過程中需解決的最大難題,浪潮云平臺(tái)InCloud OpenStack監(jiān)控模塊采用兩種方式解決此問題:一是以資源為粒度發(fā)送通知。例如宿主機(jī)、云主機(jī)等為資源類型,宿主機(jī)A為一個(gè)資源,監(jiān)控模塊會(huì)對(duì)該資源的所有監(jiān)控項(xiàng)進(jìn)行聚合,以告警項(xiàng)最嚴(yán)重的狀態(tài)為資源狀態(tài)發(fā)送通知,如下圖所示;二是根因分析,采用jaccard等算法對(duì)告警進(jìn)行分析,得到根本原因,供運(yùn)維人員參考。
告警聚合流程此外,整個(gè)浪潮云平臺(tái)InCloud OpenStack監(jiān)控系統(tǒng)采用松耦合的架構(gòu),可以添加Hadoop存儲(chǔ)歷史數(shù)據(jù),實(shí)現(xiàn)高吞吐量和超大規(guī)模數(shù)據(jù)集的處理,也可以添加Spark作為監(jiān)控告警數(shù)據(jù)分析工具。
浪潮云平臺(tái)InCloud OpenStack已經(jīng)在多個(gè)行業(yè)完成部署,其監(jiān)控模塊幫助某金融機(jī)構(gòu)和商業(yè)公司實(shí)現(xiàn)了大規(guī)模集群監(jiān)控,其中,某商業(yè)公司InCloud OpenStack私有云單集群建設(shè)規(guī)模超過1000臺(tái)服務(wù)器,位列全球TOP5,借助先進(jìn)的數(shù)據(jù)中心架構(gòu),核心業(yè)務(wù)實(shí)現(xiàn)了彈性計(jì)算資源及穩(wěn)定的平臺(tái),監(jiān)控模塊亦滿足其對(duì)數(shù)據(jù)實(shí)時(shí)性、高并發(fā)的監(jiān)控需求,保證了服務(wù)的高可用、高性能、可擴(kuò)展,有效提升數(shù)據(jù)中心運(yùn)維保障效率。
電子發(fā)燒友App


















評(píng)論