文藝復興三杰之一的米開朗基羅,被稱為“天才建筑師”。其實他一生留下的建筑并不多,僅僅有美第奇禮拜堂、卡比多廣場、圣彼得大教堂穹頂?shù)攘攘葞鬃?。但米開朗基羅卻憑借對建筑層次與結(jié)構的精妙把握,影響了此后數(shù)百年的建筑風格。很多人認為,米氏特別擅長在立體的空間與繁雜的結(jié)構中,尋求建筑的最大確定性。得益于此,像圣彼得大教堂穹頂這樣原本被認為不可能的作品才最終問世——探尋確定性,也就此成為建筑設計師的目標之一。
在今天,數(shù)字化和云化正在容納一切。每天,不計其數(shù)的硬件連接云端,軟件完成云上開發(fā)、迭代。這讓云端變成了一個空前復雜的賽博空間,同時也產(chǎn)生了海量的不確定性。但是,這種不確定性又是必須被治愈和解決的。根據(jù)GIV預測,至2025年,全球企業(yè)云技術使用率將達到100%。全面云化的不可逆趨勢下,企業(yè)必須確保自身數(shù)字化、智能化過程中的安全、穩(wěn)定與可靠。
誰來再為全球企業(yè)尋得云時代的確定性呢?答案是運維團隊。
過去,我們普遍認為運維應該是消防員,哪里著火撲滅哪里;但在云時代的浩瀚業(yè)務與海量數(shù)據(jù)面前,這種模式顯然杯水車薪。于是,SRE應運而生,云服務商和企業(yè)用戶開始追尋確定性的運維價值。運維人需要成為“云上的建筑師”,去設計可靠的建筑結(jié)構,去預知建筑可能面臨的種種風險,去構建安全與穩(wěn)定的結(jié)構閉環(huán)。
在這樣的背景下,華為云SRE團隊,是國內(nèi)成長最快、發(fā)展最好的SRE團隊之一。他們不僅肩負起了華為云業(yè)務體系的運維確定性,同時還為行業(yè)帶來了充沛的溢出價值。
今天,我們走進華為云SRE,去了解一個運維人從消防員變成建筑師的故事,一個如何成為“云上的米開朗基羅”的故事。
圖紙之下:不確定性疊加的云紀元
SRE,即Site Reliability Engineering,站點可用性工程師。這個概念起源于2003年,主要針對傳統(tǒng)IT運維中人工為主的操作模式,希望以整體設計、自動化工具取而代之。簡單來說,SRE的核心就是用軟件而非人工,來解決運維與安全問題。
當時代的鐘擺悄悄回蕩,SRE的價值愈發(fā)凸顯了出來。因為在不經(jīng)然中,我們已經(jīng)來到了一個不確定性疊加的云紀元。
一個全云化的業(yè)務與服務系統(tǒng),究竟會面臨多少安全問題?可能誰也無法給出精準答案。網(wǎng)絡異常、軟件故障、流量洪峰、硬件老化、機房斷電,都可能帶來一次運維問題。甚至一次技術人員的崗位調(diào)換,都可能造成意想不到的考驗。
而伴隨著云原生的落地,云上承載的軟件開發(fā)與業(yè)務上新更加頻繁。增加新的業(yè)務模塊,也將考驗現(xiàn)網(wǎng)的穩(wěn)定性與可靠性。隨著云上軟件開發(fā)與業(yè)務迭代成為常態(tài),運維效率會成為考驗運維團隊與運維能力的最大難題。
另一個云時代的不確定性,來自云計算網(wǎng)絡急速發(fā)展。隨著現(xiàn)網(wǎng)規(guī)模的不斷壯大,云服務體系連接的計算節(jié)點、用戶節(jié)點都在不斷增多,同時參加運維的人員規(guī)模也在不斷增加。這種網(wǎng)絡規(guī)模擴張,讓運維不確定性呈現(xiàn)出幾何級增長。傳統(tǒng)意義上“頭疼醫(yī)頭,腳疼醫(yī)腳”的運維模式,將難以抵御網(wǎng)絡規(guī)模的海量沖擊。
這種情況下,就需要有一種工程性的方法,可以在承認這種不確定性的前提下,依舊能夠保障云服務體系的穩(wěn)定可靠。比如說,讓運維能力參與到前端設計中來;強化運行中的動態(tài)風險治理;建設高可用,可用容納故障與風險的業(yè)務架構——這些方法的統(tǒng)合,就是SRE。
或許可以這樣理解,SRE就像是在充滿不確定性的云時代,畫上一張確定性的建筑圖紙。它不是具體解決哪個運維安全問題,而是帶來宏觀的安全與可靠。
華為云SRE,就是看到了這種必然趨勢,同時積極進行了嘗試與探索。
建筑師的眼與手:先一步成長的華為云SRE
未來,云計算將會像水、電一樣觸手可及,隨取隨得。這個結(jié)論可以推導出一個必然:云計算體系,必須像電網(wǎng)、水網(wǎng)一樣安全可靠。如今,我們再也不會常備蠟燭,預防停電。這背后的努力,是電網(wǎng)進行了大量運維工作來保障高可用——云計算也將如此。
在華為云的眼中,這個結(jié)論清晰可見。于是華為云自成立的那一天起,就成立了SRE團隊。SRE負責維護華為云的整體質(zhì)量,看護整個云計算網(wǎng)絡的安全與穩(wěn)定運行。
(在新華社智庫《中國云計算創(chuàng)新活力報告》中,華為云斬獲安全可靠能力排名第一)
如今,華為云SRE這位建筑師,已經(jīng)用雙手畫出了一張宏偉的“確定性”建筑圖紙。在全球范圍內(nèi),支撐著華為云在全球170多個國家和地區(qū),超過240個云服務、370萬開發(fā)者和海量企業(yè)業(yè)務,以及百萬級別的節(jié)點實例。這樣龐大的業(yè)務藍圖,都需要SRE團隊統(tǒng)一參與開發(fā)與部署規(guī)范,確保上線運維安全。
在這個過程中,華為云SRE的“看家法寶”,就是構筑了華為云的高可用架構,讓云服務在產(chǎn)品開發(fā)的前端就具備高可靠、高可用特性。整體而言,高可用結(jié)構在應對故障時可分為三個維度考量:首先是軟件具有確定性的失效率,確保不會頻繁發(fā)生故障,將軟件問題控制在一定范圍之內(nèi);其次是給出確定性的恢復時長,明確可以在怎樣的時間之內(nèi)進行業(yè)務恢復;接下來是構筑確定性的爆炸半徑,確保單點的故障擴散范圍有限,只影響到很小的范圍,而不影響整體業(yè)務。
在這樣的架構下,最終華為云SRE實現(xiàn)了將可靠性、可恢復性、影響范圍控制的特性全面融入,真正面向萬千企業(yè)提供安全、可靠、高質(zhì)量的服務承諾。從實際結(jié)果來看,在近幾年華為云業(yè)務高速發(fā)展的同時,其出現(xiàn)的故障概率與故障烈度顯著低于全球主流云廠商?;蛟S可以說,華為云SRE的運維能力做到了與公司業(yè)務規(guī)模一同成長,甚至先一步成長。
米開朗基羅的“溢出”效應:讓千萬企業(yè)從SRE中受益
我們知道,數(shù)字化技術會在發(fā)展到一定程度時,出現(xiàn)明顯的“溢出”效應。比如說數(shù)字化價值賦能,就從虛擬經(jīng)濟溢出到實體經(jīng)濟,帶來了“數(shù)實融合”的發(fā)展契機。
對于華為云SRE“建筑師”們而言,其也在云上運維的探索上展現(xiàn)出了明顯的“溢出”效應。
華為云SRE的基礎價值,就是通過確保華為云服務與網(wǎng)絡的穩(wěn)定,帶給客戶更好、更優(yōu)質(zhì)的云體驗,尤其是在Devops 的場景下,保障了華為云用戶敏捷創(chuàng)新、快速迭代的開發(fā)模式。讓用戶不僅能夠上云,還可以有質(zhì)量地用云、有保障地用好云。
再向前走一步,華為云SRE通過服務客戶與無數(shù)應用的經(jīng)驗總結(jié),提出了“確定性運維”的發(fā)展方向與方法論,繼而梳理出適用于云上業(yè)務的“確定性運維”能力體系和成熟度模型,供千行百業(yè)的企業(yè)進行參考。
這一業(yè)界獨有“確定性運維”能力體系成熟度模型包含:第一級基本運維,即基礎運維的能力構建,以此確保業(yè)務基本生存;第二級標準化運維,其能夠?qū)⑦\維帶到更加規(guī)律、規(guī)范的發(fā)展階段,確保業(yè)務的穩(wěn)定可靠;第三級SRE轉(zhuǎn)型,意味著運維團隊開始從“消防員”轉(zhuǎn)型為“建筑師”,開始勾勒整體的確定性運維藍圖;在第四級,企業(yè)獲得SRE帶來的初步確定性,而到第五級企業(yè)將獲得高度確定性。
在可見的未來,大部分企業(yè)都會上云,每一家企業(yè)都需要開發(fā)、運營軟件的時代里,確定性運維可以說是一種剛性需求。即使每家企業(yè)的業(yè)務訴求與業(yè)務種類不同,但對穩(wěn)定可靠的追求其實是高度統(tǒng)一的。
面向這一趨勢,華為云SRE的一系列自我成長,都可以變成賦能萬千企業(yè)的成熟價值。比如,通過智能運維工具提升組織的效率和可靠性;通過全質(zhì)量管理的流程理念,形成組織人員管理的可控性;運維團隊變成設計師,參與前端標準設計,構筑高可用架構。
這些由華為云SRE綜合和探索出的技術與方法,或許是每一家企業(yè)的決策者、管理者,都應該看到的現(xiàn)實價值。
在全云化紀元,每家企業(yè)都需要運維能力的提升,那或許每家企業(yè)也都可以成為“云上的米開朗基羅”。SRE的核心文化,依舊需要各界攜手去探索和發(fā)揚。但就像運維所需的確定性那樣,SRE探索對每家企業(yè)的未來價值來說,也是充滿確定性的。
審核編輯黃宇
-
數(shù)字化
+關注
關注
8文章
10868瀏覽量
67450 -
華為云
+關注
關注
3文章
2837瀏覽量
19379
發(fā)布評論請先 登錄
華為云架構大調(diào)整,波及千名員工,All in AI能否扭虧為盈
一文帶你徹底搞懂K8s網(wǎng)絡
一文帶你了解海凌科毫米波雷達
軟通動力聯(lián)合華為云舉辦2025云動鴻蒙協(xié)同峰會
一文帶你了解電源測試系統(tǒng)的功能!
中軟國際文旅SaaS平臺成功落地“樂游威?!表椖?/a>
軟通動力攜手華為云發(fā)布AI應用創(chuàng)新領航計劃
華為開發(fā)者大會2025(HDC 2025)亮點:華為云發(fā)布盤古大模型5.5 宣布新一代昇騰AI云服務上線
一文帶你走近華為云SRE
評論