日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

智能運維第一步:HDD磁盤故障預測

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2023-10-31 13:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當今數(shù)字化時代,信息技術扮演著企業(yè)和組織運營的關鍵角色。然而,隨著IT環(huán)境不斷復雜化和數(shù)據量激增,傳統(tǒng)的運維管理方法已經無法滿足日益增長的需求。為應對這一挑戰(zhàn),智能運維(Artificial intelligence for IT operations,簡稱AIOPS)應運而生。

AIOPS融合了人工智能、自動化和數(shù)據分析等技術,旨在優(yōu)化IT運維的效率、可靠性和可用性。在AIOPS的范疇內,硬盤驅動器(HDD)故障預測是其中一個至關重要的組成部分。在數(shù)字化時代,數(shù)據被譽為“新時代的石油”,HDD作為數(shù)據存儲的基礎設備,在數(shù)據中心、服務器和個人計算機中廣泛使用,扮演著關鍵角色。然而其敏感、精確、結構復雜的特性往往也使得某些故障難以避免。因此,通過AIOPS來實現(xiàn)HDD故障預測,避免數(shù)據丟失、業(yè)務中斷、維護成本上升,從而保障數(shù)據可用性和系統(tǒng)穩(wěn)定性,逐漸成為保障業(yè)務正常運轉的重要手段。

為什么硬盤會出現(xiàn)故障?

由旋轉磁盤和漂浮在其上方的讀/寫頭組合而成的硬盤驅動器盡管結構復雜,但它們已經證明了自己作為數(shù)據載體的價值。然而,引起機械硬盤發(fā)生故障的原因有多種:首先,如高溫、濕度、機械磨損、讀寫操作頻率等,這些因素之間的相互作用使得故障模式變得更為復雜,大大提高了預測難度。其次,溫度、振動、讀寫速度、錯誤率等多樣性HDD性能數(shù)據在規(guī)模龐大的數(shù)據存儲環(huán)境中對進行有效利用和分析,無疑也是一個挑戰(zhàn)。

傳統(tǒng)的故障預測方法主要基于固定的閾值和經驗判斷,存在明顯的限制:傳統(tǒng)方法只能在故障已經發(fā)生或接近發(fā)生時才采取行動,無法預測性地防止故障;基于閾值的警報往往容易誤報,因為某些參數(shù)可能因正常使用而產生波動;傳統(tǒng)方法通常需要大量的人工干預,增加管理成本。相比之下,智能算法的引入為HDD故障預測帶來諸多可能性,利用大數(shù)據和機器學習技術,其強大的學習和自適應能力可以更好地利用和分析這些多樣化的數(shù)據,從海量的硬盤驅動器數(shù)據中提取有價值的信息,進而更加準確地進行故障預測。

HDD故障預測解決方案

方案主要包含兩部分:模型離線訓練以及實時監(jiān)測和警報。首先通過離線訓練得到可用的預測模型,然后將模型運用到實際生產環(huán)境中進行實時故障預測。

模型離線訓練

模型離線訓練整體流程如圖1所示。模型所需數(shù)據為S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology,自我監(jiān)測、分析及報告技術,即一種自動的硬盤狀態(tài)檢測與預警系統(tǒng)和規(guī)范)數(shù)據,主要指硬盤運行過程中的指標值。在數(shù)據預處理階段,由于并非所有原始屬性都是機器學習模型的可用特征,因此需要先去除冗余和不相關的特征并選擇與預測結果相關的特征,然后對于空缺的數(shù)據進行向前補全。同時,故障盤最后兩周的樣本均為潛在故障樣本(預示著該硬盤可能隨時會發(fā)生故障),即需要將最后兩周的樣本設置為故障盤樣本標簽。最后,二維數(shù)據類圖構建則是將時間作為第二維度(SMART屬性作為第一維度),使用滑動窗口的方式,構建出二維數(shù)據圖,如圖2所示。經過此階段處理能夠保持SMART數(shù)據的時間局部性,有利于磁盤故障預測。最后將得到的數(shù)據進行數(shù)據劃分,分別組成訓練集、驗證集和測試集用于模型訓練和評估。

wKgZomVAkvqADflKAABS9VLX2Ng557.jpg


圖1 模型離線訓練

wKgaomVAkvuAIYofAABvEFGmd-M055.jpg


圖2 滑動窗口構建數(shù)據類圖

在故障預測模型訓練過程中(圖3中虛線框所示),只使用健康硬盤的樣本。編碼器GE用來對原始輸入圖片x進行編碼,得到圖片特征z,解碼器GD對編碼后的圖片特征z`進行解碼。得到重構圖片x`。為檢測異常,添加一個編碼器E來學習重構樣本x`的特征表示z`。對于原始樣本x和生成圖片x`,交由判別網絡D來判別真?zhèn)?,這樣,在判別網絡進行更新時,判別網絡的判別能力會得到提升。

wKgZomVAkvyAYcyLAAB0qRLwU5w060.jpg


圖3 故障預測模型

在模型預測過程中(圖3中實線框所示),無判別網絡,只利用生成網絡。將硬盤當前的二維SMART數(shù)據類圖作為輸入,經過模型中生成網絡的處理,得到輸入類圖的特征表示z和生成網絡的特征表示z`。其預測原理是,利用z和z`之間的差異來衡量樣本生成的有效性,且兩者差異越小,樣本生成越好。因此,兩者的L2范式A(X)=||z-z`||2被用于衡量樣本的異常度,即當值大于某一閾值時,表示樣本異常,即該硬盤將發(fā)生故障。其背后原因是,在訓練過程中只利用和學習健康硬盤樣本的分布,則使得健康硬盤樣本的差異更小,即z和z`的差距更小。在預測時,如果輸入樣本來自故障硬盤,則會因為故障樣本偏離健康樣本的分布,導致z和z`差異更顯著。

模型每次迭代訓練使用AUC(Area Under Curve,接受者操作特征曲線下面積)區(qū)域預測效果最好的模型參數(shù)進行保存并供后續(xù)預測使用。模型訓練完成后使用準確率對模型的性能進行評估,經評估模型的預測準確性可達99%。

實時監(jiān)測和警報

當模型訓練完成后將HDD故障預測引擎順利整合到多設備管理軟件InView端,允許實時采集硬盤SMART數(shù)據,并利用模型進行在線推理預測未來兩周內硬盤發(fā)生故障可能性(如圖4所示)。當系統(tǒng)檢測到硬盤出現(xiàn)故障風險立即觸發(fā)告警機制,及時通知用戶進行換盤處理。此機制不僅能夠確保數(shù)據的安全可靠性,還提高了硬盤驅動器的整體性能和維護效率,強力保障了業(yè)務的連續(xù)性和數(shù)據管理的穩(wěn)定性。

wKgaomVAkv2AZqlRAACLe74b3KA814.jpg


圖4 InView端HDD故障預測

通過AIOPS技術,浪潮信息HDD磁盤故障預測解決方案不僅實現(xiàn)了業(yè)界領先的預測準確性,還成功整合預測引擎和實時監(jiān)測系統(tǒng),能夠在故障風險出現(xiàn)時采取及時的措施,保護數(shù)據的安全和業(yè)務的連續(xù)性。

未來,將繼續(xù)優(yōu)化和拓展HDD磁盤故障預測能力:

除SMART數(shù)據外拓展更多類型數(shù)據,全方位多角度評估硬盤健康狀況;

通過機器學習和深度學習技術的發(fā)展為識別和預測復雜的故障模式提供更多工具;

進一步改進實時監(jiān)測和警報系統(tǒng),提高智能化和自適應性,使系統(tǒng)學習并適應不斷變化的硬盤性能和環(huán)境條件;

研究自動化響應機制,實現(xiàn)更快速的故障處理,進一步降低業(yè)務中斷的風險。

面對生成式AI掀起的變革浪潮,5G、AI大語言模型、自動駕駛等各類新技術融合,大容量HDD依然是企業(yè)級數(shù)據中心、云服務提供商以及超大規(guī)模云業(yè)務領域的首選,浪潮信息將繼續(xù)秉承“極致存儲,智慧有數(shù)”的理念,基于自身技術優(yōu)勢不斷創(chuàng)新,持續(xù)推動該領域的技術發(fā)展,以可靠高效的一體式解決方案守護企業(yè)數(shù)據安全,助力千行百業(yè)數(shù)字化轉型。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 硬盤
    +關注

    關注

    3

    文章

    1368

    瀏覽量

    60091
  • 磁盤
    +關注

    關注

    1

    文章

    402

    瀏覽量

    26606
  • AI
    AI
    +關注

    關注

    91

    文章

    41654

    瀏覽量

    302908
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    邀請函 | CET中電技術邀您參加第五屆工業(yè)設備智能大會

    電氣設備故障診斷及智能管理平臺、CET工業(yè)設備預測性維護系統(tǒng)、CET供配電異常信息捕捉及故障
    的頭像 發(fā)表于 04-10 18:06 ?304次閱讀
    邀請函 | CET中電技術邀您參加第五屆工業(yè)設備<b class='flag-5'>智能</b><b class='flag-5'>運</b><b class='flag-5'>維</b>大會

    Linux磁盤空間告警的常見原因和診斷方法

    磁盤空間告警是工作中最常見的告警類型之。當磁盤空間耗盡時,應用程序無法寫入日志、數(shù)據庫無法正常提交、容器無法創(chuàng)建新鏡像,甚至系統(tǒng)日志寫
    的頭像 發(fā)表于 04-08 14:25 ?184次閱讀

    AIOps 智能:讓 IT 從 “被動救火” 到 “主動防御”

    、故障定位慢、業(yè)務中斷損失大,成了工程師的日常痛點。而AIOps(智能)的出現(xiàn),就像給I
    的頭像 發(fā)表于 02-12 14:09 ?1964次閱讀
    AIOps <b class='flag-5'>智能</b>化<b class='flag-5'>運</b><b class='flag-5'>維</b>:讓 IT <b class='flag-5'>運</b><b class='flag-5'>維</b>從 “被動救火” 到 “主動防御”

    良好的設備能夠有效告別故障停機焦慮

    化工生產以連續(xù)化作業(yè)為核心,反應釜、壓縮機、輸送泵等關鍵設備的穩(wěn)定運行直接決定生產效益,旦設備突發(fā)故障,不僅會造成原料浪費、產能損失,更可能引發(fā)安全隱患。傳統(tǒng)模式下,化工設備參數(shù)
    的頭像 發(fā)表于 02-12 10:47 ?752次閱讀

    光伏電站智能平臺是如何在光伏電站中應用的?

    光伏電站智能平臺是種實現(xiàn)對光伏電站的實時監(jiān)控、故障預警、性能優(yōu)化、智能
    的頭像 發(fā)表于 01-04 17:59 ?1738次閱讀

    7×24小時AI服務:以 “云-邊-云” 架構重塑企業(yè) IT 范式

    前言云邊云科技7×24小時AI管家,依托自主研發(fā)的“云-邊-云”智能云網架構,融合SD-WAN、SASE技術與AI算法,構建“實時監(jiān)
    的頭像 發(fā)表于 12-24 09:20 ?989次閱讀
    7×24小時AI<b class='flag-5'>運</b><b class='flag-5'>維</b>服務:以 “云-邊-云” 架構重塑企業(yè) IT <b class='flag-5'>運</b><b class='flag-5'>維</b>范式

    復卷機遠程物聯(lián)網管理方案

    仍面臨設備分布廣泛、運行狀態(tài)監(jiān)控不便、故障響應不及時、成本高昂等諸多挑戰(zhàn),限制了生產效能的進一步釋放,自身也需要付出較多的時間、精力與成本。 二、系統(tǒng)概述 對此,數(shù)之能基于設備
    的頭像 發(fā)表于 11-25 15:25 ?411次閱讀
    復卷機遠程<b class='flag-5'>運</b><b class='flag-5'>維</b>物聯(lián)網管理方案

    光伏電站管理系統(tǒng)這種管理模式的應用

    光伏電站管理系統(tǒng)針對不同光伏電站的模式、技術架構和功能模塊有著不同的類別,其中各功能模塊通過數(shù)據交互與流程銜接實現(xiàn)協(xié)同運作,來實現(xiàn)對光伏電站
    的頭像 發(fā)表于 11-18 15:40 ?569次閱讀
    光伏電站<b class='flag-5'>運</b><b class='flag-5'>維</b>管理系統(tǒng)這種<b class='flag-5'>運</b><b class='flag-5'>維</b>管理模式的應用

    光伏電站智能平臺是如何解決傳統(tǒng)核心痛點的?

    通過建設光伏電站智能平臺實現(xiàn)智能管理,是應對傳統(tǒng)
    的頭像 發(fā)表于 11-04 17:41 ?762次閱讀
    光伏電站<b class='flag-5'>智能</b><b class='flag-5'>運</b><b class='flag-5'>維</b>平臺是如何解決傳統(tǒng)<b class='flag-5'>運</b><b class='flag-5'>維</b>核心痛點的?

    掌握數(shù)字設計基礎:邁向芯片設計的第一步

    在當今電子世界里,數(shù)字設計 是切復雜系統(tǒng)的基石。從智能手機到自動駕駛,從AI芯片到物聯(lián)網設備,數(shù)字電路無處不在。想要進入半導體與IC設計領域,扎實的數(shù)字設計基礎幾乎是“必修課”。今天我們就帶你梳理
    發(fā)表于 10-09 21:11

    智能管理平臺智慧園區(qū)應用案例

    、項目背景 隨著機房設備的逐步增多,該產業(yè)園的管理工作產生了較大壓力,無法及時得知園區(qū)所屬設備的運行狀態(tài),沒有套統(tǒng)
    的頭像 發(fā)表于 09-12 16:20 ?754次閱讀
    <b class='flag-5'>智能</b><b class='flag-5'>運</b><b class='flag-5'>維</b>管理平臺智慧園區(qū)應用案例

    企業(yè)級Linux磁盤維護的完整流程

    在企業(yè)級Linux環(huán)境中,磁盤故障是導致系統(tǒng)宕機和數(shù)據丟失的主要原因之。據統(tǒng)計,超過70%的企業(yè)級服務器故障與存儲系統(tǒng)相關。作為
    的頭像 發(fā)表于 07-23 16:59 ?1111次閱讀

    工業(yè)設備故障早知道?中設智控聲振溫監(jiān)測系統(tǒng)讓預測落地成真

    中設智控聲振溫監(jiān)測系統(tǒng)用聲音、振動、溫度的三數(shù)據,為工業(yè)設備裝上 "聽診器" 和 "體溫計",讓預測從 PPT 概念變成車間里的真實場景,成為
    的頭像 發(fā)表于 07-21 15:20 ?964次閱讀
    工業(yè)設備<b class='flag-5'>故障</b>早知道?中設智控聲振溫監(jiān)測系統(tǒng)讓<b class='flag-5'>預測</b>性<b class='flag-5'>運</b><b class='flag-5'>維</b>落地成真

    光伏電站智能的趨勢發(fā)展

    ,易造成火災事故;管理低效,缺乏專業(yè)技術人員,無法及時響應限電或調峰要求等。通過智能系統(tǒng)的引入,可實時監(jiān)測異常、避免事故發(fā)生的同時,為光伏電站提供智能化的管理輔助決策,進一步提升電站的
    的頭像 發(fā)表于 07-07 14:40 ?896次閱讀
    光伏電站<b class='flag-5'>智能</b><b class='flag-5'>運</b><b class='flag-5'>維</b>的趨勢發(fā)展

    廣東移動聯(lián)合華為推出SPN網絡故障智能體方案

    近日,廣東移動與華為聯(lián)合推出基于華為網絡智能體NetMaster的SPN網絡故障智能體方案,該方案在SPN(Slicing Packet
    的頭像 發(fā)表于 05-16 20:13 ?1751次閱讀
    武陟县| 定州市| 扶沟县| 长兴县| 彩票| 五大连池市| 绥芬河市| 泰州市| 兰考县| 屯留县| 望谟县| 交城县| 内江市| 饶阳县| 湘潭市| 两当县| 城市| 灌南县| 洛川县| 和硕县| 思南县| 定西市| 阿坝县| 信阳市| 隆子县| 安仁县| 双辽市| 祥云县| 阳朔县| 罗田县| 长治市| 邹平县| 娄烦县| 内江市| 定襄县| 平顺县| 琼中| 普宁市| 平和县| 渝北区| 团风县|