對于數(shù)據(jù)人尤其是數(shù)據(jù)產(chǎn)品和分析師,最難排查(頭疼)的問題就是指標(biāo)為什么升/降/沒數(shù),一旦業(yè)務(wù)方提出這種問題就意味著有大半天的時間要花在確認(rèn)指標(biāo)口徑+計算邏輯+埋點(diǎn)采集上,而且要同時跟業(yè)務(wù)方、分析師、數(shù)據(jù)產(chǎn)品、數(shù)倉甚至是負(fù)責(zé)埋點(diǎn)的開發(fā)溝通,所以對于業(yè)務(wù)達(dá)到一定復(fù)雜度和指標(biāo)達(dá)到一定量級的情況下,采用人肉運(yùn)維的方式顯然是事倍功半的,搭建一套指標(biāo)監(jiān)控體系來保證產(chǎn)出數(shù)據(jù)的時效性和數(shù)據(jù)質(zhì)量才是正解。
由于搭建指標(biāo)監(jiān)控體系要做的工作實(shí)在太多,本文我們重點(diǎn)討論幾個場景,在這些場景下我們數(shù)據(jù)產(chǎn)品經(jīng)理能夠發(fā)揮哪些作用。
以一個實(shí)際場景case舉例,聊聊當(dāng)數(shù)據(jù)出現(xiàn)異常波動時監(jiān)控體系是如何發(fā)揮其作用的。
業(yè)務(wù)小李同學(xué)發(fā)現(xiàn),昨天App首頁的人均停留時長日環(huán)比上漲了40%,于是小李找到分析師和數(shù)據(jù)產(chǎn)品詢問指標(biāo)下降的原因。
此類問題相信各位數(shù)據(jù)人都不陌生,大家的反應(yīng)都是先和業(yè)務(wù)確認(rèn)最近是否產(chǎn)品有過升級或者策略調(diào)整,如果沒有的話就要排查數(shù)據(jù)流轉(zhuǎn)的各個環(huán)節(jié)是否有問題,以下圖為路線,我們分析在這些環(huán)節(jié)是否能前置的做些監(jiān)控和定位工作。
01
數(shù)據(jù)同步
不管是埋點(diǎn)數(shù)據(jù)和還是業(yè)務(wù)數(shù)據(jù),最終都是以一張張日志表的形式同步到數(shù)倉ODS層,如果是數(shù)據(jù)同步有缺失,可以查看數(shù)據(jù)拉取服務(wù)、埋點(diǎn)日志解析、ETL等過程是否異常,可以將上述注意點(diǎn)整理一個checklist,做成任務(wù)每天例行檢查,能做到對以上異常情況的定位也就初步完成了數(shù)據(jù)同步環(huán)節(jié)的監(jiān)控。數(shù)倉同學(xué)經(jīng)排查并未看到執(zhí)行失敗的任務(wù),可以確定數(shù)據(jù)同步環(huán)節(jié)是正常的。
02
調(diào)度監(jiān)控
其實(shí)調(diào)度監(jiān)控和任務(wù)管理有著很密切的聯(lián)系,最終目的都是為了把這些任務(wù)有序的運(yùn)行起來,調(diào)度系統(tǒng)的設(shè)計可以重點(diǎn)考慮以下幾個特性:

那么如何通過產(chǎn)品化的形式展示當(dāng)前任務(wù)的調(diào)度狀態(tài)呢?一般大家都會選擇用血脈圖來展示,數(shù)據(jù)產(chǎn)品在設(shè)計血脈圖的展現(xiàn)形式時,可以考慮不僅能展示作業(yè)組、節(jié)點(diǎn)、表名、字段名、運(yùn)行狀態(tài)等,還要考慮能將業(yè)務(wù)實(shí)體,也就是指標(biāo)與調(diào)度信息進(jìn)行關(guān)聯(lián)。 當(dāng)然能做到這個粒度依托與數(shù)倉治理的程度,如果數(shù)倉規(guī)范和治理做的沒那么精細(xì),我們可以抓重點(diǎn)來做:比如梳理一些重要指標(biāo)的調(diào)度關(guān)系,先把這些重要指標(biāo)的調(diào)度監(jiān)控做起來,這樣也是比較容易看到成效的。
此時我們查看血脈圖可以看到總停留時長這個指標(biāo)是執(zhí)行成功狀態(tài),且依賴的作業(yè)也是執(zhí)行成功的狀態(tài),而我們要排查的人均停留時長指標(biāo)是總停留時長指標(biāo)的派生指標(biāo),這樣我們可以得出結(jié)論并非是調(diào)度任務(wù)出現(xiàn)問題,接下來可以排查是否是運(yùn)行指標(biāo)的任務(wù)出了問題。
03
任務(wù)管理
看到這兒會發(fā)現(xiàn)我們越來越接近指標(biāo)層了,而隨著指標(biāo)數(shù)量越來越多、指標(biāo)口徑越來越復(fù)雜,就會出現(xiàn)下面令人頭疼的問題:
----任務(wù)不能在計劃時間內(nèi)完成
----下游依賴的任務(wù)已經(jīng)執(zhí)行了但上游任務(wù)還沒跑完,這時候沒有數(shù)據(jù)下游任務(wù)報錯
----兩個任務(wù)并行執(zhí)行影響數(shù)據(jù)結(jié)果
排查任務(wù)錯誤原因越來越麻煩、各種依賴關(guān)系越來越復(fù)雜、最后排查問題就要從一團(tuán)團(tuán)亂麻中理出已跟麻繩。
而為了保證指標(biāo)產(chǎn)出的準(zhǔn)確性,就必須要求生成這些指標(biāo)的任務(wù)按照上下游依賴有序進(jìn)行,最終能確保按時生成指標(biāo)。
為了保證指標(biāo)產(chǎn)出的監(jiān)控性,要做到對導(dǎo)入任務(wù)的監(jiān)控,具體有支持查看導(dǎo)入任務(wù)的執(zhí)行紀(jì)錄、執(zhí)行狀態(tài)、失敗原因等,這樣當(dāng)指標(biāo)數(shù)據(jù)未產(chǎn)出時可以通過導(dǎo)入任務(wù)的執(zhí)行狀態(tài)來分析問題。
而為了保證指標(biāo)的時效性我們可以配置指標(biāo)負(fù)責(zé)人、運(yùn)維人員、SLA來保證,當(dāng)任務(wù)執(zhí)行時間超過SLA觸發(fā)報警機(jī)制。
接下來回到我們排查人均停留時長這個問題,已知他的原子指標(biāo)總停留時長的作業(yè)是沒問題的,那么我們分析這個指標(biāo)的計算邏輯:
人均停留時長=總停留時長/DAU
我們看到上游產(chǎn)出DAU的任務(wù)失敗了,后經(jīng)開發(fā)排查,是因?yàn)镈AU的表里有個小時表執(zhí)行失敗了,導(dǎo)致DAU算的數(shù)據(jù)偏少,進(jìn)而人均停留時長數(shù)據(jù)異常增長。
04
指標(biāo)檢驗(yàn)
最后就是對指標(biāo)數(shù)據(jù)進(jìn)行檢驗(yàn),在導(dǎo)入任務(wù)執(zhí)行完產(chǎn)出數(shù)據(jù)后,如何驗(yàn)證產(chǎn)出的數(shù)據(jù)符合預(yù)期呢?我們可以給指標(biāo)的波動范圍設(shè)計閾值(一般是日環(huán)比和周同比的形式),關(guān)于閾值如何設(shè)定,有的團(tuán)隊可能采用業(yè)務(wù)方提供的波動值來作為閾值,但這種判斷容易受主觀思維影響,從數(shù)據(jù)的角度出發(fā)可以考慮取以往的指標(biāo)波動均值作為參考閾值,這樣我們在閾值的設(shè)定上是比較科學(xué)的。
如果是業(yè)務(wù)調(diào)整帶來的波動,那在計劃調(diào)整的時候肯定是有個預(yù)期的波動值,我們只需要在調(diào)整后及時在報表展示平臺添加好提示,同時也檢查下數(shù)據(jù)波動和業(yè)務(wù)的預(yù)期是否一致,這樣也會降低一些因業(yè)務(wù)調(diào)整帶來的口徑波動解釋成本
在指標(biāo)校驗(yàn)環(huán)節(jié)我們發(fā)現(xiàn)人均停留時長這個指標(biāo)已經(jīng)超過了設(shè)置的20%的閾值,所以業(yè)務(wù)同學(xué)收到了報警,然后就開始了我們文章一開始出現(xiàn)的那一幕。
指標(biāo)監(jiān)控體系看似是對指標(biāo)的監(jiān)控,實(shí)際上是對整個數(shù)據(jù)生產(chǎn)流程的監(jiān)控,但本文只是簡單的講了這幾個環(huán)節(jié),排查實(shí)際問題中并不只是這些環(huán)節(jié)會有問題,比如數(shù)據(jù)同步環(huán)節(jié)發(fā)現(xiàn)解析到的埋點(diǎn)日志很少,那么我們要排查是否埋點(diǎn)出現(xiàn)異常;調(diào)度監(jiān)控除了血脈圖還有元數(shù)據(jù)管理平臺等等。。。
總之?dāng)?shù)據(jù)采集到數(shù)據(jù)可視化是個漫長且復(fù)雜的鏈路,對于企業(yè)級的指標(biāo)監(jiān)控系統(tǒng),這些事還遠(yuǎn)遠(yuǎn)不夠,不同公司面臨的困難不一樣,方法也不一樣,思考如何制定適合自己業(yè)務(wù)和技術(shù)現(xiàn)狀的監(jiān)控方案,這樣才能更好的落地實(shí)施。
編輯:jq
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7350瀏覽量
95063 -
APP
+關(guān)注
關(guān)注
33文章
1594瀏覽量
76149 -
SLA
+關(guān)注
關(guān)注
1文章
55瀏覽量
18764
原文標(biāo)題:淺談如何建設(shè)指標(biāo)監(jiān)控體系
文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
微電網(wǎng)可靠性評估指標(biāo)體系的權(quán)重如何確定?
中小車企 ASPICE 落地實(shí)戰(zhàn):低成本高效能研發(fā)體系搭建
微電網(wǎng)可靠性評估理論:指標(biāo)體系與評估方法
Redis應(yīng)用監(jiān)控指標(biāo)大盤點(diǎn)
零碳園區(qū)的碳減排效果評估指標(biāo)有哪些?
億緯鋰能綠色制造體系建設(shè)取得里程碑式突破
WAPI技術(shù)引領(lǐng)!部隊倉儲信息化建設(shè)方案打造安全智能后勤保障體系
怎樣確定實(shí)時校驗(yàn)機(jī)制的驗(yàn)證指標(biāo)?
芯盾時代助力中國電子建設(shè)智能身份安全防護(hù)體系
從精準(zhǔn)采集到智慧賦能:物聯(lián)網(wǎng)平臺打造新一代氣象監(jiān)控體系
Linux企業(yè)網(wǎng)絡(luò)安全防護(hù)體系建設(shè)
軟通動力中標(biāo)日照銀行司庫體系建設(shè)項(xiàng)目
政策解讀:一文搞懂建設(shè)零碳園區(qū)核心要點(diǎn)
微型氣象站系統(tǒng):為智慧氣象建設(shè)和應(yīng)急管理體系現(xiàn)代化提供關(guān)鍵技術(shù)支撐
指標(biāo)監(jiān)控體系如何建設(shè)
評論