隨著云計算、 5G等新型信息通信技術應用深入,電信行業在面臨網絡轉型及重構挑戰的同時也在探尋通過IT運維提升效率、優化成本的解決方案,以提升企業競爭力。因此,電信行業正在面臨架構容器化演進、自動化向智能化轉型、構建企業級能效中臺、一體化運營體系以及內化IT研發能力等應用現狀。
目前運營商都有要求應用部署在指定PaaS平臺的趨勢,基于以上背景提出研發輕量級運維平臺的思路,通過運維平臺把微服務管控(SCP)、調用鏈跟蹤(iTracing)等核心運維能力集成到一起,提供全息監控能力,實現運維過程中異?,F象“事先預警”、問題過程中能夠“事中緩解”、問題發生后能提供手段還原問題場景輔助“事后分析”的全流程覆蓋。
輕量級智慧運維平臺目標
篇幅所限,本次先介紹智慧運維平臺中全息監控相關內容。
系統問題的事前預警、事中緩解、事后分析是問題發展過程的“三段論”,希望通過將產品運行的關鍵環節進行顯性化的展示,在此基礎上輔助一定的運維手段,盡量在問題的事前階段捕捉到相關的預警信息并告知對應責任人,將問題消弭于無形,“系統無障”是我們的終極目標。這些要求,意味著需要隨時掌控系統自身運行狀態以及業務承載信息。因此,對系統實時監控并以可觀測的方式進行展示,就成了基礎架構的必備“技能”。
全息監控的根本原理是利用全息數字建模技術,對海量信息提取真正有價值的部分,實現主屏、業務屏、組件屏、服務探測屏的多維度分析,通過提供豐富圖形模板進行展示,設置各類型告警任務、異常情況,方便快速發現問題、解決問題。

全息監控技術方案示意
在本方案中,可從業務、應用、接口服務、技術組件、虛擬資源等多層面進行全棧式監控,快速接入各業務系統,協助業務系統沉淀行業指標規范,適配各類paas環境,支持輕量級部署。具備業務健康度分析能力,能定期輸出運營報表,實現業務生產流程數據透明化大屏展示,為運營決策提供依據,從業務維度感知系統運行態勢,持續優化服務,提升系統性能,改進業務流程,提升用戶滿意度。
全息監控的應用場景廣泛,可以對單個應用/組件、業務流程、業務場景進行監控展示。


全息監控大屏業務目標規劃流程
全息監控大屏應用流程如上圖,在該流程中,核心步驟為“2、明確監控目標”,其它所有步驟都為它服務。通常來說,監控目標大概有這幾種:
1) 展示形象,著重點在說明應用/組件建設效果,可通過全息監控大屏提供先進的可視化運維管理能力。2) 展示業務承載狀態,著重點在對業務數據的觀測,通過實時呈現應用業務指標數據以了解業務開展情況、業務運行是否發生異常(業務請求數/業務成功率/業務失敗率等出現劇烈波動),以便在必要的時候及時進行人工介入。這個目標適合業務時效性要求高的場景,比如線下受理類業務、實時生效類業務等。3) 展示技術支撐能力,著重點在對技術能力的觀測,通過實時呈現組件當前技術指標,以說明被監控對象當前處于什么狀態(空載/空閑/忙碌/過載/癱瘓等),業務支撐能力是否發生變化(主機CPU/內存使用率過高、數據庫慢查詢數變多/表空間空閑率極低、Redis連接數過高/被阻塞的連接個數大于0等),以便在必要的時候及時進行人工介入。這個目標適合對硬件設備、數據庫、分布式組件等的監控,比如主機、Mysql、Redis、MQ、ZK等。
在實際項目落地過程中,可以根據實際情況確定希望通過全息監控大屏實現的監控目標,目標可以是上述的一種,也可以是數種的組合,具體的以可投入預算和資源決定。

全息監控組件優點總結
整體來說,全息監控在實際生產應用過程中起著重要作用,大致總結了它的幾個特點:
開箱即用:應用、組件屏、接口服務屏等無需過多配置,無需修改業務代碼即可接入使用,非侵入式數據采集。
內置指標體系豐富:根據業務系統提供的指標體系,提供指標圖表庫,通過一鍵部署快速生成各類通用監控屏,開箱即用。
指標配置簡單:通用指標(主機容器、IaaS資源指標、組件指標、應用健康指標、應用所依賴組件健康探測指標、通用服務監控指標等)無需配置,既取即用;特定業務指標少量配置即可滿足。
大屏配置簡單:自帶組件屏、服務監控探測屏,開箱即用;監控主屏、業務屏少量配置即可展示。
圖表展示:提供折線、柱狀、餅圖、雷達、地圖等豐富圖形組件,支持各類指標的展示。
流程展示:提供可視化流程配置,包括流程節點、數據來源(url)、流程布局、告警參數等,支撐各類業務流程。
自定義報表:除提供Oracle、Mysql、Redis、MQ等通用組件運行情況報表外,還可根據業務要求快速定制個性化報表。
立體全業務監控:提供從前端、應用服務、中間件到云資源的一站式立體運維監控,運維更高效。
全流程可視化監控:匯總業務各環節信息,端到端展示業務流程。
業務系統接入監控后,從IaaS資源、PaaS組件、應用、服務等多層維度診斷,快速輸出診斷報告。
以某項目為例,按照不同的角色和關注點建設“家寬交付流程監控大屏”。系統主要分為前端與后端,前端進行數據展示,后端進行數據采集、加工清洗、指標統計。支持數據實時采集、實時加工、實時展示,業務流程出現問題進行實時告警,對數據的展示進行時間段的偏移,實時偏移量最多不超過1小時;支持數據按照月數據進行展示環比比較分析。

指標采集數據流
在本案例中,監控大屏所需指標由大數據平臺匯總各業務系統數據后生成,并通過實時接口提供給大屏使用。
業務端到端全流程說明:業務受理->網絡數據制作->安裝工單調度->首響預約->現場施工->竣工確認->歸檔計費。


家寬交付流程大屏視圖
1) 圓圈里的是本環節的總量,本環節的總量=藍色圖示(流出工單)+紅色圖示(卡單量),例如業務受理總量為18650,流出工單量為18600,卡單量為50(卡單量為本環節的卡單量,未流入到下一環節里)。2) 圓圈顯示的是主要指標中的部分指標,圓圈的流出工單量用藍色標識,卡單量用橙色標識,卡單量、超時首響工單、待安裝工單、超時工單的數值當大于配置的閾值時流程箭頭變黃色,當大于更高的閾值則流程箭頭變紅色同時出現透明的三角感嘆號。3) 各個業務流程環節下的柱狀圖為120柱,是以當前時間按照每5分鐘一個時間單位向前偏移120個5分鐘的數據進行展示,柱狀圖的上部紅色區域代表的是主流程下的紅色圖例,藍色區域代表的是主流程下的藍色圖例,以現場施工為例,柱狀圖紅色區域表示待安裝工單,藍色區域表示已安裝工單,柱狀圖默認為從左到右進行滾動。4) 左下角顯示各主要指標和輔助指標,各指標間可切換,每個指標都有配置一個基準值,如果當前值大于基準值則當前值顯示為紅色,指標后有小箭頭表示該指標可往下鉆取,查看指標明細,沒有小箭頭的指標無數據鉆取功能。5) 右下角分對指標分地域和時間維度展示,地域維度展示指定地域的下級地域,例如選擇全省,則地域下對應各個地市,選擇某個地市則對應地市下的區縣;時間緯度展示主要是按照開始時間和結束時間進行選擇,時間維度下不展示具體的時間刻度,只展示量的刻度,量的刻度可配置。6) 鼠標移動到維度趨勢圖上可以看到當前的量(需要移動到對應的柱狀上或折線點上),如果時間刻度選擇一天,則折線圖上只展示一個點。7) 點擊下載按鈕可下載當前指標全量明細數據,數據篩選條件為“地域”或者“選擇的時間+地域”。8) 指標數據統計周期默認為5分鐘。
對于業務相關的大屏,考慮到要縱向打通業務系統、橫向拉通各業務環節,相對復雜一些,需要運維平臺和業務系統一起參與、共同建設。在共建過程中,運維平臺提供數據采集方案和工具,業務指標展示工具;業務系統提出業務大屏展示要求,業務場景涉及到的業務模塊及模塊間的關系,業務指標數據源等。

網格配送業務監控大屏
針對底層平臺和公共組件的監控大屏基本屬于集成運維平臺后開箱即用,比如JVM、Druid、Zookeeper、RocketMq、Redis、Oracle、主機(CPU/內存)、主機網絡等的監控,這些組件的指標采集和展示大屏都已經內置在運維平臺產品里面,項目部署的時候只需要修改相應的配置即可。

全息監控內置的NGINX組件監控大屏

智慧運維平臺后續演進思路
智慧運維平臺產品研發不是一錘子買賣,需要緊跟技術升級、業務演進的腳步,不斷對運維能力進行增補和完善以適應各種新生事物出現。
運維,永遠在路上。