上線后對內、對外問題溝通主要通過運維負責人牽頭和發起進行。
對內問題溝通,重點根據問題分類(缺陷或需求)、問題優先級,每天定時組織需求、研發、數據等相關負責人進行問題分析和確認解決時間。
對外問題溝通需要進行分層,對于客戶管理層主要通過日例會、周例會方式進行匯報,重點體現在問題的整體收斂進度和后續的解決計劃、人員保障方面內容。對于一線人員溝通主要通過QQ群、企業微信群等及時通訊工具,重點體現在對個體問題或群中的消息及時進行響應以及問題處理進行確認等。
問題處理流程主要包括五個關鍵的環節:問題提出、問題響應、問題轉派、問題處理、問題關閉。我們發現很多項目雖然上線成功,但是上線效果不好,追其根本原因之一發現問題并未進行閉環管理,導致上線效果未盡人意,很可惜。并且,上線之初是問題集中爆發的階段,留給項目組解決問題通常也就一周左右 黃金時間段。通過有效的版本管理和升級流程、問題管理流程來應對集中爆發問題的版本發布及管理,避免出現版本的混亂。問題處理可以采取下面4小步:
查理·芒格說“如果你的工具只有一把錘子,你會認為任何問題都是釘子?!币虼?,在系統上線初期需要構建項目多維度、多元化的工具,工具箱箱中的工具越多越好,可以在項目管理、版本管理、測試管理、運維管理、系統安全等方面起到很大的幫助。
有效且合理的監控能為項目組在上線運維過程帶來極大的幫助,特別是有效且合理的自動化監控,極大的減輕了運維人員的工作量。在這里連續強調了兩次“有效且合理”,那什么是有效且合理的監控?
監控系統運行環境的健康度,網絡的健康度,各功能模塊的進程運行的健康度,業務指標的健康度等。通過對SaaS、PaaS、IaaS 層的自動化監控,向我們及時提供系統健康情況。SaaS層重點監控網絡、設備使用率等指標;PaaS重點監控容器CPU、內存使用率,文件系統使用率等指標;IaaS 層重點監控業務進程存活情況、業務指標波動情況等。
從系統各功能模塊或者業務邏輯線條的各關鍵點進行自動化監控點的設置,監控點的內容中需要體現“面-線-點 ”信息,通過由點到線,由線到面的自動化監控,可以捕獲到哪個系統的哪個功能模塊的哪個點有問題,為我們快速定位問題節省了很多的排查時間。例如:業務監控方面,需要細化監控點,從產品業務粒度、資源配置原子服務粒度、存量資源可用率拆分顆粒度,進行“點”的監控;各產品業務場景涉及的業務工單情況、原子服務配置情況、資源可用率等串起來形成“線”的監控,所有產品業務場景涉及的情況匯總后就形成資源配置“面”的監控。通過一系列有聯系的監控點,可以推導出當前系統健康情況,異常點在什么地方,對后續分析定位起到指引作用。
多維度可以精確定位問題點,通過對環境容器內存、CPU使用率,對內部環境-網關-對端網關進行網絡互通監控,對進程存活監控、業務工單或訪問量波動情況監控,進行多個維度設置監控點。例如,我們的進程監控點和該進程對應功能影響的業務監控點,是互相有關聯的,這兩個維度的監控,指向的是同一功能當兩個監控點同時出現波動時,那系統功能大概率出現問題了。
多途徑,很好理解,既要有短信監控、也要有企業微信或釘釘等監控,這樣避免其中一種監控途徑本身出現問題時,我們無法及時獲知監控信息。
項目上線后,運維管理的本質是項目組盡最大的努力通過事前準備、事后預案來保障系統穩定,守住上線取得的來之不易的成果。對于項目交付的生命周期,從項目啟動之初的需求管理工作開始,在經過版本研發管理、數據配置管理、接口研發管理、數據遷移管理、測試管理、割接管理階段后來到了最后一個環節,也就是本文談到的上線運維管理,其中每個環節執行的質量和進度都是相互依賴、相互影響、相輔相成。
本文最后用納瓦爾寶典中的一段話作為結尾:“你的腦海中是不是會偶爾出現一首歌曲的旋律,它總是揮之不去?這就是記憶痕跡。其實所有思想的形成莫不是痕跡效應的結果。”希望本篇中的觀點、方法如同痕跡效應,能帶給參與到項目交付的同學一點幫助、啟發或參考。