鯨品堂|如何借助上線初期運維管理守住項目建設最后一公里

2023-09-18 287

隨著運營商技術升級、業務發展,以及服務能力要求提升,當下新建項目的交付或系統大版本升級大多數都需要歷經千辛萬苦才達到上線的彼岸。然而,項目上線并不意味著項目結束,“上線”也并不意味著終點,而是一個新的管理模式的開端。


如何盡可能地降低真實業務加載上線后,出現的各種各樣問題呢?我們可以從事前防范,事后預案兩方面來總結。其中在項目交付過程中主要工作除了系統建設之外,還有大量的驗證、測試以及檢查工作,其重要性不言而喻,關于事前防范本文不作細表。本文重點總結下運維策略在事后預案中的團隊、制度、流程、工具、監控等方面的實戰應用。


首先,我們看下新建項目在上線初期經常會出現的五類生產故障。造成這些故障的原因通常都是沒有做好相關的運維支撐預案。

圖片關鍵詞圖片關鍵詞


其次,我們來看看上線項目將面臨哪些困難與挑戰呢?在管理方面,如果缺乏有力的管理和監督、有效問題處理機制、合理的制度約束,將嚴重影響系統上線后的效果。在操作執行層面,項目上線初期,能夠快速熟悉并能定位問題的使用人員和維護人員并不多,缺乏對新系統的了解、熟悉度低,需要接受新的業務思想,熟悉系統流程,這讓使用和管理人員短時間難以消化和應用,這也是系統上線后的一個阻力。

圖片關鍵詞

防患于未然,防重于治,在預防之余,上線后不可能沒有困難或阻力,但是在預防工作做扎實后,出現這些問題是可控的,也是新項目的正常問題,解決難度也會降低。我們可以通過五個動作來解決上線運維問題和阻力。


1

動作一:組建運維團隊

項目上線模式可以分為兩類:


第一類:先試點再推廣模式

這種模式的特點是:在試點階段通常會爆發出很多在上線前測試階段未發現的問題或者忽略的問題;在推廣階段運維范圍從試點變成全省多個地市。當前各項目采用的較多的上線模式。

第二類:全省一次集中割接上線模式

這種模式的特點是:不采用試點,全省集中割接上線模式。具備割接準入條件需要對系統的性能、割接時長、測試場景覆蓋率、測試場景通過率、運維團隊的組織等方面都提出了嚴格的標準。


在組建運維團隊時,需要根據不同上線模式、上線策略、項目組人員結構、人員能力等進行綜合評估。



試點上線階段,最佳的運維團隊組建方式:人員按業務、按模塊進行分組負責。運維人員配置主要包括:需求、數據、測試和維護人員。通過試點階段問題的解決,快速提高運維人員解決問題的綜合能力。



推廣上線階段,最高效的運維團隊組建方式:人員按地市進行分組負責。其中每一組負責支撐多個地市的運維工作。此階段運維人員配置需要在試點人員配置基礎上增加相關業務、模塊研發進場,快速收斂問題,保障系統度過重保期。



全省集中割接上線模式,一步到位,項目管理者提前做好割接期間各項割接工作安排、割接后系統及業務的重保支撐預案;加強日常培訓的力度;對運維人員提出可量化的學習目標并且通過每次的割接演練持續提高解決問題的能力等。對于運維團隊的組建方式和人員配置可參考“推廣上線階段”。


2

動作二:制度先行保障

無規矩不成方圓,好的制度一定是建立在提高工作效率,規范標準動作的基礎之上。在項目上線前后階段,通常需要制定的制度包括:版本發布機制、版本測試機制、問題反饋機制和問題溝通機制等,本文重點談下問題反饋機制和溝通機制。


問題反饋機制:入口統一,使用問題管理工具



在項目上線前兩周,首先就要明確上線后問題處理機制。對于問題管理有兩種維度:按照分公司維度管理、按照系統功能維度來管理。按照分公司維度管理有利于客戶進行問題記錄,但對運維支撐帶來一定的問題整理工作量;按照系統功能維度管理有利于運維支撐快速進行問題的分析,但對于客戶的問題記錄有一定的要求。在項目實戰中,我們更推薦使用按照系統功能維度來進行問題管理。


接下來就是對問題進行管理,通常各項目組都會采用表格進行管理,表格管理的最大弊端是對于問題維護的工作量較大;問題處理流程經常會形成斷點;內外部問題通常多個表格進行維護,每天維護表格的工作量就非常大,而且經過較長時間后的數據積累,表格已經顯得臃腫不堪。再此推薦高效的方法,通過問題管理工具化進行管理。我們使用較多的是BSS的問題敏捷管理工具,在此不作為重點說明哈。


最后就是建立問題首問責任制。運維負責人作為首問責任人每天牽頭對問題組織進行分類、重點分析和解決。根據問題梳理出每日TOP問題關鍵點,提交研發及時進行修復,避免問題擴散。原則上在重保期間卡點、阻塞性問題當日必須解決,降低風險。


問題溝通機制:主要分對內和對外問題溝通兩種



上線后對內、對外問題溝通主要通過運維負責人牽頭和發起進行。


對內問題溝通,重點根據問題分類(缺陷或需求)、問題優先級,每天定時組織需求、研發、數據等相關負責人進行問題分析和確認解決時間。


對外問題溝通需要進行分層,對于客戶管理層主要通過日例會、周例會方式進行匯報,重點體現在問題的整體收斂進度和后續的解決計劃、人員保障方面內容。對于一線人員溝通主要通過QQ群、企業微信群等及時通訊工具,重點體現在對個體問題或群中的消息及時進行響應以及問題處理進行確認等。


3

動作三:問題處理控制

問題處理流程主要包括五個關鍵的環節:問題提出、問題響應、問題轉派、問題處理、問題關閉。我們發現很多項目雖然上線成功,但是上線效果不好,追其根本原因之一發現問題并未進行閉環管理,導致上線效果未盡人意,很可惜。并且,上線之初是問題集中爆發的階段,留給項目組解決問題通常也就一周左右 黃金時間段。通過有效的版本管理和升級流程、問題管理流程來應對集中爆發問題的版本發布及管理,避免出現版本的混亂。問題處理可以采取下面4小步: 


圖片關鍵詞


4

動作四:工具輔助

查理·芒格說“如果你的工具只有一把錘子,你會認為任何問題都是釘子?!币虼?,在系統上線初期需要構建項目多維度、多元化的工具,工具箱箱中的工具越多越好,可以在項目管理、版本管理、測試管理、運維管理、系統安全等方面起到很大的幫助。

圖片關鍵詞

圖片關鍵詞


5

動作五:監控保障

有效且合理的監控能為項目組在上線運維過程帶來極大的幫助,特別是有效且合理的自動化監控,極大的減輕了運維人員的工作量。在這里連續強調了兩次“有效且合理”,那什么是有效且合理的監控?


監控要全面



監控系統運行環境的健康度,網絡的健康度,各功能模塊的進程運行的健康度,業務指標的健康度等。通過對SaaS、PaaS、IaaS 層的自動化監控,向我們及時提供系統健康情況。SaaS層重點監控網絡、設備使用率等指標;PaaS重點監控容器CPU、內存使用率,文件系統使用率等指標;IaaS 層重點監控業務進程存活情況、業務指標波動情況等。


監控成體系化



從系統各功能模塊或者業務邏輯線條的各關鍵點進行自動化監控點的設置,監控點的內容中需要體現“面-線-點 ”信息,通過由點到線,由線到面的自動化監控,可以捕獲到哪個系統的哪個功能模塊的哪個點有問題,為我們快速定位問題節省了很多的排查時間。例如:業務監控方面,需要細化監控點,從產品業務粒度、資源配置原子服務粒度、存量資源可用率拆分顆粒度,進行“點”的監控;各產品業務場景涉及的業務工單情況、原子服務配置情況、資源可用率等串起來形成“線”的監控,所有產品業務場景涉及的情況匯總后就形成資源配置“面”的監控。通過一系列有聯系的監控點,可以推導出當前系統健康情況,異常點在什么地方,對后續分析定位起到指引作用。


監控多維度化



多維度可以精確定位問題點,通過對環境容器內存、CPU使用率,對內部環境-網關-對端網關進行網絡互通監控,對進程存活監控、業務工單或訪問量波動情況監控,進行多個維度設置監控點。例如,我們的進程監控點和該進程對應功能影響的業務監控點,是互相有關聯的,這兩個維度的監控,指向的是同一功能當兩個監控點同時出現波動時,那系統功能大概率出現問題了。


監控多途徑化



多途徑,很好理解,既要有短信監控、也要有企業微信或釘釘等監控,這樣避免其中一種監控途徑本身出現問題時,我們無法及時獲知監控信息。



項目上線后,運維管理的本質是項目組盡最大的努力通過事前準備、事后預案來保障系統穩定,守住上線取得的來之不易的成果。對于項目交付的生命周期,從項目啟動之初的需求管理工作開始,在經過版本研發管理、數據配置管理、接口研發管理、數據遷移管理、測試管理、割接管理階段后來到了最后一個環節,也就是本文談到的上線運維管理,其中每個環節執行的質量和進度都是相互依賴、相互影響、相輔相成。


本文最后用納瓦爾寶典中的一段話作為結尾:“你的腦海中是不是會偶爾出現一首歌曲的旋律,它總是揮之不去?這就是記憶痕跡。其實所有思想的形成莫不是痕跡效應的結果。”希望本篇中的觀點、方法如同痕跡效應,能帶給參與到項目交付的同學一點幫助、啟發或參考。


官方微信公眾號

浩鯨云計算科技股份有限公司 版權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安備 32011402011374號

亚洲精品免费视频_热99re6久精品国产首页青柠_精品国产专区91在线_亚洲美洲欧洲偷拍片区