導讀:
隨著多云產品、電信O3和IDC網管的不斷發展,采控產品在應對業務場景多樣化和規模交付的同時,產品易用性、數據復用性問題愈發顯得捉襟見肘。同時,各項目組人員儲備和經驗參差不齊,急需一套可行的方案來促成快速交付。
采控產品由傳統激活演進而來,無論是初期承接的移網/家寬,還是近期的專線接入、IDC和多云,本質上都是通過對接網元/平臺/設備,進行數據下發或獲取,以達成業務開通或業務查詢的目的。能力封裝,是對外提供封裝的服務能力,內部根據業務場景進行拆分,轉換為不同內容和順序的交互指令。
差異化屏蔽,是對底層訪問對象的統一轉換,屏蔽不同廠家/型號的差異,具體細節由產品自身消化。
共性的概念可以快速適配各種請求,這是一個抽象化的過程。由于上述的產品特性,給項目的快速交付落地帶來許多難以解決的問題。接口類型繁多??陀^上,采控需要對接各類型的系統和接口,需要更多地思考如何降低接入成本。
業務范圍廣。隨著行業快速發展,市場期望越來越高,承接的業務范圍不斷擴充,場景持續豐富。
性能穩定性要求高。采控類項目往往伴隨高并發、低時延。
運維耗時長。許多優秀的平臺都能解決容器化部署/批量運維的問題,但采控對接的對象,往往跟調度規則相關,無法滿足微服務的無狀態特性。另外,服務的通信連接上,有地址、端口、連接數等限制,且服務需放到各個地區的前置網絡中,無法理想化地進行容器化部署。
異常修復慢。產品已有的監控功能可以實現數據分層鉆取,但過于零散和技術化的日志語言,明顯對運維人員是不友好的。
批量交付多。多云產品將迎來爆發期,對于批量交付存在可復用和全新云平臺兩種情況。前者關注如何高效地調試和驗證,后者的難點在于如何分析新場景,按以往經驗,業務分析驗證耗時至少占整個交付周期的1/3。
什么是快速交付,或者說快速交付都包含哪些內容,快速交付等同DevOps嗎?讓我們先來看下什么是DevOps。一個軟件從零開始到最終交付,包括以下幾個階段:產品規劃、開發編碼、構建、QA測試、發布、部署和維護。目前的DevOps已經演進成一個“端到端”的概念,如下圖:

DevOps 除了打破研發與運維邊界,還會打破業務與IT系統的邊界,構建從業務-IT-運營全鏈路的Biz DevOps。那么,能否借鑒這個理念,從業務、產品研發、運維等不同方面,來提升我們的產品能力,進而加速交付?比如業務上的需求調研與分析、產品研發上的業務實現、運維上的版本發布和維護,分別從這幾個角度入手,制定相應規范、流程和輔助工具,從而達到交付提速的目的。基于上述內容,本文想從產品能力整合的角度,來探索如何解決快速交付的問題。從業務接入、安裝調測、運維能力三個方面入手,解決交付現狀中遇到的門檻高、期望高、成本高問題。
針對上述三個問題,我們總結出以下方案,配套不同維度的助手,各個擊破。
為避免耗費人力在資源評估流程上,產品基于業務沉淀提供測算工具和部署指導。測算工具為問卷式的流程向導,根據使用者回答的環境要求、平臺類型、平臺實例數、用戶規模、訪問量、策略需求等自動計算資源。

計算完則生成一份評估報告,推薦合適的資源配置、部署架構圖、應用配置等,使用者可直接將其作為產品安裝范本。

采控承接的平臺種類非常多,多云平臺版本多達數十種,云調設備型號近千種。采控產品從版本、場景、能力等多個維度,進行靈活性、復用性分析,歸納為以下兩類:針對這類情況,采控平臺提供云業務倉庫視圖,該倉庫匯聚各云平臺及其版本和場景,提煉出以云平臺業務包為維度的智能篩選、呈現、維護、導出、導入等功能。新項目需加載該倉庫中已有場景時,可通過業務包的導入導出功能快速實現新業務加載。場景包導入后,根據現場的個性化差異進行微小調整,即可轉入業務驗證和問題修復,大大節省業務分析/加載成本。

針對未承接的場景,采控平臺提供兩類途徑實現業務快速加載。基于相似的業務包迭代
此方式可以通過云業務倉庫的智能篩選,選擇期望的云平臺場景,再導出到其他環境進行修改驗證,通過后又可以反過來添加/豐富云倉庫。
使用新業務接入助手
如果是全新版本,系統提供快速接入助手,解決概念晦澀難懂、門檻高的問題??芍苯釉谙到y中調測相關指令,調測結束后可自動分析轉換成具體的場景,無縫切換到系統模型配置中,屏蔽關聯關系。最后將自動分析的場景進行模擬驗證,快速實現新業務加載。
系統安裝需要對個性化參數進行調整,然后才能正常運行。從應用配置角度看,可分為內外部兩類:包括網元/采集源連接信息,云管平臺信息等,這些數據有兩種配置模式:獨立運行模式
該模式用于項目前期,比如客戶演示、應標等。需要手工錄入網元/采集源信息,手工發起策略或工單,通過監控頁面實現全流程的監控。
依托云管模式
采控平臺結合云管產品一塊落地,網元/采集源的部分數值來自云管平臺。

拿云調項目舉例,服務實例數量近千,平臺提供部署插件,配合測算工具自動生成的配置項清單,選擇目標機器,填寫路徑和實例個數,一鍵完成應用安裝。

產品安裝后可從運行環境、業務配置兩個維度進行預檢,以確??捎眯?。對中間件和應用模塊的狀態進行探測,例如通過對數據庫、消息隊列等進行端口狀態監測,對應用服務的日志內容進行過濾匹配,確保環境可用性。完成環境自檢后會生成對應的檢測報告,展示中間件及應用的狀態信息,并列出系統環境存在的異常問題,同時嘗試自動修復,如應用宕機可通過腳本調用進行重啟。對于需要人工介入修復的異常,報告將列出具體問題并提供相應的修復指引。

2)業務配置檢查
產品提供業務回歸測試入口。使用者可以選擇全場景覆蓋測試,根據清單對每個平臺場景逐一檢查。例如平臺資源/性能的采集,系統自動建立一個采集策略并即時執行,對于控制業務,則生成各場景的控制請求進行DryRun測試,校驗業務正確性。各環節拋出的詳細報錯只適用于專業技術人員,需要將晦澀的異常內核“翻譯”成運維/業務人員也能理解的白話文。產品內置一套完整的異常管理體系,根據對象、位置和時間等,對異常信息進行多維度劃分,經過層層匹配,抽象出異常類型,最終展示一或多個可能的異常場景,并針對每個場景提供修復指引。根據以上思路,采控已實現部分功能/工具,并在多云采控和云調IDC等項目中發揮著重要作用。目前累計對接多云項目7個,云平臺35套,基礎設施設備1W+。預期22年網絡接入仍會聚焦在云平臺和IDC設備上,新接入/升級云平臺數>40套,新接入IDC設備>30W臺。隨著未來多云、IDC采集等項目的快速增長,可以釋放更多的人力,團隊可以更專注于產品能力和業務沉淀。同時,方案體系在不斷完善之后,未來也可以給其他產品提供一些思路參考,力求最大化降本提效。