媒體中心

媒體中心

News

News

您的位置：
網站首頁
> 媒體中心
> 鯨品堂

鯨品堂｜AIOps在業務受理中的應用

2021-12-14 111

AIOps，即 Artificial Intelligence for IT Operations，智能運維，將人工智能應用于運維領域，基于已有的運維數據（日志、監控信息、應用信息等），通過機器學習的方式來進一步解決運維沒辦法解決的問題。

早期的運維工作大部分是由運維人員完成的，這被稱為手工運維或人肉運維。很明顯，在互聯網業務快速擴張、人力成本高企的時代，這種落后的生產方式難以維系。

01 現狀

從BSS3.0到極簡受理，在AIOps領域上我們是怎么摸爬滾打一步步迭代的呢？

回到最初的異常處理方案：《BSS3.0-系統優化提升-異常編碼規范與異常處理方案》，其流程如下：圖片關鍵詞

圖片關鍵詞

通過字典識別異常，查詢日志，然后定位問題。由于業務發展、人員迭代原因，上述流程遠遠不夠：

日志規范沒有嚴格執行：編碼規范的落實沒有監督、各中心代碼沒有按規范落實、異常編碼的定義、調用并未遵循規范。

邊界模糊問題找不到人：規范定義業務沒有區分角色，營業員可以看，運維人員可以看，開發也可以看。當前由運維人員管理，他必須了解掌握所有錯誤，才能做出準確的判斷。

沒有沉淀每次都是新問題：運維事務沒有反饋，沒有總結。操作成果沒有沉淀，沒有歸檔傳承下來。

靜態字典：只能解釋老場景，識別不了新情況，也經常存在人工維護缺失的問題。

被動防御不能主動“自愈”：人肉運維，沒有自動化運維手段。

02 受理運維智能化方向

為解決現狀存在的問題，我們在業務系統改造過程中，引入了AI智能識別技術。但是AI的引入不是推翻重來，而是兼具業務和AI兩方面視野。要使AIOps服務能力與受理系統、運維流程、專家經驗緊密結合在一起，從而更精準地定位、更有效地解決受理領域的運維問題。

>>>>

巨大挑戰

受理業務復雜性與相應需求越來越多。特別是分布式架構到來后，一些運維要求，如微服務、中間件、分布式給運維管理帶來了巨大的挑戰。單純增加人力已經滿足不了現在的運維要求。

>>>>

儲備遠遠不夠

當前運維人員90%的時間都用來識別發現故障的原因。與此同時，各專業運維支撐系統功能也面臨開發周期長、閉環流程自動化程度低的技術瓶頸。對此，運營商期望引入AI、大數據分析等技術，實現智能運維，做到主動維護和故障“自愈”。

>>>>

大趨勢和主方向

AIOps平臺能力的構建，已經成為各行業智能化演進的一大趨勢和主要方向。

03 Ops能力分級

圖片關鍵詞

04 AIOps在極簡受理的實踐

智能化運維在實際運用過程中，優先要解決幾個關鍵問題：

故障樣本更全面：從java異常架構出發，事先導出所有異常樣本

診斷字典更精準：運用NER(實體識別)+solr（搜索引擎）抽取異常特征

智能應用更廣泛：輔助識別異常，引導業務受理

圖片關鍵詞

樣本的全面性處理主要通過下面2步進行：

1）樣本庫3大來源分別是：應用代碼、中間件、業務系統。采集手段不盡相同。應用代碼通過java異?？蚣?，由其繼承關系，進行全量遍歷，搜集全量的異常關鍵字。中間件和業務系統的手段則是通過日志來獲取。

2）得到上述基本數據后系統再進行加工，加工的工具有apache的NLP和Solr。加工的流程如圖所示，粗濾→規范→增強→歸并→精濾。通過以上環節得到的情景所需的特征keyword。

上述2步作為前提應用到我們運維場景。

在這里我們提供了識別引擎和預定義處理場景。當匹配到我們特征異常出現，預定義的場景功能自動觸發，無需人工干預即可自動化完成。

>>>>

異常匯集：動態字典

搜集系統所有的異常形成特定標識，積累自動化運維規則引擎觸發的判定條件。

>>>>

初始化：Java異常機制

圖片關鍵詞

繼承是java面向對象編程技術的一塊基石，通過繼承創建分等級層次的子類。從java架構通過反射獲取到全量異常的關鍵字錄入字典庫。如圖所示，關鍵代碼：

圖片關鍵詞

其遍歷結果持久化入庫，如圖所示：

圖片關鍵詞

>>>>

增量匯聚：中間件+業務領域

中間件的異常場景和業務的異常場景不能一蹴而就，需要在日常運行過程日志中挖取和積累。

中間件異常場景與上述java應用相比范圍相對固定，但方法不同。我們通過ELT組件歸集日志，粗濾篩選出異常特征，錄入知識庫。在系統中我們形成標準樣本庫后，以后的項目就可以復用，最大化這塊價值。提供樣本供其他省份借鑒。

圖片關鍵詞

利用NLP手工標識異常

利用ELK進行日志歸集在這里不再累述，關注的是怎么從日志中挖掘出異常特征。關鍵技術在NLP和solr：Apache OpenNLP庫是一個基于機器學習的自然語言文本處理的開發工具包，它支持自然語言處理中一些共有的任務，例如：標記化、句子分割、詞性標注、固有實體提?。ㄖ冈诰渥又斜嬲J出專有名詞，例如：人名）、淺層分析（句字分塊）、語法分析及指代。這些任務通常都需要較為先進的文字處理服務功能；Solr是Apache Lucene項目的開源企業搜索平臺。其主要功能包括全文檢索、命中標示、分面搜索、動態聚類、數據庫集成，以及富文本的處理：

圖片關鍵詞

結合數據流處理流程和關鍵技術的應用最終獲取異常特征庫

>>>>

異常識別：輔助運維

這種場景下，拋錯內容AI計算，即精準錯誤定位。有它，明顯可以帶來以下好處：減少等待、減少溝通成本、劃清角色邊界從而提高工作效率、減低成本、提升客戶體驗。想象一下，如果拋出一個異常不能精準定位的反向情景：客戶在營業廳等待抱怨，營業員再緊張上報溝通，運維人員一頭大......

圖片關鍵詞

>>>>

異常處理：半自動化運維

圖片關鍵詞

半自動化運維是異常識別的加強版，在識別的基礎上提供預定義處理方案。這些預定義處理可以是api，可以是sql腳本。都是以往運維處理手段日常積累后的程序化手段，并沒有直接處理，決定權交給操作人員。也由自動處理的，操控權的級別取決于以往的準確率統計，當準確率達到95%后即可以上升自動調用級別。

05 產生的效益

準確性：通過對運維專家庫的不斷豐富，系統處理過程中的異常提示會越來越精準，一線人員在判定錯誤類型時，也更加易懂和高效。

減少誤報消耗：減少角色間的溝通成本，減少運維人員的人力成本。

06 完全自動運維設想

>>>>

專家系統

專家系統基于知識的系統，知識庫和推理機是其重要組成部分。其三要素：領域專家級知識、模擬專家思維、達到專家級的水平。在極簡受理中我們有業務專家、研發專家、中間件專家。將專家的工作思考邏輯轉譯到知識庫中，利用現有的規則引擎提供專業的指導意見。

圖片關鍵詞

>>>>

故障自愈

實時發現告警，預診斷分析，自動恢復故障，并打通周邊系統實現整個流程的閉環。

圖片關鍵詞

07 結語

運維正在從后勤保障轉變成業務伙伴，從成本中心轉變到利潤中心，從對基礎設施“穩定、安全、可靠”的追求，轉變為以支撐數字化業務的“體驗、效率”為工作中心。運維順應這些發展和變化，必須加強對應用程序性能的監控分析和自動化的能力，從而提高運維的敏捷性。

AIOps已然成了輔助企業運維的不二法寶，期望采用AI技術來建立數據之間相關性以及進行預測性分析，獲得更準確，更智能的數據結果。

/ END /

鯨品堂讀者交流群上線啦！

圖片關鍵詞

各位同學可以掃描上方二維碼，添加胖鯨小助理，回復關鍵字“進群”申請入群。

大家可以和鯨品堂讀者一起暢所欲言，和編輯們零距離接觸，超值的技術禮包等你領取，超值活動等你參加，快來加入我們吧！

鯨智百應

關于我們

產品與解決方案

成功故事

官方微信公眾號

浩鯨云計算科技股份有限公司版權所有 2003-2023

蘇ICP備10224443號-6 蘇公網安備 32011402011374號

亚洲精品免费视频_热99re6久精品国产首页青柠_精品国产专区91在线_亚洲美洲欧洲偷拍片区