News
您的位置:
為什么每天電話郵件云會議,四處化緣各種數據報表?為什么通宵達旦整理數據,到了匯報時還是被批數據不準不全不及時?為什么運維團隊逐漸龐大,各種規章制度,工作效率卻止步不前?IDC運維的同學們,在披星戴月的下班路上,你是不是會思索這樣的問題?
近幾年來,我國數據中心機架規模持續穩步增長,大型以上數據中心規模增長迅速。截止2021年底,我國在用數據中心機架規模達到520萬架,近五年年均復合增速超過30%,其中大型以上數據中心機架規模增長更為迅速,機架規模420萬架, 占比達到80%。與此同時,新業務新技術給消費終端帶來更好的體驗感知,對數據中心網絡的質量、可靠性及安全性也提出了更高的要求。國內數據中心機架規模(數據來源工信部信息通信發展司)運營商的數據中心,其建設年份較長,設備種類繁多,分布廣泛。在生產工作中,對這些設備的運維監管有著不小的難度與挑戰。設備復雜度高,廠商多、型號雜、采集協議多IDC設備包括物理服務器、網絡設備、存儲設備,此外還包括動環等。目前已投入應用的設備廠家多、型號雜、文檔缺失。要做到監控指標的全面覆蓋,數據采集需要適配多種協議,即使是最經常使用的SNMP也需要適配不同廠家的私有MIB庫,大大增加了采集的復雜度。監控程度低,方法手段單一對于五花八門的設備廠商和型號,監控面窄,可感知指標簡單,常見于執行腳本收集到例如PING網絡是否連通,TELNET端口是否開放等簡單的指標來監控設備有沒有掛死,缺少深層次故障性能指標。自動化水平低,漏管設備多,納管不及時傳統IDC運維監管工具依賴于規章制度流程的嚴格執行,但在建設和割接等工程階段,大量設備出入庫和位置變更,相關流程執行不嚴會導致設備運維數據錄入延遲。缺乏自動化感知能力,造成監管遺漏,如果發生故障,需要更高的成本解決故障。普度運維DCUCC,數據中心集中采集控制平臺,聚焦于IDC機房的服務器和網絡設備的運行感知和控制,是各種運維平臺工具的基礎數據和能力底座,是連接管理系統和網絡設備的唯一紐帶。浩鯨科技DCUCC的方案架構DCUCC整體采用集中化采集框架服務+分布式采集前置機的部署架構。采集框架服務在運維總部集中部署,負責配置、監控、任務調度和數據回收處理工作;前置機在各DC內就近部署,負責采集任務執行。輕量化前置部署前置節點輕量化架構,使用嵌入式的緩存和隊列,不需專門資源部署PAAS組件;啟動后配置數據本地化,即使與管理節點的連接中斷也不影響采集任務執行;不依賴數據庫運行。高容錯且輕量化的前置節點,使用廉價服務器按需異地部署,實現各個數據中心設備的采集監控全面覆蓋。設計態和運行態分離模式通過設計態,實現設備類型建模,接口指令設計、服務設計等準備工作。平臺提供可視化采集流程設計,支持復雜任務采集編排,將采集、解析、轉換、匯聚、回傳、持久化等多種任務自由組合;提供API開發,能自由組合設備的各種能力,為上層運維工具賦能。浩鯨科技DCUCC的可視化采集流程編排設計完成后按設備型號輸出相應業務包,業務包在各運行態實例中加載使用。運行態的工作包括任務生成、任務執行、結果回收3大步驟。任務由集中節點根據采集策略自動生成,并按前置機負責范圍調度任務單。相應的前置機接收采集任務,按數據采集、測量解析、歸一化、持久化、回傳等步驟執行。最后,集中節點進行結果的匯聚收集。運行態采用彈性部署方案,隨著采集任務量變化可進行人工和自動化的運行時動態擴縮容調整。現在,你只需通過DCUCC為每個DC部署上前置機,就可以提升你的“打怪”技能,成為運維中心最靚的仔。5大絕技多樣適配網絡設備和通用服務器主要以SNMP為主進行采集,因此DCUCC提供統一的OID索引庫,將各類服務器和網絡設備采集特征統一管理維護。為便于新指標特征的擴張,簡化調整,還配套相應的一鍵測試,不需要做復雜的任務配置即可直接進行取值測試。某些情況下SNMP依賴的MIB庫的OID是很難進行獲取的,這時可通過指令控制模塊使用SSH協議仿真設備OS指令模擬人工登錄設備巡檢查詢。DCUCC集成了主流網絡設備常用的指令,可快速聯想檢索,按白名單安全管控,對指令進行金庫管理。對外物理服務器更有一種極端情況,既缺乏MIB庫支持又無法像網絡設備OS有成熟的操作指令,某些服務器上會安裝了一個本地化運行的WEB管理頁面。這種情況下,系統還提供了WEB頁面報文分析工具,自動解析提取嵌入在HTML報文中的指標信息。通過SNMP或OS指令或HTML解析,采集回來的值有簡單的單值型,也有復雜的TABLE型,系統支持BeanShell、Python動態腳本進行結果的解析,方便靈活擴展。IDC機房還存在少量設備斷電關機脫管的情況,這種情況下我們采用IPMI協議對這些設備進行基礎信息的采集。如符合運維規則,則遠程控制其進行啟動,再按標準化協議進行采集管控。自動發現IDC設備數量龐大,雖然大部分是按正式流程入網使用,但也存在緊急入網并投入使用的情況,這些設備在系統的網元庫中沒有記錄,處于脫管狀態。針對此類情況,系統提供自動化手段可主動發現識別新設備,自動為其配置采集策略,將其納入管理范圍。自動發現的原理是通過設備的LLDP協議自動發現周邊的新鄰居設備,根據LLDP屬性解析識別出新設備類型和IP地址,自動生成采集策略,自動完成新設備的數據采集工作。下面是自動發現和配置的完整過程。浩鯨科技DCUCC的設備自動化發現和配置過程遍歷機房內已在網被納管的交換機和路由器。通過SNMP對網絡設備的LLDP信息進行采集,解析出對端設備的MAC地址、管理IP地址、接口和設備信息描述。根據設備信息描述中的特征值,識別出對端設備的類型和廠家型號等。根據MAC地址和管理IP地址,與系統內已納管的設備進行比對,確認是新設備后繼續執行后面的自動配置動作。對于新設備自動我們可以根據步驟1識別出的信息,自動完成設備和采集源的自動創建任務,適配相應型號設備的采集模板,創建采集任務策略。對于新發現的設備是網絡設備的情況,還可能存在下連有新設備的情況(如下圖),需要再次以這個新網絡設備為源設備,迭代步驟1再次識別,直到沒有新設備才結束迭代。至此整個自動發現和配置完成。浩鯨科技DCUCC自動發多層新設備LLDP是定義在802.1ab中的二層協議,它提供了一種標準的鏈路層發現方式,使得接入網絡的一臺設備可以將其主要的能力,管理地址,設備標識,接口標識等信息發送給接入同一個局域網絡的其它設備。我們不僅可以用它來發現新設備,還可以根據獲取的本端的端口信息,自動完成機房局域網拓撲的自動繪制。在實際操作中,系統一般通過SNMP、SSH到新設備獲取LLDP信息,從對端的角度對連接信息進行確認。此外,在網絡部署和設備入網的時候,還需要遵循一些基本規則,包括:設備操作系統安裝時需安裝LLDPAD并默認打開LLDP服務網絡設備和服務器入網時需默認打開SNMP服務,統一默認登錄鑒權網絡設備和服務器遵循統一的命名規范(對應LLDP信息中的SYSTEM NAME單元),新設備識別會更加簡單準確離網清退對于使用年限長,效能利用率低的設備,運維部門會實施清單化的退網規劃,從而釋放機房機架資源,減少能耗和碳排放,降低運維工作量。離網清退工作,一般按以下步驟執行。老舊、低效、高故障率設備的篩查和上報運營運維組織內部審核設備配置數據清理設備下電、離網、報廢或資源回收重利用等對于老舊、低效、高故障設備的發現,DCUCC提供了一套自動化高效的篩查手段。系統會采集設備的關鍵指標,并按一定的規則進行自動判別,初步整理出一份小范圍清單后再由人工進行確認。設備類型場景識別規則參考服務器無用戶使用CPU使用率:10天內日峰值<2%內存使用率:10天內日峰值<5%網絡上下行流量:10天內日峰值<10M存儲使用率:10天內波動<0.1%(1G)老舊設備入網時間:>8年主機型號、CPU型號、磁盤型號、內存型號:發布時間>10年多故障設備故障時長占比:>20%(3個月內)交換機路由器無用戶使用下聯端口狀態:DOWN狀態持續時間>10天下聯鄰居設備:2個月內全為空CPU使用率:10天內峰值<1%內存使用率:10天內峰值<5%網絡上下行流量:10天內日峰值<10M老舊設備老舊光模塊設備型號/光模塊型號:發布時間>10年入網時間:>8年多故障設備老舊設備多故障端口錯包率:>5%(1個月內)發送光功率:<臨界值(1個月內)溫度:>臨界值(1個月內)網絡和服務器設備在網工作期間都有大量的涉密配置數據,包括設備鑒權、網絡結構、安全策略、用戶業務數據等。這些清退設備并非直接銷毀,可能會進入外部回收市場或者其它環境下的利舊復用,因此要在下電前完成這些涉密數據的清理銷毀工作。針對不同類型和型號的設備,系統提供一鍵清退能力,自動安全高效地完成配置數據清理工作,完成后自動關閉設備,避免無謂能耗。浩鯨科技DCUCC的下線設備配置數據自動清除過程割接輔助數據機房不定期需要對網絡、服務器、電源等進行擴容、改造、升級、遷移等變更,同時這些操作行為又發生在一個正在承載業務的上設備上,這就是割接操作。割接工作往往在晚上進行,操作時間短,對操作員的技術、技能、體力、經驗等都有一定的要求。通過長期多項目經驗的積累,采集系統提供割接輔助功能,一鍵批量導入待割接設備,按需選擇割接場景,自動完成相關批量的、重復的、可操作時間短的各種設備操作??芍С值牟僮靼ǎ?/span>自動暫停監控系統的采集任務,避免積壓異常采集任務單如涉及設備配置變更,自動完成設備配置數據的導出和備份任務如涉及設備關機,自動完成各項關機臨檢,如服務器是否還有用戶登錄、是否還有業務進程在運行,網絡上是否還有業務流量等,記錄割接前的網絡時延和丟包指標設備遠程關機,待人工作業流程結束后,設備遠程開機開機完成后自動完成網絡恢復測試,檢測設備到各個出口撥測點的網絡通斷性,時延和丟包率是否劣化等自動恢復監控系統的采集任務代理上報服務器上一般會運行操作系統外的各種軟件,SNMP等設備標準協議難以采集到這些軟件運行數據,又不允許開放遠程模擬登錄權限,這時候就用AGENT代理模式。AGENT是我們部署在采集源上的一個極輕量化的信息收集器,采用輕量腳本進行編寫,或操作系統默認支持的類庫語言編寫,減少入侵性。目前系統提供的AGENT可以支持大多數主流操作系統,支持對常見PAAS平臺日志、MYSQL等主流數據庫日志。AGENT模式還可以支持自定義腳本監測器,實現對私有業務系統的監測。采集對象采集內容LINUX系統計算服務日志、對象存儲服務日志、塊存儲服務日志、網絡服務日志、認證服務日志、鏡像服務日志、CEPH日志WINDOWS系統系統事件表、注冊表MYSQL/MONGODB錯誤日志、告警日志REDIS集群狀態報錯、客戶端連接數過大、Redis使用的內存超過maxmemory配置、客戶端緩沖區異常、客戶端連接超時記錄、無法從連接池獲取到連接記錄等;ZOOKEEPER連接斷開和重連日志、ZKClient反復重試連ZK服務器且秒連秒斷、ZK單機Watch數超過閾值項目實戰在21年某電信云運維項目中,通過DCUCC對數據中心的物理服務器、網絡交換機、路由器、防火墻、存儲設備都已具備采集控制能力,廠家覆蓋20多家,型號覆蓋200多種。采集能力覆蓋全面的基礎資源指標300多種、性能指標120多種、告警和日志消息,全面覆蓋各級DC的設備。21年底DCUCC納管設備范圍輕量化的采集前置機易于擴展,省市機房的納管硬件成本控制在小幾萬元水平,利舊低配服務器。低成本運維從另一個角度又確保了大量中小機房的管理覆蓋面。原來新增100臺設備的納管,需要1個人工花2天時間完成設備錄入,配置基礎采集信息,采集任務驗證,數據驗證?,F在完全釋放配置人員,可實現分鐘級設備接入配置,自動啟動數據采集處理和上報。新一代的IDC不斷引入綠色低碳技術,能效考核指標從以 PUE 為主逐步演變為 PUE、 CUE、 WUE等多指標兼顧,機房數字化智能化也對運維基礎能力提出更高的要求。DCUCC提供了一個業務能力豐富且易于擴展IDC設備接入平臺,在不斷發展的云服務時代,會實時更新業務能力來適應不斷推陳出新的新設備和新技術。
設備復雜度高,廠商多、型號雜、采集協議多
監控程度低,方法手段單一
自動化水平低,漏管設備多,納管不及時
輕量化前置部署
設計態和運行態分離模式
多樣適配
自動發現
遍歷機房內已在網被納管的交換機和路由器。
通過SNMP對網絡設備的LLDP信息進行采集,解析出對端設備的MAC地址、管理IP地址、接口和設備信息描述。根據設備信息描述中的特征值,識別出對端設備的類型和廠家型號等。
根據MAC地址和管理IP地址,與系統內已納管的設備進行比對,確認是新設備后繼續執行后面的自動配置動作。
對于新設備自動我們可以根據步驟1識別出的信息,自動完成設備和采集源的自動創建任務,適配相應型號設備的采集模板,創建采集任務策略。
對于新發現的設備是網絡設備的情況,還可能存在下連有新設備的情況(如下圖),需要再次以這個新網絡設備為源設備,迭代步驟1再次識別,直到沒有新設備才結束迭代。至此整個自動發現和配置完成。
設備操作系統安裝時需安裝LLDPAD并默認打開LLDP服務
網絡設備和服務器入網時需默認打開SNMP服務,統一默認登錄鑒權
網絡設備和服務器遵循統一的命名規范(對應LLDP信息中的SYSTEM NAME單元),新設備識別會更加簡單準確
離網清退
老舊、低效、高故障率設備的篩查和上報
運營運維組織內部審核
設備配置數據清理
設備下電、離網、報廢或資源回收重利用等
割接輔助
自動暫停監控系統的采集任務,避免積壓異常采集任務單
如涉及設備配置變更,自動完成設備配置數據的導出和備份任務
如涉及設備關機,自動完成各項關機臨檢,如服務器是否還有用戶登錄、是否還有業務進程在運行,網絡上是否還有業務流量等,記錄割接前的網絡時延和丟包指標
設備遠程關機,待人工作業流程結束后,設備遠程開機
開機完成后自動完成網絡恢復測試,檢測設備到各個出口撥測點的網絡通斷性,時延和丟包率是否劣化等
自動恢復監控系統的采集任務
代理上報
浩鯨云計算科技股份有限公司 版權所有 2003-2023
蘇ICP備10224443號-6 蘇公網安備 32011402011374號