鼎茂科技助力制造業央企客戶,實現70+業務系統監控告警管理及運維處置體系的一站式升級
案例應用解決方案 >
全棧監控+統一告警+智能值守解決方案
全棧監控+統一告警+智能值守解決方案,旨在為經歷IT系統規模激增和復雜性加劇的企業提供一站式、全方位的運維監控管理服務。該方案通過全面覆蓋系統各層次的監控,統一整合告警管理,以及智能化的自動值守,確保運維過程的高效和系統運行的穩定。
全棧監控對基礎設施、中間件、服務、應用、調用鏈等各種IT資源進行立體化監控,實時監測系統的運行狀態和性能指標,及時發現潛在的風險和異常,并通過統一告警管理,將所有告警信息集中治理,避免信息孤島和重復告警的問題,提高了告警的準確性和響應的及時性。同時,智能值守系統實現了7*24小時自動化值守和智能應急處置,能夠在接收到告警后自動響應,給出相關的解決方案建議,并跟進處置狀態,減少了對人工干預的依賴,提高了問題處置的效率和準確性。
通過該解決方案,企業能夠實現“全面立體監控,實時發現異常,提升告警質量,支撐快速響應”的監控管理目標,確保IT系統的高效、穩定運行。
案例背景 >
經過多年的沉淀,案例客戶在運維方面已經布局搭建了部分運維監控工具,由于各個運維點位建設初期并沒有整體規劃,這些運維監控工具的監控手段比較單一、技術相對落后,且運維數據相對分散,缺乏互聯互通和協同工作機制,不具備統一的一體化管理能力。此外,現有運維團隊受限于自身技能與工具能力,在應對系統故障時無法保證及時性與高效性。
案例客戶為了應對70余套業務系統以及數百個系統節點所帶來的運維壓力,迫切需要一套完整且專業的智能運維體系以提升運維管理能力,實現一體化和精細化運維管控,全面保障IT系統的穩定運行。
01 需求分析
01.1 面臨的問題
·運維手段不足-管理盲點范圍大
由于監控工具技術較為陳舊,導致無法兼容部分設備類型、軟件版本的監控;而使用開源技術則意味著需要持續投入人力進行開發維護,因此目前僅實現了對于服務器和日志的部分監控,應用性能、中間件和數據庫等監控缺失,在監控的覆蓋面、指標覆蓋度和實時性等方面的不足,導致無法實時反應系統運行情況,故障發現比較滯后,甚至出現晚于用戶上報的情況。已無法滿足當前復雜系統的運維監控需求。
·運維數據分散-排查處置效率低
監控數據與其產生的告警分散在各工具平臺中,缺乏統一的管理視圖與關聯匯總的告警信息,在面對大量告警時,運維人員無法快速識別重要告警,并判斷問題影響范圍;故障排查時,各專業組難以進行整體性的關聯分析和故障溯源。
·智能決策缺失-管理協作靠人工
故障分析與處置環境完全依賴人工。在業務系統出現異常時,一線運維人員由于經驗與技能的不足,往往需要尋求二、三線運維人員的協助,溝通與人力成本較大,而故障處理的用時過長,增加業務受影響的周期。
01.2 項目建設目標
·監控全方位100%覆蓋
針對全棧軟、硬件性能指標通過多渠道多方式的監控采集,且具備自定義腳本上報數據的能力,建設一套平臺全面覆蓋各種監控類型,包括但不限于用戶體驗監控、應用性能監控和基礎資源監控(包括服務器、中間件和數據庫等)。此外,補全日志數據的實時采集與監控。確保運維團隊能在第一時間感知系統異常。
·構建統一運維數據視圖
通過統一平臺融合運維大數據,包括結構化和非結構化數據,打通監控、告警和資產等數據。從業務視角出發,對核心骨干鏈路、核心業務應用、監控告警等信息重點展示,提供運維數據可視化洞察,幫助運維人員全方位掌握IT系統運行狀況。
·提升告警質量、加速故障響應
對日常出現的大量相同或相似告警事件進行壓縮,使運維人員的工作更聚焦于問題與故障的發現與溯源。使用告警處置跟蹤,故障識別與自動升級,一鍵拉會并啟動應急指揮室等自動化、智能化手段應對告警事件,節省人工干預的時間和精力,并能夠在故障發生后快速響應和處理,降低故障對系統穩定性和業務連續性的影響。
02 解決方案及思路
02.1 建設思路
該方案內置基礎資源監控、應用性能監控與用戶體驗監控模塊,實現集基礎環境、服務器、存儲、網絡、操作系統、中間件、數據庫等于一體的統一監控覆蓋。
方案以鼎茂科技自研的ARCANA平臺(多模態數據智能分析與決策平臺)作為統一數據底座,匯聚性能指標與日志等運維大數據;通過ARC-IOC(數智運營中心)使用低代碼方式快速構建運維監控管理可視化視圖;通過Di-Logger(智能日志中心)對日志進行監控與分析,將經由各監控模塊與日志平臺生成的告警推送給Di-Alert(智能告警中心),實現告警壓縮與處置流轉,并由Di-Robot(智能值守中心)跟進告警的處置,形成故障發現、分析、處置的閉環。
02.2 方案實施
Step1 部署全棧監控模塊(基礎資源監控、應用性能監控、用戶體驗監控、日志監控)
·使用各監控模塊,圍繞業務價值構建多維度的運維監控體系,實現業務系統與基礎資源的全方位實時監控,擴大監控覆蓋度、提升監控指標靈活性;設置及時準確的監控告警機制,在問題初現端倪的第一時間進行告警;
·利用Di-Logger的日志分析能力,對日志進行實時檢測,對日志中隱藏的異常進行告警。
Step2 部署云原生數智底座(ARCANA平臺)
·通過ARCANA平臺提供統一運維門戶,集成所有運維監控管理工具形成統一運維入口。對運維大數據進行匯聚分析,提供低代碼、可視化編輯的運維監控大屏、移動端視圖等,形成個性化運維界面;
·基于底座搭載的豐富功能模塊,可快速實現各項智能運維能力擴展。
Step3 搭載智能告警功能模塊(Di-Alert)
·由Di-Alert承接告警統一、告警壓縮、告警視圖的主要能力。對海量告警進行關聯壓縮,以告警拓撲視圖的形式對關聯告警進行通知和播報。
Step4 構建個性化運維可視化視圖(ARC-IOC)
·基于整合運維數據,包括交易-業務-服務-基礎組件-基礎設施的全棧指標、日志數據、告警信息,資產信息和事件工單等,以業務系統為核心,形成業務運行狀態、系統健康狀態等的可視化洞察。
Step5 搭載智能值守功能模塊(Di-Robot)
·由Di-Robot承載故障值守和應急管理等能力。實現自動化告警判斷與故障升級,高效組織應急響應,提供故障場景下的智能決策。
03 項目成果
03.1 實現70+套業務系統的監控全覆蓋
通過基礎資源監控的替換,實現當前管理機制中所存在的操作系統監控不全、指標遺漏,以及數據庫、中間件等監控缺失等管理盲點的改善。通過建設覆蓋所有業務系統的應用性能監控和用戶體驗監控,直觀反映業務健康狀態,提供故障的感知能力。
03.2 提供所有業務系統的全局監控視圖,和IT系統拓撲視圖
通過全局視圖,監視所有應用的健康狀況;通過IT系統拓撲視圖,查看應用相關的主機、網絡、中間件和數據庫等的性能情況,可下鉆的拓撲視圖至指標趨勢詳情或日志明細,為分析故障影響范圍、排查問題根因提供有力支撐。
03.3 實現告警壓縮與處置流程線上化
針對各類監控所產生的大量告警事件,進行告警收斂、壓縮、降噪等處置,屏蔽告警風暴,聚焦有效告警,提升告警可讀性,并改善多源告警分散管理的現狀,實現統一告警分派、通知、認領、開單、處置、結單的告警處置流程閉環。
03.4 以業務視角組建運維管理大屏
實現客戶全量運維數據資產沉淀,以統一數據融合平臺的形式,將當前多數據通道、多數據類型、多數據格式、多數據標準并存的運維數據,以業務視角設計運維管理故事線,并形成統一運維大屏作為日常運維管理的數據檢閱工具。
03.5 實現自動化、智能化運維值守與應急處理
實現7*24的自動值守,啟用了數十類故障自動升級與處置規則,幫助一線運維人員在常見系統故障發生后及時響應。在排障過程中,可以通過故障應急駕駛艙所提供的故障處置最佳實踐、歷史故障處理記錄,輔助應急響應決策,提高故障應急效率。
04 客戶收益
鼎茂科技幫助該客戶實現了監控體系的全面升級,并對監控生成的告警進行治理與壓縮,對于故障告警進行高效處置,使用可視化大屏展示業務健康狀態和核心指標趨勢等重要信息。整體提高了故障發現到定位的時效性,提升故障處置效率。
即時收益:
·達成重要(業務)系統、資產、指標100%的監控覆蓋率;
·統一去除無效告警并進行智能分析降噪,實現超過90%的告警壓縮率;
·實現自動化故障響應,提升一線運維人員的故障處置率至90%以上。
擴展性收益:
·解決方案能夠快速擴展覆蓋新增的業務系統或軟硬件資產,輕松應對業務增長所帶來的增長需求;
·并提供了全面運維數據的采集、治理與分析能力,為后續更多智能化運維分析場景落地提供了基礎。