AIOpsforIT-鼎茂統(tǒng)一智能告警平臺(tái)鼎茂統(tǒng)一智能告警平臺(tái)解決方案,旨在幫助企業(yè)客戶為運(yùn)....">

国产AV激情无码久久,精品国产YW在线观看,亚洲国产欧美日韩欧美2018,中文字幕一区二区三区在线不卡

鼎茂科技助力銀行客戶,輕松完成40+監(jiān)控工具的統(tǒng)一智能告警管理

2024-04-26 15:39   來源: 大眾時(shí)報(bào)網(wǎng)

      案例應(yīng)用解決方案 >AIOps for IT - 鼎茂統(tǒng)一智能告警平臺(tái)

      鼎茂統(tǒng)一智能告警平臺(tái)解決方案,旨在幫助企業(yè)客戶為運(yùn)維工作提供易操作、快顯效、智能化的告警管理提效工具

      該解決方案通過對(duì)全域告警事件的統(tǒng)一納管、綜合治理、排障分析與處置流轉(zhuǎn),一站式解決多源、異構(gòu)、海量告警所帶來的管理難、排查難、跟蹤難等告警管理問題,實(shí)現(xiàn)運(yùn)維效能的顯著升級(jí)。

      目前,該解決方案已應(yīng)用在金融、電信、政府醫(yī)療等行業(yè)的大、中型規(guī)模的客戶與機(jī)構(gòu)中,為企業(yè)持續(xù)提供重要的運(yùn)維管理價(jià)值。

      本文的客戶故事為該解決方案在某外資銀行客戶中的實(shí)踐案例,適合同類規(guī)模和階段機(jī)構(gòu)團(tuán)隊(duì)借鑒。


      案例背景 >

      隨著該行核心業(yè)務(wù)系統(tǒng)升級(jí)和各類業(yè)務(wù)的廣泛開展,其業(yè)務(wù)系統(tǒng)數(shù)量規(guī)模已達(dá)到200多套,軟硬件設(shè)備近萬臺(tái),每天產(chǎn)生數(shù)萬條告警數(shù)據(jù)。但該行目前針對(duì)業(yè)務(wù)系統(tǒng)的分散運(yùn)維管理導(dǎo)致了監(jiān)控?cái)?shù)據(jù)和告警信息的碎片化;面向問題通知處置的獨(dú)立運(yùn)營(yíng),也使得問題識(shí)別和響應(yīng)變得困難,同時(shí)也增加了故障處理的技術(shù)成本和時(shí)間成本。為了更好地維護(hù)系統(tǒng)的穩(wěn)定性和可靠性,并切實(shí)有效地進(jìn)行運(yùn)維管理的降本增效,該行對(duì)多系統(tǒng)告警管理提出了更加明確的要求。


      01

      需求分析

      01.1 面臨的問題

      該行目前面向各系統(tǒng)及核心業(yè)務(wù)的告警來自:各系統(tǒng)的自監(jiān)控、撥測(cè)、Opmanager網(wǎng)絡(luò)監(jiān)控、科來監(jiān)控、Zabbix、ControlM、依米康、斯特紐、ESB、Moia、分布式存儲(chǔ)、日志平臺(tái)、聽云等各種類型的監(jiān)控工具,數(shù)量80+;同時(shí)配合ITSM、CMDB、自動(dòng)化平臺(tái)等。

      ·告警量大、來源分散、數(shù)據(jù)不標(biāo)準(zhǔn)

      容易忽略重要告警

      現(xiàn)有的管理模式下,上述的方式每天大約產(chǎn)生的告警數(shù)量有幾萬條,且格式規(guī)范均不統(tǒng)一。

      運(yùn)維人員需要登錄到逐個(gè)系統(tǒng)進(jìn)行查看,并憑借過往針對(duì)類似告警的處置經(jīng)驗(yàn)進(jìn)行選擇性處理。這會(huì)導(dǎo)致隱藏在海量告警之中的重要告警被運(yùn)維人員忽略,造成隱患。

      ·缺乏全局視圖

      難以進(jìn)行整體評(píng)估和判斷

      各業(yè)務(wù)系統(tǒng)的告警信息和通知方式未打通,缺乏全局化統(tǒng)一的管理視圖,難以針對(duì)故障進(jìn)行整體性的評(píng)估判斷和故障溯源。

      ·缺乏有效關(guān)聯(lián)

      潛在問題難以及時(shí)發(fā)現(xiàn)

      當(dāng)某業(yè)務(wù)系統(tǒng)出現(xiàn)異常時(shí),應(yīng)用管理員通常是在用戶遇到故障并報(bào)告后才得知。經(jīng)過排查,他們發(fā)現(xiàn)這一事件在應(yīng)用早期階段就有錯(cuò)誤日志記錄。然而,由于缺乏關(guān)聯(lián)分析和有效的告警方式,導(dǎo)致應(yīng)用管理員并未意識(shí)到這一問題的存在。

      ·通知不智能,管理不閉環(huán)

      難以提升管理效率

      在業(yè)務(wù)系統(tǒng)出現(xiàn)異常時(shí),僅憑個(gè)人經(jīng)驗(yàn)進(jìn)行處置,并依賴人工創(chuàng)建工單,導(dǎo)致故障處理的用時(shí)過長(zhǎng),增加業(yè)務(wù)受影響的周期。

      多數(shù)監(jiān)控工具缺乏告警恢復(fù)功能。新增告警難以確認(rèn)是否已經(jīng)恢復(fù),導(dǎo)致反復(fù)處理或遺漏處理,增加重大事件的概率。

      01.2 項(xiàng)目建設(shè)目標(biāo)

      鑒于以上的各種挑戰(zhàn),客戶希望能夠建設(shè)可覆蓋全域告警管理的統(tǒng)一智能告警平臺(tái),并實(shí)現(xiàn)以下需求:

      ·數(shù)據(jù)集成/治理

      整合各業(yè)務(wù)的自監(jiān)控,通過標(biāo)準(zhǔn)規(guī)范實(shí)現(xiàn)面向全域告警數(shù)據(jù)的規(guī)范治理以及統(tǒng)一管理。

      ·告警降噪

      利用機(jī)器學(xué)習(xí)和算法技術(shù)進(jìn)行告警壓縮、告警匯聚與智能分析,使系統(tǒng)管理員與維護(hù)人員的工作更聚焦于問題與故障的發(fā)現(xiàn)與溯源。

      ·統(tǒng)一可視化

      將所有核心業(yè)務(wù)的各項(xiàng)重要指標(biāo)與告警,進(jìn)行有系統(tǒng)、有邏輯的統(tǒng)一展現(xiàn),實(shí)現(xiàn)管理的便利性和高效性。

      ·閉環(huán)管理

      增加告警恢復(fù)邏輯,形成完整的告警響應(yīng)機(jī)制;并跟蹤告警的處理過程,形成完整的告警管理閉環(huán)。


      02

      解決方案及思路

      02.1 建設(shè)思路

      該建設(shè)方案基于鼎茂統(tǒng)一智能告警解決方案,根據(jù)客戶業(yè)務(wù)規(guī)模和監(jiān)控對(duì)象的特點(diǎn),進(jìn)行功能優(yōu)化和部署。以鼎茂科技自研的ARCANA(多模態(tài)數(shù)據(jù)智能分析與決策平臺(tái))作為統(tǒng)一數(shù)據(jù)底座,集成各業(yè)務(wù)系統(tǒng)監(jiān)控工具產(chǎn)生的告警。該方案通過ARCANA的ARC-ADP(鼎茂低代碼數(shù)據(jù)開發(fā)平臺(tái)組件)進(jìn)行數(shù)據(jù)規(guī)范處理后,推送給Di-Alert(鼎茂智能告警中心應(yīng)用),并在ARC-IOC(鼎茂數(shù)智運(yùn)營(yíng)中心組件)中實(shí)現(xiàn)告警智能分析、處置流轉(zhuǎn)和統(tǒng)一可視化管理等功能,形成統(tǒng)一的智能告警管理平臺(tái),并為客戶提供統(tǒng)一的管理門戶。

      ·全域告警整合和標(biāo)準(zhǔn)化

      建設(shè)統(tǒng)一的智能告警管理平臺(tái),整合各業(yè)務(wù)監(jiān)控系統(tǒng)的告警數(shù)據(jù),并針對(duì)告警數(shù)據(jù)進(jìn)行清洗、去重、轉(zhuǎn)換等統(tǒng)一預(yù)處理,實(shí)現(xiàn)告警規(guī)范的標(biāo)準(zhǔn)化,確保告警數(shù)據(jù)的準(zhǔn)確性和完整性。

      ·數(shù)據(jù)統(tǒng)一治理

      通過匹配、轉(zhuǎn)換、映射、提取等操作,提升告警信息的可讀性和統(tǒng)一分層分級(jí)管理。并聯(lián)動(dòng)CMDB進(jìn)行告警信息富化,動(dòng)態(tài)匹配并增加關(guān)聯(lián)業(yè)務(wù)信息。

      ·智能降噪和收斂

      引入智能算法實(shí)現(xiàn)告警數(shù)據(jù)的自動(dòng)分析和處理。支持按照多字段組合+時(shí)間窗口的方式,將關(guān)聯(lián)告警進(jìn)行組合壓縮;支持快速的、以架構(gòu)分層形式對(duì)告警進(jìn)行聚類。

      ·統(tǒng)一集中可視化

      建立統(tǒng)一監(jiān)控大屏,通過ARC-IOC(鼎茂數(shù)智運(yùn)營(yíng)中心組件)中豐富的圖表類型和低代碼配置功能,實(shí)現(xiàn)自定義儀表盤及可視化能力,將所有核心業(yè)務(wù)的各項(xiàng)重要指標(biāo)與告警建立管理邏輯并進(jìn)行統(tǒng)一展示。

      ·告警管理閉環(huán)

      結(jié)合銀行業(yè)務(wù)的告警恢復(fù)邏輯,建立告警全流程運(yùn)營(yíng)和跟蹤機(jī)制,實(shí)現(xiàn)閉環(huán)性告警全生命周期管理。


      03

      項(xiàng)目成果

      03.1 40+監(jiān)控工具告警整合/治理

      該項(xiàng)目完成了統(tǒng)一告警管理平臺(tái)的建設(shè),實(shí)現(xiàn)了40+(二期擴(kuò)容中)監(jiān)控工具的整合。并通過平臺(tái)建立的告警標(biāo)準(zhǔn)規(guī)范,實(shí)現(xiàn)了包括核心系統(tǒng)在內(nèi)的各類業(yè)務(wù)系統(tǒng)告警數(shù)據(jù)的統(tǒng)一規(guī)范治理。整體平臺(tái)建設(shè)以智能化運(yùn)營(yíng)為目標(biāo),提供了在數(shù)據(jù)管理、分析決策和管理控制方面的綜合能力,全面支撐該行數(shù)據(jù)中心的數(shù)字化建設(shè)與智能化升級(jí)。

      03.2 全流程數(shù)據(jù)規(guī)范治理與集中可視化

      該項(xiàng)目建立了告警數(shù)據(jù)接入、處理、存儲(chǔ)與發(fā)送的數(shù)據(jù)處置規(guī)范,提升了告警數(shù)據(jù)的質(zhì)量。同時(shí),平臺(tái)實(shí)現(xiàn)了告警與各類自動(dòng)化平臺(tái)的聯(lián)動(dòng),可將告警自動(dòng)推送到ITSM、釘釘和郵件等系統(tǒng),實(shí)現(xiàn)告警與事件處置的流程閉環(huán)。

      同時(shí),該項(xiàng)目通過數(shù)智運(yùn)營(yíng)中心的管理門戶和可視化功能,結(jié)合ECC面向告警的運(yùn)維管理邏輯,集中展示告警數(shù)據(jù),通過實(shí)時(shí)監(jiān)控大屏、報(bào)表分析等可視化手段,幫助ECC更直觀地了解系統(tǒng)的狀態(tài)和問題,實(shí)現(xiàn)告警的統(tǒng)一處理以及故障的快速排查。

      03.3 雙效告警壓縮率超過90%

      告警數(shù)據(jù)接入后即完成初步的告警去重和歸類處理,并且在告警整合匯聚后,對(duì)已經(jīng)歸類的告警信息進(jìn)行進(jìn)一步的壓縮處理,實(shí)現(xiàn)超過90%的告警壓縮率,使管理員與維護(hù)人員的注意力更聚焦于提升事件處理效率。

      03.4 業(yè)務(wù)驅(qū)動(dòng)的告警閉環(huán)管理邏輯

      針對(duì)金融行業(yè)的特點(diǎn),以業(yè)務(wù)為驅(qū)動(dòng),貫穿告警的產(chǎn)生、通知、處理和恢復(fù),建立完整的告警恢復(fù)和管理邏輯。確保統(tǒng)一智能告警平臺(tái)能夠真實(shí)反映業(yè)務(wù)系統(tǒng)的狀態(tài),為業(yè)務(wù)系統(tǒng)的正常運(yùn)行提供及時(shí)、準(zhǔn)確的監(jiān)控和恢復(fù)手段。


      04

      客戶收益

      鼎茂科技幫助該客戶實(shí)現(xiàn)了顯著的運(yùn)維提效和成本節(jié)約:

      ·降低40+監(jiān)控工具的管理難度和改造成本

      通過統(tǒng)一智能告警平臺(tái)的建設(shè)和以及告警機(jī)制的完善,實(shí)現(xiàn)了40+監(jiān)控工具告警數(shù)據(jù)的綜合治理和關(guān)聯(lián)分析,節(jié)省監(jiān)控工具的改造費(fèi)用超200萬。

      ·全面提高告警數(shù)據(jù)質(zhì)量和和準(zhǔn)確性

      實(shí)現(xiàn)全域告警內(nèi)容的規(guī)范化處理;聯(lián)動(dòng)CMDB精確匹配告警屬性信息,整體提高告警數(shù)據(jù)的質(zhì)量和準(zhǔn)確性。

      ·實(shí)現(xiàn)超過90%的告警壓縮

      統(tǒng)一去除無效告警并進(jìn)行智能分析降噪,實(shí)現(xiàn)超過90%的告警壓縮率。同時(shí)支持基于CMDB資產(chǎn)關(guān)聯(lián)信息進(jìn)行自動(dòng)聚類,保證重要告警不遺漏。

      ·告警快速觸達(dá),提升預(yù)警和管理能力

      自動(dòng)與通知工具(郵件、釘釘)和ITSM進(jìn)行信息和工單聯(lián)動(dòng),實(shí)現(xiàn)快速預(yù)警和告警事件的處置跟蹤。

      ·全局化業(yè)務(wù)視角關(guān)聯(lián)分析,提高故障處理效率

      實(shí)現(xiàn)基于業(yè)務(wù)視角的告警全局監(jiān)視和拓?fù)浞治觯焖冁i定故障業(yè)務(wù),并支持故障協(xié)同處理,提高運(yùn)維處理效率。

      ·獲得可對(duì)外提供數(shù)據(jù)服務(wù)能力的數(shù)據(jù)資產(chǎn)庫

      實(shí)現(xiàn)異構(gòu)告警數(shù)據(jù)的統(tǒng)一接入、融合、字段解析。并可輸出至指定數(shù)據(jù)庫,形成統(tǒng)一、集中且可對(duì)外提供數(shù)據(jù)服務(wù)能力的數(shù)據(jù)資產(chǎn)庫。


責(zé)任編輯:劉明德
分享到:
0
【慎重聲明】凡本站未注明來源為"大眾時(shí)報(bào)網(wǎng)"的所有作品,均轉(zhuǎn)載、編譯或摘編自其它媒體,轉(zhuǎn)載、編譯或摘編的目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的,請(qǐng)?jiān)?0日內(nèi)進(jìn)行!
網(wǎng)站地圖 關(guān)于我們 免責(zé)聲明 投訴建議 sitemap

未經(jīng)許可任何人不得復(fù)制和鏡像,如有發(fā)現(xiàn)追究法律責(zé)任 粵ICP備2020138440號(hào)

<tfoot id="mjdss"><nobr id="mjdss"></nobr></tfoot>
    1. <ruby id="mjdss"><div id="mjdss"></div></ruby>
      <tr id="mjdss"></tr>