AIOpsforIT-鼎茂全面分布式新核心系統(tǒng)智能運維解決方案鼎茂全面分布式新核心系統(tǒng)智能運....">

国产AV激情无码久久,精品国产YW在线观看,亚洲国产欧美日韩欧美2018,中文字幕一区二区三区在线不卡

鼎茂科技助力銀行客戶,應(yīng)對含400+微服務(wù)的核心系統(tǒng)運維挑戰(zhàn)

2024-05-31 11:12   來源: 大眾時報網(wǎng)

      案例應(yīng)用解決方案 >AIOps for IT - 鼎茂全面分布式新核心系統(tǒng)智能運維解決方案

      鼎茂全面分布式新核心系統(tǒng)智能運維解決方案,旨在幫助各類規(guī)模的金融機構(gòu)客戶,在核心金融系統(tǒng)向全面分布式架構(gòu)轉(zhuǎn)型的過程中,快速應(yīng)對技術(shù)變化帶來的運維挑戰(zhàn)。

      方案深度結(jié)合了鼎茂的云原生、大數(shù)據(jù)處理、指標(biāo)體系、AI分析、分布式全鏈路追蹤、智能監(jiān)控和告警,以及根因分析等技術(shù),幫助金融客戶快速升級智能運維體系,在無需增加人力和技能成本的同時,實現(xiàn)“實時發(fā)現(xiàn)異常,快速定界問題,輔助決策處置”,全面保障核心系統(tǒng)的運維SLA。

      目前該解決方案已在多家采取分布式新核心系統(tǒng)的銀行客戶環(huán)境中落地。本文的客戶故事為某城市商業(yè)銀行的實踐案例,該行在核心系統(tǒng)升級后,微服務(wù)和黃金指標(biāo)數(shù)量均有百倍級別的增量,鼎茂解決方案有效幫助客戶實現(xiàn)了運維體系的升級,為金融機構(gòu)客戶構(gòu)建面向新核心系統(tǒng)的運維體系提供了有效的價值參考。


      案例背景 >

      隨著移動互聯(lián)網(wǎng)及大數(shù)據(jù)時代的到來,各類金融業(yè)務(wù)快速增長,傳統(tǒng)集中式核心系統(tǒng)的處理模式已不能滿足多樣化的計算需求。金融機構(gòu)開始加速技術(shù)升級,推動核心系統(tǒng)向能夠快速擴縮容量和性能的全面分布式架構(gòu)演進。

      在此背景下,案例客戶銀行作為數(shù)字化發(fā)展較早的一批金融機構(gòu),已經(jīng)完成了從集中式向分布式架構(gòu)轉(zhuǎn)型的核心系統(tǒng)升級。隨著轉(zhuǎn)型后系統(tǒng)復(fù)雜度的增加,客戶亟需一套完整且專業(yè)的智能運維體系,可適配分布式核心應(yīng)用系統(tǒng)架構(gòu),保障新核心系統(tǒng)的穩(wěn)定運行。


      01

      需求分析

      01.1 面臨的問題

      該行轉(zhuǎn)型后的新核心業(yè)務(wù)系統(tǒng)由400余個微服務(wù),上千個容器實例,500余個服務(wù)器節(jié)點,結(jié)合分布式數(shù)據(jù)庫構(gòu)建而成。相比傳統(tǒng)架構(gòu),僅業(yè)務(wù)黃金指標(biāo)就翻了400倍,整體運維數(shù)據(jù)體量日增超過10TB。

      ·微服務(wù)數(shù)量激增,黃金指標(biāo)翻了400倍

      基于統(tǒng)一規(guī)則的傳統(tǒng)監(jiān)控不再適用

      需要為每一個微服務(wù)和指標(biāo)進行量身定制的監(jiān)控規(guī)則

      在案例客戶場景中微服務(wù)達到400多個,相比傳統(tǒng)架構(gòu),僅業(yè)務(wù)黃金指標(biāo)就翻了400倍。同時,由于各個微服務(wù)業(yè)務(wù)行為的多樣性,基于統(tǒng)一規(guī)則的傳統(tǒng)監(jiān)控不再適用,監(jiān)控規(guī)則需要為每一個微服務(wù)和指標(biāo)進行量身定制,且依賴加大資源投入也不能完全解決該問題。

      ·微服務(wù)、容器、鏈路等新運維對象加入,使得告警風(fēng)暴更易發(fā)生

      原有的告警事件運維模式不再適用

      需要對大量的并發(fā)重要告警進行關(guān)聯(lián)和收斂

      由于微服務(wù)架構(gòu)引入了包括微服務(wù)、容器、鏈路在內(nèi)的新的運維對象類型,這使得故障場景的告警風(fēng)暴更容易發(fā)生。在面對海量原始告警事件的告警風(fēng)暴場景下,多發(fā)地重要告警往往缺乏關(guān)聯(lián)性,使得原有的告警事件運維模式不再適用。

      ·多服務(wù)間共用IT中間件,故障難以快速定位

      傳統(tǒng)應(yīng)用架構(gòu)的故障分析方法不再適用

      需要綜合分析事件、對象和數(shù)據(jù)之間復(fù)雜關(guān)系和影響

      新核心系統(tǒng)采用微服務(wù)架構(gòu),交易由服務(wù)與服務(wù)間的調(diào)用構(gòu)建而成。由于多個服務(wù)共用IT中間件,經(jīng)常遇到由于中間件故障而導(dǎo)致多個服務(wù)同時發(fā)生異常的情況。與傳統(tǒng)應(yīng)用架構(gòu)中各業(yè)務(wù)獨立使用中間件相比,在新核心的分布式環(huán)境里,缺乏分析問題的顯著突破口,根因定位的難度和復(fù)雜度加劇。

      01.2 項目建設(shè)目標(biāo)

      鑒于以上的各種挑戰(zhàn),客戶希望能夠建設(shè)一套完整且專業(yè)的、適配分布式核心應(yīng)用系統(tǒng)架構(gòu)的智能運維體系,實現(xiàn)以下需求:

      ·微服務(wù)全鏈路追蹤分析

      實時動態(tài)捕獲微服務(wù)間調(diào)用拓撲,并對微服務(wù)故障報錯進行溯源,解決故障分析滯緩,業(yè)務(wù)影響擴大的問題。

      ·業(yè)務(wù)指標(biāo)、IT組件基礎(chǔ)指標(biāo)智能監(jiān)控

      建立智能化的、自適應(yīng)的異常監(jiān)控策略,解決無法做到海量指標(biāo)監(jiān)控全覆蓋的痛點。

      ·告警折疊與告警關(guān)聯(lián)收斂

      有效降低告警風(fēng)暴期告警的數(shù)量,并對若干重要告警形成關(guān)聯(lián),以告警故障場景維度進行統(tǒng)一分析。

      ·智能故障分析定位

      當(dāng)分布式新核心業(yè)務(wù)系統(tǒng)發(fā)生故障產(chǎn)生告警風(fēng)暴后,快速定位故障可能的原因,縮小排查范圍,并給出異常對象的處置建議。


      02

      解決方案及思路

      02.1 建設(shè)思路

      該建設(shè)方案基于鼎茂ARCANA數(shù)智底座,結(jié)合ARC-IMC(對象指標(biāo)中心)、ARC-ADP(數(shù)據(jù)治理平臺)、Di-Logger(日志分析平臺)、Di-Monitor(智能監(jiān)控中心)、Di-Alert(智能告警中心)、Di-RCA(根因分析中心)等技術(shù)和場景能力,構(gòu)建了一套面向分布式新核心系統(tǒng)的智能運維平臺,具備分布式全鏈路跟蹤、智能監(jiān)控、智能告警收斂以及故障定位分析能力,并為客戶提供統(tǒng)一的管理門戶。

      02.2方案實施

      Step1 部署云原生數(shù)智底座ARCANA(含ARC-ADP、ARC-IMC)

      -采用被動接收+主動輪詢,結(jié)合容器Agent技術(shù),實現(xiàn)400+微服務(wù)系統(tǒng)運維數(shù)據(jù)的實時流式采集;

      -結(jié)合ARC-IMC對象指標(biāo)中心,建立了對象指標(biāo)體系,覆蓋從交易-業(yè)務(wù)-服務(wù)-基礎(chǔ)組件-基礎(chǔ)設(shè)施全域運維對象指標(biāo);

      -以對象指標(biāo)體系為核心,完成“指標(biāo)數(shù)據(jù)治理、鏈路日志數(shù)據(jù)解析、告警數(shù)據(jù)標(biāo)準化”等數(shù)據(jù)處理。


      Step2 搭載智能監(jiān)控功能模塊(Di-Monitor、Di-Logger)

      -通過Di-Monitor鏈路追蹤模塊,即時采集調(diào)用鏈數(shù)據(jù),并計算分布式核心業(yè)務(wù)系統(tǒng)的動態(tài)調(diào)用拓撲。結(jié)合機器學(xué)習(xí)算法,對調(diào)用特征和微服務(wù)之間的調(diào)用指標(biāo)進行異常檢測,生成業(yè)務(wù)交易層面的告警異常信息;

      -通過Di-Monitor IT組件監(jiān)控模塊,結(jié)合基于動態(tài)基線的異常檢測和多維告警規(guī)則組合配置能力,實現(xiàn)IT組件指標(biāo)監(jiān)控和異常告警;

      -利用Di-Logger的日志分析能力對日志實施異常檢測,并實現(xiàn)日志的智能監(jiān)控。


      Step3 搭載智能告警功能模塊(Di-Alert)

      -由Di-Alert承接告警統(tǒng)一、告警壓縮、告警關(guān)聯(lián)收斂的主要能力。對海量告警進行關(guān)聯(lián)收斂,以告警摘要的形式對關(guān)聯(lián)告警進行通知和播報。


      Step4 搭載根因分析功能模塊(Di-RCA)

      -編排(指標(biāo)多維下鉆、調(diào)用鏈溯源分析、對象影響關(guān)系定位、指標(biāo)時空因果關(guān)系推斷、外部關(guān)聯(lián)分析等)根因定位分析原子算法,強化根因分析能力;

      -根據(jù)分析、定位故障對象,界定故障影響范圍,形成根因報告能力。


      03

      項目成果

      03.1 解決了 大規(guī)模分布式系統(tǒng)的數(shù)據(jù)治理 挑戰(zhàn)

      客戶核心系統(tǒng)轉(zhuǎn)為分布式架構(gòu)后,應(yīng)用層監(jiān)控依賴微服務(wù)調(diào)用鏈,且資產(chǎn)長期處于動態(tài)變化中,難以將運維對象和監(jiān)控指標(biāo)高效地結(jié)合并管理。

      鼎茂解決方案在獲取例如CPU負載、內(nèi)存使用量等技術(shù)指標(biāo)的同時,在交易流中嵌入標(biāo)簽,記錄交易在不同應(yīng)用和系統(tǒng)中執(zhí)行、調(diào)用、跳轉(zhuǎn)等操作的時空信息,完整描繪程序運行路徑。同時依托運維對象指標(biāo)中心對數(shù)據(jù)進行治理,構(gòu)建了不同應(yīng)用服務(wù)之間、同應(yīng)用不同層級間和應(yīng)用與指標(biāo)間的數(shù)據(jù)模型。確保系統(tǒng)節(jié)點的漂移不會對數(shù)據(jù)采集、分析造成影響。

      03.2解決了 海量動態(tài)運維對象的精細化監(jiān)控 挑戰(zhàn)

      客戶之前監(jiān)控手段主要為基于指標(biāo)的固定閾值告警,難以通過人工設(shè)置的方式精細地管理分布式架構(gòu)下的每個運維對象,導(dǎo)致日常大量虛警誤報的產(chǎn)生。

      鼎茂解決方案能夠?qū)χ笜?biāo)、調(diào)用鏈和日志進行一體化智能監(jiān)控,并能自動分析運維對象特征,基于對歷史數(shù)據(jù)的學(xué)習(xí)而生成的動態(tài)基線進行異常發(fā)現(xiàn)。相較于傳統(tǒng)的固定閾值監(jiān)控,能夠在聯(lián)機/批量業(yè)務(wù)高峰期,使用更合理的動態(tài)閾值進行監(jiān)控,避免告警誤報。同時也能夠敏銳的捕捉到在業(yè)務(wù)高峰窗口,各項指標(biāo)沒有如期沖高所意味的潛在風(fēng)險。在此基礎(chǔ)上,方案提供閾值類、連續(xù)類和異常次數(shù)類告警規(guī)則設(shè)置,避免單個異常點造成的毛刺告警。

      03.3 解決了 分布式對象多層級告警噪音干擾 挑戰(zhàn)

      客戶核心系統(tǒng)原始告警峰值可達5000條每秒。這其中,重復(fù)告警和關(guān)聯(lián)問題告警的冗余帶來大量噪音,使運維團隊為告警響應(yīng)處置等工作投入大量額外資源。

      鼎茂解決方案使用AI算法能力,提取告警事件語義向量序列,進行告警折疊壓縮。并且根據(jù)鏈路調(diào)用拓撲,CMDB數(shù)據(jù)治理所得來的對象層級關(guān)系,對海量告警進行關(guān)聯(lián)收斂,并對壓縮后的單源告警進行層級關(guān)系聚合,推送單層與多層級聚合的告警摘要,以及影響層級、根因?qū)蛹壍容o助故障排查的重要信息,提升運維效率。

      03.4 解決了 多組件、多節(jié)點和多數(shù)據(jù)影響的故障分析 挑戰(zhàn)

      分布式系統(tǒng)的故障定位通常需要運維團隊熟悉全棧技術(shù),此前客戶需要借助多個監(jiān)控工具,分析過程復(fù)雜,耗時較長。

      鼎茂解決方案支持由告警自動觸發(fā)故障根因分析,并生成RCA報告。方案采用鼎茂自研算法,結(jié)合領(lǐng)域知識進行故障的自動化溯源分析,整個分析過程貫穿了監(jiān)控指標(biāo)、調(diào)用鏈和日志數(shù)據(jù),并結(jié)合了CMDB、事件工單和變更記錄等信息。

      在一次由于中間件節(jié)點重啟導(dǎo)致的交易失敗故障中,首先采用全景鏈路分析確定了發(fā)生故障的應(yīng)用服務(wù)節(jié)點,同時結(jié)合多維下鉆分析來判斷受影響的交易請求范圍。在推斷出全量請求將會受到影響后,進一步分析相關(guān)基礎(chǔ)監(jiān)控指標(biāo),并使用時空關(guān)聯(lián)關(guān)系分析,定位根因指標(biāo),并附以相關(guān)節(jié)點的日志信息輔助排障。


      04

      客戶收益

      鼎茂科技幫助該客戶實現(xiàn)了快速應(yīng)對分布式新核心系統(tǒng)的運維挑戰(zhàn):

      通過分布式新核心業(yè)務(wù)系統(tǒng)智能運維平臺的建設(shè),完成了從統(tǒng)一監(jiān)控、智能告警、根因定位的閉環(huán)分析體系。整體提高了新核心業(yè)務(wù)系統(tǒng)智能運維體系問題發(fā)現(xiàn)和問題定位的時效性。解決了分布式新核心業(yè)務(wù)系統(tǒng)帶來的運維成本提升的痛點,并且保證了分布式新核心業(yè)務(wù)系統(tǒng)對外連續(xù)服務(wù)的運維水平等級。

      ·實現(xiàn)了近百萬級指標(biāo)的實時監(jiān)控和異常檢測能力。

      ·在告警風(fēng)暴場景下實現(xiàn)了約85%的告警壓縮收斂能力。

      ·形成根因定位的能力,有效地縮小了故障根源的分析范圍。


責(zé)任編輯:劉明德
分享到:
0
【慎重聲明】凡本站未注明來源為"大眾時報網(wǎng)"的所有作品,均轉(zhuǎn)載、編譯或摘編自其它媒體,轉(zhuǎn)載、編譯或摘編的目的在于傳遞更多信息,并不代表本站贊同其觀點和對其真實性負責(zé)。如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進行!
網(wǎng)站地圖 關(guān)于我們 免責(zé)聲明 投訴建議 sitemap

未經(jīng)許可任何人不得復(fù)制和鏡像,如有發(fā)現(xiàn)追究法律責(zé)任 粵ICP備2020138440號

<tfoot id="mjdss"><nobr id="mjdss"></nobr></tfoot>
    1. <ruby id="mjdss"><div id="mjdss"></div></ruby>
      <tr id="mjdss"></tr>