嘉為藍鯨WeOps賦能堅美鋁業IT管理,推動制造業數字化發展
佛山堅美鋁業,是廣東堅美鋁型材廠(集團)旗下企業,是全國鋁型材行業的引領者之一。堅美鋁業集團年生產能力60萬噸以上,鋁材產品銷售覆蓋全國30+省市,遠銷全球70+國家和地區,品牌價值達112.17億元。
近年來,面對全球新冠疫情危機以及嚴峻復雜的國內外環境,傳統鋁型材制造業遭遇到了嚴峻挑戰,但是作為南海區制造業的引領者,堅美鋁業積極響應《廣東省佛山市落實推動制造業數字化智能化轉型發展》的政策號召,攻堅克難,加大對升級建設自動化生產基地的投入,擴大產能,保持企業良好的增長勢頭。
伴隨著業務的蓬勃發展,應用系統及后臺服務器數量成倍增加,應用架構越來越復雜,新技術帶來的運維門檻越來越高。堅美鋁業前期已建設零星的運維工具,如zstack自帶監控、H3C(網管系統)等,相對分散,能力不夠全面,對運維帶來幫助如杯水車薪,運維困境日益凸顯:
監控告警工具會產生大量無效告警,缺少有效手段收斂告警風暴,而且未能實現運維的聯動,缺少配置-監控告警-工單-自動處理-告警自動關閉的故障閉環管理能力;
已有的運維工具屬于豎井式建設,數據打通及聯動困難,無法借助工具進一步提升運維運營服務能力,難以滿足不斷增長的業務系統運維需求;
缺少自動化運維工具,在巡檢、資源交付、補丁管理等重復性較多的工作上,仍需要消耗大量的時間;
運維數據分散在各個工具系統,無法統一進行可視化展示、統計和分析,運維服務無法持續度量和優化。
如何快速提升運維管理水平,以更好地保障業務系統穩定運行,是堅美鋁業IT部門迫切需要解決的問題。IT部門負責人曹部長高瞻遠矚,希望通過引進先進的技術和理念,基于一體化運維平臺數據打通、擴展性強等特性,將線下的運維工作不斷移植固化到平臺上來,實現對同行業IT管理的彎道超車。
佛山堅美鋁業基于一體化運維平臺,實現IT資源對象可視、可控、可管的建設目標:
建立故障全生命周期的管理體系:提供覆蓋資源管理、監控告警、健康巡檢、故障自愈等多項功能為一體的運維平臺,以故障定位和全生命周期管理為核心,持續保障公司業務連續性。
構建統一的告警中心,避免告警潮汐:接入zstack和H3C(網管系統)的告警信息到WeOps平臺,實現告警統一展現,支持對告警進行收斂,避免告警潮汐。
構建主動服務能力,降低故障發生,提高系統穩定性:利用平臺的健康掃描能力,可以定時自動對公司業務應用及IT資源進行健康掃描,提前發現系統性能故障及安全隱患,避免故障發生,提升業務應用運行的穩定性。
構建自動化運維能力,提升IT部運維工作效率:平臺自帶數十個自動化運維腳本,可解決常規運維問題,提高運維效率;也支持用戶通過作業平臺+標準運維,實現自動化腳本工具的自主開發;同時具備自動補丁安裝能力,可以實現服務器補丁的批量安裝,緩解運維壓力。
構建可視化運維管理體系,隨時掌握核心業務及應用運行狀態:通過平臺可實現資源狀態大屏、應用墻、核心應用大屏等可視化大屏,可以實現公司整體資源運行健康狀態、應用運行健康狀態,實現運維的可視化。
經過層層篩選,堅美鋁業最終采用嘉為藍鯨WeOps一體化運維平臺,依托于“騰訊藍鯨Paas平臺先進技術支撐”和“嘉為20+年運維實踐經驗”得天獨厚的優勢,幫助企業加快實現IT系統轉型升級。
從前期的項目需求調研,技術方案設計,到平臺的部署配置,再到平臺功能的上線試運行,整體實施過程控制在2個月內完成,這得益于WeOps產品的資源管理、健康掃描、監控告警、數字大屏、知識庫及自動化運維工具等模塊功能開箱即用程度高,內置豐富的運維場景,一鍵啟用。
目前,WeOps納管了數百臺服務器,覆蓋數十套業務系統,通過模塊功能之間相互聯動,圍繞故障全生命周期形成運維閉環管理。
高效管理IT資產:WeOps自動生成發現采集和架構拓撲,覆蓋了堅美鋁業主機、基礎軟件等各個運維層面數十種IT對象,數百個IT資源;同時具有良好的擴展性,支持了第三方數據源的集成對接。
以往堅美鋁業信息部門的資產管理,是每位管理員依靠Excel表記錄各自負責的IT資產配置信息,并無統一匯總資源管理,這導致IT數據分散,信息準確率低、數據維護工作量大。WeOps上線使用后,CMDB實現從無到有的突破,運維人員告別手動操作,資產更新實現80%自動化,資產數據準確性提升5倍;并且每月可節約超過1天的人工維護成本,運維人員輕松應對半年度的資產盤點,可以花更多的時間精力在業務系統優化和建設上。
全方位監控告警:WeOps靈活自定義監控儀表盤,涵蓋健康掃描,及時感知故障。
依托事件中心的聚類、抑制、收斂及屏蔽等告警算法,精準告警,避免告警潮汐。
堅美鋁業以往沒有一套一體化運維平臺來幫助監控告警,故障排查,因此運維人員只能通過人工巡檢排查,難以快速定位故障原因,來不及修復bug,影響了業務的正常運行。8月下旬WeOps正式上線,經過一周的密切觀察后,重新調整了告警策略,對生產存在的故障和隱患進行了集中處理,9月系統穩定運行。
總結WeOps近2個月的投產情況:監控的覆蓋率提升190%,故障及時發現率提升220%,平均故障處理時長縮短72%,預計每年因故障影響業務運行狀態的時間可減少72小時。
運維數據可視化、數字化:數據大屏動態匯總全局狀態,運維全局一目了然,管理人員能直觀審視業務運營與IT運維中的有效信息,提升IT管理的效能。
通過WeOps建設,嘉為科技成功助力堅美鋁業業務實現可視、可管、可控,未來也將和堅美鋁業持續合作生長,共同為鋁型材生產業務注入科技動力,繪制制造業數字化藍圖!