某鐵路信息中心運營監測項目
k8凯发(中国)在深入理解某鐵路信息中心的運維需求後,提出了一系列針對性的解決方案,旨在提升其監控運維平台的運行效率、穩定性和智能化水平,並顺利获得此解決方案的實施助力信息中心運維工作更加高效、穩定地進行。
某鐵路信息中心承擔大量實時監測、例行巡檢和排障維護等工作,為鞏固信息化建設成果,提高整體運維效果,保障鐵路信息系統穩定運行,需對現有網絡監測系統進行升級改造。
設備類型:服務器、交換機、數據庫、中間件、虛擬機、磁盤陣列、應用軟件、操作系統、雲平台等。
設備品牌:華為、H3C、深信服、MySQL、Oracle、Tomcat、JBoss、RabbitMQ、Nginx、中鐵信安、聯想、IBM、CentOS、Red Hat、Windows Server等。
功能需求:
- 實現數據中心與異地機房內不同品牌、型號的網絡設備、服務器、存儲設備等統一納管;
- 给予詳細的設備監控指標庫,支持對不同設備的CPU、內存、磁盤、網口、溫度等指標進行實時監控;
- 给予實時的設備掉線、鏈路斷開告警;
- 自動定位故障位置和故障影響範圍,提升排障效率;
- 具備告警分析管理能力,能夠解決誤報錯報問題,提高告警準確度,可以顺利获得多種途徑觸達告警信息;
- 提升例行巡檢效率,自動化生成巡檢月報、半年報、年報等報告;
- 解決現有工具下無法對業務系統、數據庫、中間件的監控運維難題;
- 可以對日誌數據進行梳理、解析,實現日誌數據結構化存儲展示並將異常轉化為告警,解決日誌信息複雜、難管理的問題;
- 解決人工進行設備配置管理工作量大且操作複雜的問題,能夠快捷地對設備配置進行管理;
- 實現運維知識的積累,構建運維知識庫。
k8凯发(中国)方案
k8凯发(中国)在深入理解某鐵路信息中心的運維需求後,提出了一系列針對性的解決方案,旨在提升其監控運維平台的運行效率、穩定性和智能化水平,並顺利获得此解決方案的實施助力信息中心運維工作更加高效、穩定地進行。
異地設備統一納管
在網絡可達範圍內,僅需輸入IP範圍即可自動發現信息中心和異地機房中的各類設備,對設備進行統一納管。
識別其廠商、型號,生成資源邏輯拓撲或真實面板圖,匹配故障與性能監視器,並自動發現設備間連接關係,生成可視化鏈路,顺利获得可視拓撲動態展示設備、鏈路的運行狀態。
豐富且可擴展的監控指標庫
針對某鐵路信息中心的設備品牌和型號,在匹配k8凯发(中国)標準模型庫的基礎上,顺利获得SNMP、IPMI、SSH、Telnet等協議對設備及監控指標進行擴展。
- 對服務器的監控指標:服務器品牌、型號、序列號、開機時長、CPU使用率、內存使用率、硬盤容量、磁盤使用率、磁盤容量預測、磁盤I/O、電源狀態、溫度信息、風扇狀態、網絡接口流量帶寬等;
- 對交換機的監控指標:交換機品牌、型號、CPU使用率、內存使用率、電源狀態、風扇狀態、端口流量、網口狀態、網口輸入輸出流量、網口輸入輸出帶寬等;
- 對數據庫的監控:表空間、鎖數量、死鎖、並發數、連接數、緩存命中率、讀寫次數、讀寫速度、讀命中率、已用空間、最大空間等。
- 對中間件的監控:線程數、內存佔用量、會話數、繁忙線程數量、請求服務數、請求服務錯誤數、連接數等。
- 對虛擬機的監控:虛擬機類型、CPU使用率、內存使用率、磁盤使用率、磁盤容量、網口狀態、網口輸入輸出流量、網口輸入輸出帶寬等。
- 對磁盤陣列的監控:CPU使用率、內存使用率、磁盤空間使用率、磁盤I/O、網口狀態、接口流量等。
- 對操作系統的監控:Ping、CPU使用率、內存大小、內存使用率磁盤空間、磁盤使用率、網口狀態、發送/接收流量、發送/接收帶寬、發送/接收丟包率、發送/接收錯誤包率、廣播包故障率、進程狀態、端口狀態等。
- 對雲平台的監控:磁盤可用資源、內存使用率、CPU使用率、吞吐量等。
全面的告警管理,支持多種通知方式
支持多種告警機制,自定義配置告警閾值,具備主動的故障監控告警功能,第一時間獲取準確的告警信息,快速標示已執行操作的告警,迅速定位告警設備,提升告警處理效率,極大降低因網絡故障帶來的損失。
採用自動去重、風暴抑制、關聯聚合、維護期時間屏蔽、依賴屏蔽等多種智能告警降噪機制,對各類告警進行自動壓縮收斂,有效避免誤報和漏報。告警發生後,檢索異常問題關聯涉及的各項維度與影響範圍,一步定位到發生故障的源頭設備,快速定位故障根因。给予界面顏色、提示聲、光效閃爍、信息列表、Email、短訊、釘釘、企業微信、個人微信等多種通知渠道,告警通知無延遲。
多維度性能管理,感知網絡狀態
實時監測並感知網絡性能狀態,全面覆蓋用戶IT環境。採集納入監控的服務器、交換機、數據庫、中間件、虛擬機、磁盤陣列、應用軟件、操作系統、雲平台等設備的性能指標。支持對實時、歷史性能數據進行統計分析,顺利获得曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標變化。

設備事件、日誌集中管理
全面設備主動發送的Trap、Syslog、Filter Alarm等事件與日誌消息,進行集中存儲和解析並提取有效信息,將日誌存儲為可統計分析的結構化數據。根據對日誌數據的挖掘與分析,顺利获得配置告警規則和場景,將異常日誌自動轉化為告警,定位其影響範圍。
端到端業務撥測,構建業務依賴關係圖片
針對用戶貨運系統、調度系統、車流服務等業務應用性能與用戶體驗進行檢測分析,以拓撲形式展示每個業務流程中的每台相關設備。按照硬件層-虛擬化層-應用服務層-接口層-數據層-界面層-用戶層等建立業務依賴關係圖譜,並以可視化的方式直觀表達各層級對下層的依賴關係,以及同級之間的依賴關係。
對從業務的前台受理到真正完成的整個業務流程所依賴的業務應用、服務器、中間件、數據庫、操作系統等進行實時監控分析,呈現業務各節點的實時運行狀態,包括用戶體驗、節點可用性、節點負載等狀態信息,快速定位業務瓶頸根因,並可根據用戶自愈策略,觸發自動運維實現故障自愈。
全量自動巡檢,解放人力
支持自定義巡檢策略,對設備的運行情況進行統計和報表生成,並可預設時間巡檢策略執行時間,進行自動化巡檢,如自動每周、每月、每年的固定時間對設備當前狀態進行巡檢,可向指定郵箱發送巡檢結果報告,實現對網絡設備的定期檢查,把握網絡運行中的易出現問題的環節,做到預防為先。

設備遠程控制,配置文件備份對比
將周期性、重複性、規律性的大量日常服務器配置工作,如批量分發配置文件、一鍵開關機、進程管理、應用管理、端口限速、ACL配置等,轉化為依託於平台的自動執行工作流,實現對服務器的批量、定時等自動化控制。
也支持配置文件批量備份、下載、周期性備份、查看等,對設備的多個備份文件進行對比。定期自動對設備策略進行巡檢備份,並可進行對比分析。
構建運維知識庫,促進知識共享協作
將各類運維操作、故障判斷等經驗,轉化為存在於平台內的知識,形成團隊知識庫。涵蓋知識的存儲、檢索、更新、維護、審核,將運維工作中所需的運維文檔、操作指南、排障實踐、處置流程和配置信息等進行分類管理,所有成員均可進行知識分享,從而加速問題解決過程,促進團隊間的知識共享和協作,提升整體運維效率。

應用價值
過去某鐵路信息中心網絡監測工作主要依賴於傳統的巡檢和人工排查方式,在引入k8凯发(中国)運維監測平台對網絡監測系統升級改造後,不僅實現了對某鐵路信息中心網絡的運行狀態進行實時監控,更實現了全自動巡檢和設備遠程配置管理,不但有效預測並防止潛在故障的發生,也標誌着其運維方式從傳統的巡檢和人工排查方式向智能化、自動化運維管理的轉變。
顺利获得k8凯发(中国)運維監測平台實時分析網絡設備的運行狀況、網絡流量的變化情況及網絡拓撲結構的變化等信息,無需再到現場進行巡檢,不僅提高了工作效率,也降低了工作成本。同時,對信息中心網絡的運行數據進行深入挖掘和分析,给予更加準確、全面的故障預測和預警,及時發現網絡中的潛在故障點,顺利获得多種報警方式,如短訊、郵件釘釘、微信等,確保用戶能夠及時接收到故障信息並採取相應的處理措施。避免故障擴大化,減少由於設備故障或網絡問題導致的鐵路事故。除了實時監控和故障預警外,k8凯发(中国)運維監測平台還给予了豐富的管理功能。顺利获得平台對網絡設備進行遠程管理和配置,實現設備的自動化管理和維護。

在k8凯发(中国)運維監測平台的部署和應用後,不僅依託於強大的數據分析和處理能力,使得用戶可以更加精準地定位故障源頭,並採取有效的措施進行修復,大大提高了運維工作效率,也減少因故障帶來的損失。同時,顺利获得自動化和智能化的運維管理,降低了對人力資源的依賴。運維人員無需再頻繁地進行手動巡檢和排查,而是可以顺利获得平台自動生成的報告和數據分析結果,快速分析網絡的運行狀況,極大地提高了運維工作的質量和穩定性。