網(wǎng)絡(luò)運(yùn)維 設(shè)備管控

如何實現(xiàn)網(wǎng)絡(luò)安全監(jiān)控運(yùn)維?

中間件實時監(jiān)控,運(yùn)維難題一站解決

中間件實時監(jiān)控,運(yùn)維難題一站解決
    馬上咨詢

    ? ? ? ? 中間件是介于操作系統(tǒng)和在其上運(yùn)行的應(yīng)用程序之間的軟件,實現(xiàn)了分布式應(yīng)用程序的通信和數(shù)據(jù)管理,用于協(xié)調(diào)不同的系統(tǒng)和組件之間的通信,是連接應(yīng)用與底層資源直接的橋梁。因此,中間件的穩(wěn)定與高可用對于整個業(yè)務(wù)系統(tǒng)的可靠性和性能至關(guān)重要。

    ? ? ? ? 北京智和信中間件監(jiān)控運(yùn)維方案通過對中間件的實時監(jiān)控和編排運(yùn)維,提高對中間件故障的感知、分析、解決能力,保障中間件持續(xù)穩(wěn)定運(yùn)行。

    第1章 中間件監(jiān)控范圍與指標(biāo)

    ? ? ? ? 智和信通方案通過構(gòu)建對Tomcat、Jboss、WebLogic等中間件的關(guān)鍵指標(biāo)的監(jiān)控,實現(xiàn)對中間件性能和資源的實時追蹤,識別并解決影響中間件性能的問題,保障中間件的高性能及高可用性,更全面地支撐業(yè)務(wù)及應(yīng)用的穩(wěn)定、持續(xù)運(yùn)行,提升用戶體驗。

    1.1.常見中間件監(jiān)控模型及指標(biāo)擴(kuò)展

    ? ? ? ? 目前方案已實現(xiàn)對中間件包括Web中間件、數(shù)據(jù)庫中間件、消息中間件、安全中間件、事務(wù)中間件、應(yīng)用程序服務(wù)器中間件、分布式計算中間件等常見中間件的監(jiān)控管理,涵蓋的品牌包括Tomcat、Jboss、WebLogic、Nginx、Apache、RabbitMQ、Kafka、Redis、東方通、中創(chuàng)、寶藍(lán)德、普元、金蝶天燕等國內(nèi)外中間件。


    ? ? ? ? 同時采取用戶自定義擴(kuò)展中間件品牌、類型及其資源的方式,賦予用戶強(qiáng)大的適配能力,其他中間件品牌也可通過靈活可配的模型庫進(jìn)行擴(kuò)展適配,最大可能地實現(xiàn)對不同時期、不同品牌、不同型號中間件的管控;支持自定義中間件類型、中間件資源、故障監(jiān)視器、性能監(jiān)視器、TRAP監(jiān)視器等。

    1.2.常見中間件資源監(jiān)測點(diǎn)和指標(biāo)

    ? ? ? ? 本方案通過主動輪詢和日志解析的方式對中間件的常見性能指標(biāo),如響應(yīng)時間、吞吐量、JVM內(nèi)存、執(zhí)行線程、JDBC連接池、并發(fā)用戶數(shù)等進(jìn)行監(jiān)控,同時除內(nèi)置的常見指標(biāo)外,其他資源和指標(biāo)也可以通過模型庫不斷進(jìn)行拓展。

    常見中間件監(jiān)測點(diǎn)和指標(biāo)

    資源監(jiān)測點(diǎn)

    監(jiān)測指標(biāo)

    基礎(chǔ)信息

    中間件品牌、名稱、版本等

    Ping

    連接狀態(tài)、響應(yīng)時長、服務(wù)成功率等

    JVM信息

    堆名稱、JVM堆棧利用率、VM堆中內(nèi)存、當(dāng)前JVM堆中空閑內(nèi)存數(shù)等

    連接池

    狀態(tài)、名稱、大小、總連接數(shù)、最大連接數(shù)、活動連接數(shù)、等待連接數(shù)、空閑連接數(shù)、已處理連接數(shù)、已接受連接數(shù)、平均每秒請求數(shù)、已關(guān)閉連接數(shù)、丟棄連接數(shù)、連接的最大客戶數(shù)、池平均使用率等

    線程池

    線程池負(fù)載、線程池總大小、活動線程數(shù)、創(chuàng)建線程數(shù)、銷毀線程數(shù)、ORB線程池利用率、Web線程池利用率、服務(wù)器線程池大小、死鎖線程數(shù)等

    會話信息

    最大會話數(shù)、會話總數(shù)等

    事務(wù)信息

    并發(fā)活動全局事務(wù)數(shù)、已落實全局事務(wù)數(shù)、提交事務(wù)數(shù)、回滾事務(wù)數(shù)、超時事務(wù)數(shù)等

    執(zhí)行隊列

    隊列名稱、執(zhí)行線程總數(shù)、當(dāng)前空閑執(zhí)行線程數(shù)、未處理請求最長時間(分鐘)、隊列中未處理的請求數(shù)、隊列已經(jīng)處理的請求數(shù)等

    ?Jms信息

    JMS連接總數(shù)、JMS當(dāng)前連接總數(shù)、JMS最高連接數(shù)、JMS Server總數(shù)、當(dāng)前JMS Server總數(shù)、JMS Server歷史中最高總數(shù)、JMS Session總數(shù)、當(dāng)前JMS Session數(shù)、最高JMS Session數(shù)、已接收J(rèn)MS消息數(shù)、未處理JMS消息數(shù)等


    第2章 中間件實時監(jiān)控

    ? ? ? ? 通過建立全面的監(jiān)控運(yùn)維體系,北京智和信中間件監(jiān)控運(yùn)維方案實時監(jiān)控中間件的各項關(guān)鍵性能指標(biāo),包括:CPU/內(nèi)存使用率、實時?流量/帶寬、執(zhí)行隊列等。針對各類中間件特點(diǎn)深入監(jiān)控其內(nèi)部組件和整體運(yùn)行狀態(tài),提升中間件可靠性,保障業(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行。

    2.1.自動發(fā)現(xiàn)中間件設(shè)備

    ? ? ? ? 智和信通具備獨(dú)特的中間件自動發(fā)現(xiàn)技術(shù),在網(wǎng)絡(luò)可達(dá)范圍內(nèi),僅需輸入IP范圍即可自動發(fā)現(xiàn)網(wǎng)絡(luò)中的中間件及其他設(shè)備,識別中間件品牌、版本的信息,獲取中間件內(nèi)部資源,匹配故障與性能監(jiān)視器,并自動發(fā)現(xiàn)中間件與其他設(shè)備的連接關(guān)系,生成可視化鏈路,通過可視拓?fù)鋭討B(tài)展示中間件、鏈路的運(yùn)行狀態(tài)。

    2.1.1.自動生成網(wǎng)絡(luò)拓?fù)?/strong>

    ? ? ? ? 方案以圖形拓?fù)涞男问秸宫F(xiàn)中間件在網(wǎng)絡(luò)中和其他設(shè)備間的拓?fù)潢P(guān)系,支持樹形結(jié)構(gòu)和平面結(jié)構(gòu)的聯(lián)動展示,也可以按片區(qū)、按地域、按層級等多種布局方式劃分網(wǎng)絡(luò),在拓?fù)渲幸圆煌伾珗D標(biāo)、光效展現(xiàn)中間件的實時狀態(tài)信息。


    2.1.2.可視化展示中間件資源

    ? ? ? ? 在拓?fù)鋱D的基礎(chǔ)上,進(jìn)一步展示中間件的內(nèi)部細(xì)節(jié),以圖形方式展示中間件基礎(chǔ)信息、CPU、內(nèi)存、執(zhí)行隊列、線程池、JVM信息、連接池信息等關(guān)鍵指標(biāo),對中間件進(jìn)行細(xì)化監(jiān)控,實時告警,事前管理,降低故障發(fā)生率。


    2.2.中間件性能態(tài)勢感知

    ? ? ? ? 中間件的運(yùn)行性能將直接影響業(yè)務(wù)系統(tǒng)的響應(yīng)速度和穩(wěn)定,同時定時監(jiān)測中間件的相關(guān)性能情況,持續(xù)觀測、多維管理,通過分析、展示中間件性能態(tài)勢,實現(xiàn)對中間件設(shè)備的“可觀、可管、可控”。

    2.2.1.全面監(jiān)控中間件性能

    ? ? ? ? 全面采集中間件的各項性能指標(biāo),如JVM堆棧利用率、JVM堆中內(nèi)存、活動連接數(shù)、等待連接數(shù)、空閑連接數(shù)、執(zhí)行線程總數(shù)、當(dāng)前空閑執(zhí)行線程數(shù)等,并可按照時間范圍、資源類型、性能指標(biāo)等多種維度,以圖形、表格等多種形式進(jìn)行展示。


    2.2.2.實時、歷史性能分析

    ? ? ? ? 對實時、歷史性能數(shù)據(jù)進(jìn)行統(tǒng)計分析,通過曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標(biāo)變化。運(yùn)維人員能隨時把握中間件性能變化態(tài)勢,防患于未然。

    2.2.3.多中間件性能對比

    ? ? ? ? 支持選擇多臺中間件進(jìn)行同維度性能數(shù)據(jù)分析,提供可視化性能對比視圖,通過性能對比分析中間件性能變化趨勢。


    2.3.中間件自動巡檢

    ? ? ? ? 可自定義中間件的巡檢策略,預(yù)設(shè)時間自動執(zhí)行中間件巡檢,定期巡查中間件實時運(yùn)行狀態(tài),并向指定郵箱發(fā)送結(jié)果報告,可自行選擇要統(tǒng)計的中間件所屬網(wǎng)絡(luò)、中間件類型、中間件資源、中間件支撐的業(yè)務(wù)、中間件關(guān)聯(lián)的鏈路等范圍類型,生成巡檢報表。


    2.4.日志與事件管理

    ? ? ? ? 接收中間件主動發(fā)送如連接池泄露、連接失敗、內(nèi)存泄漏、線程死鎖、創(chuàng)建連接失敗、連接池已滿、連接數(shù)據(jù)庫超時、鎖超時、服務(wù)器無響應(yīng)等事件與日志消息,集中存儲、解析處理后,將錯誤、告警、攻擊行為等異常信息及時地通知用戶。通過統(tǒng)一界面集中管理事件與日志,提高其完整性和可追溯性,幫助用戶快速定位問題并采取相應(yīng)的解決措施。


    2.5.故障告警與智能收斂

    ? ? ? ? 搭載多種告警機(jī)制,自定義配置告警閾值,具備主動的故障監(jiān)控功能,從眾多的事件和狀態(tài)中,系統(tǒng)地將零散的狀態(tài)信息,總結(jié)成為當(dāng)前狀態(tài),并對異常狀態(tài)進(jìn)行告警,第一時間獲取準(zhǔn)確的告警信息,快速標(biāo)示已執(zhí)行操作的告警,迅速定位產(chǎn)生告警的中間件,提升告警處理效率,極大降低因中間件故障帶來的損失。


    ? ? ? ? 告警管理采用自動去重、風(fēng)暴抑制、關(guān)聯(lián)聚合、維護(hù)期時間屏蔽、依賴屏蔽等多種智能告降噪機(jī)制,通過AI算法,對各類告警進(jìn)行自動壓縮收斂,減少90%的無效告警,抑制告警風(fēng)暴,有效避免誤報和漏報,直達(dá)故障根因。

    第3章 中間件承載的業(yè)務(wù)狀態(tài)撥測

    ? ? ? ? 針對中間件所支撐的業(yè)務(wù)應(yīng)用性能與用戶體驗進(jìn)行檢測分析,無需安裝插件就可以為用戶提供開箱即用的企業(yè)級主動撥測式業(yè)務(wù)監(jiān)測。以拓?fù)湫问秸故久總€業(yè)務(wù)流程中的每臺相關(guān)設(shè)備,支持設(shè)備邏輯視圖和面板視圖,展示業(yè)務(wù)流程中涉及的所有的設(shè)備之間的鏈路關(guān)系,流程方向。


    ? ? ? ? 構(gòu)建包含各業(yè)務(wù)整體流程的調(diào)用依賴關(guān)系圖譜,展示業(yè)務(wù)部署中網(wǎng)絡(luò)設(shè)備間多維度關(guān)系拓?fù)?。對從業(yè)務(wù)的前臺受理到真正完成的整個業(yè)務(wù)流程所依賴的業(yè)務(wù)應(yīng)用、中間件、中間件、中間件、操作系統(tǒng)等進(jìn)行實時監(jiān)控分析,呈現(xiàn)業(yè)務(wù)各節(jié)點(diǎn)的實時運(yùn)行狀態(tài),包括用戶體驗、節(jié)點(diǎn)可用性、節(jié)點(diǎn)負(fù)載等狀態(tài)信息,快速定位業(yè)務(wù)瓶頸根因,并可根據(jù)用戶自愈策略,觸發(fā)自動運(yùn)維實現(xiàn)故障自愈。

    第4章 統(tǒng)計報表和大屏展示

    ? ? ? ? 通過定義中間件相關(guān)數(shù)據(jù)報表的能力,實現(xiàn)中間件性能和狀態(tài)的靈活展現(xiàn)和統(tǒng)計分析,通過對比、TOPN等分析方式并結(jié)合報表排序規(guī)則、過濾規(guī)則等能力,周期自動生成報表,幫助用戶更好地了解中間件的各項負(fù)載情況和運(yùn)行態(tài)勢,為優(yōu)化資源配置和性能調(diào)整提供依據(jù)。


    ? ? ? ? 通過大屏展示核心運(yùn)維數(shù)據(jù)態(tài)勢,細(xì)粒度可達(dá)網(wǎng)絡(luò)中中間件、中間件資源和鏈路。所有的網(wǎng)絡(luò)故障與性能瓶頸都一目了然地呈現(xiàn),大大降低了管理成本,同時也提高了運(yùn)維人員處理故障的能力,節(jié)省的故障處理時間,為運(yùn)維人員管理網(wǎng)絡(luò)提供了可靠的保證。


    第5章 中間件遠(yuǎn)程控制和編排式配置

    ? ? ? ? 方案提供中間件遠(yuǎn)程控制的能力,采用“監(jiān)控+運(yùn)維+控制”的方式,將不同類型、不同版本的中間件統(tǒng)一納入控制管理。通過智能算法對中間件的資源配置進(jìn)行智能動態(tài)調(diào)整,當(dāng)中間件出現(xiàn)性能瓶頸時,自動調(diào)優(yōu)資源配置,優(yōu)化中間件運(yùn)行環(huán)境,當(dāng)中間件發(fā)生故障時,自動啟動自愈機(jī)制,快速恢復(fù)中間件的正常運(yùn)行。

    5.1.中間件遠(yuǎn)程配置執(zhí)行

    ? ? ? ? 將周期性、重復(fù)性、規(guī)律性的大量日常中間件配置工作,如啟動/停止服務(wù)、定期備份中間件配置、修改JVM參數(shù)等運(yùn)維工作,轉(zhuǎn)化為依托于平臺的自動執(zhí)行工作流,實現(xiàn)對中間件的批量、定時自動化控制管理。

    5.2.故障自愈以中間件離線重啟為例

    ? ? ? ? 以中間件實時監(jiān)控和日志、事件管理為基礎(chǔ),通過多指標(biāo)聚合檢測動態(tài)識別中間件異常,智能判斷告警類型及級別,利用自動化故障診斷和修復(fù)能力,實現(xiàn)對中間件常規(guī)故障的自動處置,特殊告警觸發(fā)升級與工單,最終實現(xiàn)故障恢復(fù),減少人工干預(yù),提高運(yùn)維效率。

    ? ? ? ? 下面以中間件離線重啟為例,介紹如何通過智和網(wǎng)管平臺實現(xiàn)中間件故障自愈。

    ? ? ? ? 效果要求:當(dāng)中間件掉線時,觸發(fā)自動重啟上線策略,恢復(fù)中間件運(yùn)行。

    ? ? ? ? 第一步:將需要管理的中間件納入平臺進(jìn)行監(jiān)控,并設(shè)置中間件在線狀態(tài)監(jiān)視器,中間件離線進(jìn)行告警。

    ? ? ? ? 第二步:進(jìn)入安管模塊的運(yùn)維編排菜單,創(chuàng)建【中間件離線重啟】策略。根據(jù)真實排障過程,通過進(jìn)行策略節(jié)點(diǎn)拖拽編排的方式規(guī)劃自愈流程。


    ? ? ? ? 第三步:配置觸發(fā)方式。方式支持通過告警觸發(fā)和通過時間觸發(fā)兩種方式進(jìn)行,為實現(xiàn)故障自愈的效果,我們選擇通過匹配告警的方式觸發(fā)策略。選定觸發(fā)設(shè)備,并以在線狀態(tài)為監(jiān)控指標(biāo),當(dāng)出現(xiàn)掉線告警時,自動觸發(fā)自愈策略。


    ? ? ? ? 編排流程配置完成后,中間件出現(xiàn)掉線告警時,立即觸發(fā)中間件自動重啟作業(yè)流,自動執(zhí)行編排內(nèi)的操作,對故障進(jìn)行校驗和處置。并在執(zhí)行過程中,對每一步處置操作進(jìn)行記錄形成日志,確保有跡可循。

    5.3.配置備份、對比與恢復(fù)

    ? ? ? ? 支持中間件配置的批量備份、下載、周期性備份、查看等,對中間件的多個備份文件進(jìn)行對比。定期自動對中間件配置進(jìn)行巡檢備份,并可進(jìn)行對比分析,為用戶管理網(wǎng)絡(luò)做出合理的建議提供數(shù)據(jù)支撐,支持進(jìn)行已備份配置間的對比分析和針對性的配置恢復(fù)。


    第6章 應(yīng)用價值

    ? ? ? ? 北京智和信通為用戶提供高可用的中間件監(jiān)控運(yùn)維與故障自愈方案,通過監(jiān)控中間件的運(yùn)行狀態(tài)和日志,迅速發(fā)現(xiàn)并診斷出現(xiàn)的異常問題,并提供詳細(xì)的故障信息,協(xié)助運(yùn)維人員快速定位故障源頭。更值得一提的是,借助于自動化運(yùn)維編排能力,可對常見中間件故障實現(xiàn)自愈。這意味著在很多情況下,系統(tǒng)可以自動修復(fù)問題,而無需人工干預(yù),極大地提高了運(yùn)維效率和系統(tǒng)的穩(wěn)定性。

    ? ? ? ? 平臺的告警和通知機(jī)制非常靈活,在中間件運(yùn)行出現(xiàn)特定閾值或異常時,立即通知運(yùn)維人員,通過智能降噪機(jī)制,更準(zhǔn)確地識別與定位關(guān)鍵異常,從而在對關(guān)聯(lián)業(yè)務(wù)影響最小的情況下進(jìn)行故障處置。通過定時捕獲和大數(shù)據(jù)分析等技術(shù),識別潛在的性能瓶頸,并通過IT資源的調(diào)整和優(yōu)化提升中間件的響應(yīng)速度,也保障了整個業(yè)務(wù)系統(tǒng)的流暢運(yùn)行。

    ? ? ? ? 對中間件進(jìn)行實時監(jiān)控和管理的同時,方案兼顧對網(wǎng)絡(luò)設(shè)備、服務(wù)器、數(shù)據(jù)庫、應(yīng)用等整個IT基礎(chǔ)設(shè)施的立體監(jiān)測,不僅支持多源數(shù)據(jù)的統(tǒng)一收集與處理,還提供了直觀的監(jiān)控儀表板和定制化報告功能,讓運(yùn)維人員能夠迅速把握IT系統(tǒng)全局運(yùn)行態(tài)勢,做出精準(zhǔn)決策。