網(wǎng)絡運維 設備管控

如何實現(xiàn)網(wǎng)絡安全監(jiān)控運維?

無人值守的IDC機房動環(huán)綜合監(jiān)控運維

無人值守的IDC機房動環(huán)綜合監(jiān)控運維
    馬上咨詢

    ? ? ? ? 企業(yè)數(shù)字化轉型以及5G、物聯(lián)網(wǎng)、云計算、人工智能等新業(yè)態(tài)帶動了數(shù)據(jù)中心的發(fā)展,在國家一體化大數(shù)據(jù)中心及“東數(shù)西算”節(jié)點布局的推動下,數(shù)據(jù)中心機房已成為各大企事業(yè)單位維持業(yè)務正常運營的重要組成部分,網(wǎng)絡設備、系統(tǒng)、業(yè)務應用數(shù)量與日俱增,規(guī)模逐漸擴大,一旦機房內(nèi)的設備出現(xiàn)故障,將對數(shù)據(jù)處理、傳輸、存儲以及整個業(yè)務構成威脅,若機房設備出現(xiàn)故障不能及時被發(fā)現(xiàn)、處理,不但會影響整個業(yè)務系統(tǒng)的正常運行,甚至造成設備報廢,使系統(tǒng)陷入癱瘓,造成嚴重后果和無法挽回的損失。

    ? ? ? ? 尤其對于銀行、稅務、證券、電信、電力、大型企業(yè)等需要實時交換數(shù)據(jù)的單位的機房,一旦系統(tǒng)發(fā)生故障,造成的經(jīng)濟損失更是不可估量,因此,數(shù)據(jù)中心機房實時監(jiān)控管理顯得更為重要。

    第1章 數(shù)據(jù)中心機房運維痛點

    ? ? ? ? 隨著“東數(shù)西算”工程和新基建的加速落地,數(shù)智化技術正逐漸滲透到各領域。但隨著數(shù)據(jù)中心建設規(guī)模的逐步擴大,必然帶來能耗的大幅增長和機房設備數(shù)量的不斷擴充,傳統(tǒng)機房監(jiān)控和管理模式已無法滿足數(shù)據(jù)中心“集中監(jiān)控、統(tǒng)一管理”的需求,運維工作面臨大量難題。

    ? ? ? ? (1)數(shù)據(jù)中心機房內(nèi)的設備種類繁多,涉及IT、電力、通信、網(wǎng)絡、消防、安防等,加上虛擬化云架構的出現(xiàn)和普及,機房的復雜度越來越高,而運維管理的復雜性急劇增加。

    ? ? ? ? (2)數(shù)據(jù)中心機房內(nèi)的設備需要長期、不間斷、低能耗、安全可靠的運行。一旦發(fā)生故障,需要快速定位,及時準確處理,但由于設備故障處理需經(jīng)過多個環(huán)節(jié),需要耗費大量時間,導致故障處理時間較長,影響業(yè)務的正常運行。

    ? ? ? ? (3)作為企業(yè)的核心資產(chǎn)之一,數(shù)據(jù)中心機房的重要性毋庸置疑,一旦機房發(fā)生災難,恢復時間相對較長,將對企業(yè)正常運營造成較大影響。

    ? ? ? ? (4)數(shù)據(jù)中心機房設備量大,但實際資源利用率往往不高。例如,有些服務器的CPU利用率、內(nèi)存利用率和磁盤利用率很低,導致機房的整體資源利用率較低,影響了機房的運行效率。

    ? ? ? ? (5)數(shù)據(jù)中心機房的檢查工作多依靠人工現(xiàn)場檢測、紙質(zhì)記錄等方式,智能化程度低,工作繁重,耗時耗力,卻依然存在不連續(xù)、不及時、遺漏、錯漏等問題。

    ? ? ? ? (6)數(shù)據(jù)中心機房運維工具多樣化,人員學習困難,且各工具產(chǎn)生的運維數(shù)據(jù)格式不統(tǒng)一,導致運維數(shù)據(jù)利用率低下。

    ? ? ? ? (7)快速變化的IT業(yè)務需求導致資產(chǎn)變更成為常態(tài),依靠Excel等工具進行資產(chǎn)管理,無法保障機房的資產(chǎn)信息能夠準確及時變更,長時間就會導致,資產(chǎn)數(shù)據(jù)信息逐漸失真。

    第2章 智和信通數(shù)據(jù)中心機房無人值守方案

    ? ? ? ? 一個完備的數(shù)據(jù)中心機房監(jiān)控運維系統(tǒng),應具備五個特點,一是實現(xiàn)從及設備運行到機房環(huán)境的多層次監(jiān)控;二是支持設置多種豐富的閾值來監(jiān)控危機;三是提供豐富的報警方式來確保相關人員能夠接收到告警信息;四是提供可視化的自動運維編排方式,實現(xiàn)自動巡檢和故障自愈;五是兼容國產(chǎn)軟硬環(huán)境,符合國產(chǎn)信創(chuàng)要求。

    ? ? ? ? 北京智和信通作為自研廠商,核心產(chǎn)品“智和網(wǎng)管平臺”,通過遠程監(jiān)控、遠程配置等技術手段實現(xiàn)對數(shù)據(jù)中心機房的自動運行、故障自動檢測、自動報警、自動修復等功能,從而達到無需人工干預的狀態(tài),實現(xiàn)機房內(nèi)設備安全穩(wěn)定運行,減少人為因素對設備運行的干擾,從而提高機房的運行效率和安全性。

    北京智和信通 智和網(wǎng)管平臺機房監(jiān)控運維架構

    ? ? ? ? 機房設備具有數(shù)量大、種類多、價值高、使用周期長、使用地點分散、缺少實時性管理、管理難度大等特點。智和信通數(shù)據(jù)中心機房無人值守方案,通過形象化的虛擬場景和真實數(shù)據(jù)相結合,增強機房設備、設施數(shù)據(jù)的直觀可視性、提高其利用率。

    ? ? ? ? 在設備采集層,智和網(wǎng)管平臺可對動力系統(tǒng)如配電、UPS等,環(huán)境系統(tǒng)如溫濕度、漏水、新風系統(tǒng)等,安防系統(tǒng)如煙感、視頻監(jiān)控等,以及其他常規(guī)網(wǎng)絡設備、機柜等進行監(jiān)控。

    ? ? ? ? 在集中監(jiān)控層,平臺部署在應用服務器上,負責采集、存儲運維數(shù)據(jù),并對數(shù)據(jù)進行分析展示,對異常數(shù)據(jù)進行告警等。

    ? ? ? ? 在智能運維層,以實時監(jiān)控為基礎,結合自動化運維和設備控制,實現(xiàn)對機房的立體管控。提供多種故障預警通知方式,保證用戶可以即時獲取故障信息,進行干預,并對實時、歷史的機房數(shù)據(jù)進行統(tǒng)計分析。

    2.1.數(shù)據(jù)中心機房架構可視化

    ? ? ? ? 北京智和信通通過網(wǎng)絡架構拓撲可視化能力,將網(wǎng)絡數(shù)據(jù)從離線表格轉移至平臺內(nèi),從靜態(tài)的網(wǎng)絡架構數(shù)據(jù)轉化為動態(tài)智能拓撲,實現(xiàn)設備、資源、鏈接、IP等實時更新、快速定位。

    2.1.1.2.5D機房可視化管理

    ? ? ? ? 以2.5D管理視圖對不同品牌、類型、版本的網(wǎng)絡設備、安全設備、存儲、主機、中間件、數(shù)據(jù)庫、虛擬化、應用服務、視頻監(jiān)控、動力設備、環(huán)境設備等進行統(tǒng)一、全方位、多層次的綜合管理,實時分析資源當前性能和運行狀態(tài),直觀反映資源的動態(tài)變化對支撐業(yè)務的影響。

    2.5D機房監(jiān)控示意圖

    ? ? ? ? 通過不同顏色、圖標表示被管理對象的狀態(tài)信息,助力運維人員實時了解網(wǎng)絡架構及全網(wǎng)運行狀態(tài),快速感知資源、鏈路、流量等異常信息。提供便捷的機房綜合信息展示方式,可對機房狀態(tài)、機房設備量、機房設備類型等進行快速查看。

    2.5D機房網(wǎng)絡綜合信息示意圖

    2.1.2.自定義機房平面結構拓撲

    ? ? ? ? 方案支持自定義數(shù)據(jù)中心機房網(wǎng)絡背景,通過自定義背景、網(wǎng)絡、設備圖標,將機房中的節(jié)點按照實際情況進行擺放,并可在拓撲中直接查看機房監(jiān)控的詳細信息。

    機房平面結構拓撲示意圖

    2.1.3.機房機柜拓撲

    ? ? ? ? 根據(jù)設備在機房和機柜的實際位置生成拓撲圖,直觀、明了地展現(xiàn)與真實服務器外觀、服務狀態(tài)、空閑位置等信息相符的網(wǎng)絡拓撲圖。

    機房機柜拓撲示意圖

    2.2.數(shù)據(jù)中心資源統(tǒng)一監(jiān)控

    ? ? ? ? 本方案實現(xiàn)數(shù)據(jù)中心機房中網(wǎng)絡設備、動力設備、環(huán)境設備、安防設備等的信息高頻采集,并結合智能算法,實現(xiàn)對數(shù)據(jù)中心機房的整體架構、設備運行狀態(tài)、業(yè)務可用狀態(tài)的實時信息采集和感知。通過對機房中海量設備的智能解析和關聯(lián)分析,助力運維人員從多個維度實現(xiàn)對相應告警的智能分析,解決傳統(tǒng)運維監(jiān)控中關聯(lián)數(shù)據(jù)缺失,輔助排障信息不足的問題。

    2.2.1.網(wǎng)絡設備監(jiān)控

    ? ? ? ? 方案支持對機房內(nèi)網(wǎng)絡設備,如:交換機、防火墻、路由器、服務器等的性能、故障進行監(jiān)測,蔽廠商、型號差異,掌握機房整體運行情況和運行效能,能高效、快速、精準進行故障定位診斷。

    設備資源可視化顯示?

    2.2.2.動力設備監(jiān)控

    ? ? ? ? 方案實現(xiàn)市電參數(shù)監(jiān)測、UPS參數(shù)監(jiān)測等功能,對機房動力設備進行實時監(jiān)控、集中管控,了解UPS的運行狀況,及時地發(fā)現(xiàn)并解決UPS運行中出現(xiàn)的各種問題,保障機房動力系統(tǒng)安全穩(wěn)定。

    2.2.3.環(huán)境設備監(jiān)控

    ? ? ? ? 實現(xiàn)機房煙霧監(jiān)測、精密空調(diào)監(jiān)測、溫濕度監(jiān)測、漏水監(jiān)測等功能,并在監(jiān)控界面上以圖形形式直觀地表現(xiàn)出來,一旦監(jiān)測數(shù)據(jù)過安全范圍,系統(tǒng)即時發(fā)送報警,為機房打造安全無憂的運維環(huán)境。

    2.2.4.安防設備監(jiān)控

    實現(xiàn)視頻監(jiān)控抓拍、門禁狀態(tài)監(jiān)測等功能,保障機房安全,降低機房安全風險。

    ? ? ? ? 本方案可對不同品牌、不同型號的攝像頭進行統(tǒng)一運維,融合網(wǎng)絡高清、智能分析、多級管控為一體。支持監(jiān)管視頻監(jiān)控體系涉及的視頻前端設備(攝像頭、卡口、編解碼器),傳輸設備(光纖收發(fā)器、EPON 等)內(nèi)場設備(網(wǎng)絡與安全設備、主機/虛擬機、存儲設備)、機房動力環(huán)境等多種設備,等統(tǒng)一接入、集中管理。

    視頻監(jiān)控效果示意圖

    2.2.5.云資源監(jiān)控

    ? ? ? ? 對復雜的多云異構環(huán)境、云上云下資源、信創(chuàng)云等進行管理,實現(xiàn)云下服務器、網(wǎng)絡設備、安全設備、機房、機柜、專線、配件等設施,云上各類云服務器、云磁盤等云產(chǎn)品以及各類 1P、NAT、DNS 等資源的真正一站式運維,并支持對納管資源的快速擴展。

    ? ? ? ? 自動監(jiān)測基礎設施及資源,其中包括云、混合云、容器、虛擬主機、網(wǎng)絡、服務器、存儲等。對進程、資源利用率、網(wǎng)絡使用量、性能、日志、事件進行監(jiān)測。基于對私有云中的系統(tǒng)資源、租戶資源的監(jiān)控,實現(xiàn)云資源的生命周期管理,通過可視化運維編排,進行云管理策略預設配置、云策略批量/定時執(zhí)行、智能監(jiān)控巡檢。

    2.2.6.全資源監(jiān)控

    ? ? ? ? 北京智和信通基于機器學習與數(shù)據(jù)分析的無人值守IDC機房運維方案,對不同類型、不同型號、不同廠商的機房設施進行統(tǒng)一監(jiān)控,并通過自動發(fā)現(xiàn)技術,生成機房立體拓撲圖,將機柜、設備、配電柜、溫感、濕感、煙感、空調(diào)、UPS、蓄電池及其他設備可視化呈現(xiàn)。

    • 對基礎環(huán)境,包括機柜位置、空調(diào)、消防、安防、弱電、UPS等,進行運行維護,保障機房環(huán)境正常穩(wěn)定。
    • 對網(wǎng)絡環(huán)境,包括交換機、路由器等設備,以及由這些設備組成的所有網(wǎng)絡,進行網(wǎng)絡運行狀態(tài)監(jiān)控,定期優(yōu)化網(wǎng)絡配置,提升網(wǎng)絡運營效率。
    • 對于服務器和存儲,包括小型機、服務器、存儲設備、SAN交換機等基礎硬件,監(jiān)控其實時運行狀態(tài),快速對出現(xiàn)的問題和變更進行處理。
    • 對基礎軟件,包括各種操作系統(tǒng)、數(shù)據(jù)庫、中間件、備份軟件等,進行優(yōu)化配置,實時監(jiān)控,確??焖偬幚砉收?,及時進行變更、升級等操作。
    • 對其他類型設備,通過自定義設備類型及其設備資源的方式,更大地提高了方案對不同設備類型的支持能力,真正實現(xiàn)了對設備及其資源的化管理,達到管控萬物的目標。



    2.3.無人值守的異常告警與故障自愈

    2.3.1.實時故障預警,及時洞察異常信息

    ? ? ? ? 通過統(tǒng)一的故障管理平臺,將各個模塊中的監(jiān)控信息統(tǒng)一采集、分析,實現(xiàn)整個機房運維中各種事件信息、設備故障、網(wǎng)絡異常、流量異常等告警,采集數(shù)據(jù)中心機房內(nèi)所有聯(lián)網(wǎng)設備,如存儲、服務器、路由器、交換機、防火墻、虛擬化、云、UPS、煙感、溫度、漏水、空調(diào)等設備、資源、應用、服務等的狀態(tài)信息,通過對告警機制以及閾值的設置,即時獲取準確的告警信息,快速定位告警設備,提升告警處理效率,降低因設備故障帶來的損失。


    2.3.2.異常事件管理

    ? ? ? ? 將事件和告警分離管理,接收設備/服務器主動發(fā)送的消息,集中處理后,及時地通知用戶,并可以通過集中的管理界面進行管理。接收設備/服務器主動發(fā)送的消息,更大地提高了管理的主動性,通過統(tǒng)一界面集中管理事件,降低了管理的難度。


    2.3.3.無人值守的故障自愈

    ? ? ? ? 以網(wǎng)絡狀態(tài)監(jiān)控、設備性能監(jiān)測為基礎,結合網(wǎng)絡流量偵測功能,動態(tài)發(fā)現(xiàn)網(wǎng)絡故障。智能判斷告警類型及級別,自動觸發(fā)預設的故障處置流程,復雜告警指派工單專人處理,常規(guī)告警觸發(fā)安全策略全自動處理。


    2.4.無人值守的機房資源巡檢

    ? ? ? ? 傳統(tǒng)的人工巡檢,尤其是應用巡檢,缺乏統(tǒng)一的規(guī)范、標準,導致巡檢的范圍和深度都存在一定的局限性,并且是基于人工的手工統(tǒng)計,工作效率比較低,同時耗費較大的人力資源。

    本方案依托平臺對機房設備、應用、系統(tǒng)等預設巡檢策略,收集信息數(shù)據(jù)并對其健康情況進行分析。將以前依賴手工進行的日常巡檢轉換為自動化、定時執(zhí)行的巡檢策略。


    2.5.無人值守的設備遠程配置

    ? ? ? ? 網(wǎng)絡承載的業(yè)務經(jīng)常發(fā)生變更,面對業(yè)務的變更運維工程師往往要對大量設備進行操作,此時如果依靠工程師逐一登錄設備進行命令下發(fā)、策略配置,將產(chǎn)生大量重復性的工作,不但導致運維效率低下,也不可避免地產(chǎn)生人為配置錯誤。

    ? ? ? ? 用戶可通過網(wǎng)頁對智和網(wǎng)管平臺進行訪問,通過對納入監(jiān)控的設備進行單獨、批量的配置操作,設備策略遠程配置管理,可以自動批量進行設備配置修改,并可對設備配置進行備份、對比、恢復,宕機后設備配置可快速復原,保障設備及時恢復運行,提升配置效率、質(zhì)量和安全性。


    2.5.1.多類型多廠商設備支持

    ? ? ? ? 針對不同類型的設備,支持進行各種控制、配置操作。

    • 對服務器/主機/虛擬化,支持一鍵開關機、進程管理、應用管理、容量管理等
    • 對交換機/路由器,支持ACL、QoS、流量策略、端口策略等
    • 對安全設備,支持防護管理、認證管理、NAT管理、VPN管理、內(nèi)容控制等
    • 對數(shù)據(jù)庫/中間件,支持空間管理、池管理、會話管理、連接控制等
    • 對傳輸設備,支持終端管理、鏈路管理、信號控制、功率配置等
    • 對其他設備,支持結合用戶實際場景,通過拖拽流程的方式實現(xiàn)自定義管控策略

    ? ? ? ? 對不同廠商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、華為、H3C、銳捷、中興等多家廠商的網(wǎng)絡設備。

    2.5.2.設備策略備份對比

    ? ? ? ? 方案通過配置文件批量備份、下載、周期性備份、查看等功能,為用戶管理網(wǎng)絡做出合理的建議提供數(shù)據(jù)支撐。


    2.6.全場景自動化運維

    ? ? ? ? 隨著數(shù)據(jù)中心建設規(guī)模和復雜度的增加,運維的工作變得更加繁瑣。在運維的工作中,有相當大部分工作都是重復性的指令進行操作。將一些重復性的、邏輯關系明確的操作工作,如:變更、擴容、業(yè)務部署、監(jiān)控、故障恢復等以組件、策略的形式托管至平臺中進行維護和管理,用戶根據(jù)需求從策略庫中選取對應的策略,并采取可視化拖拽的編排方式裝配成運維業(yè)務流程,最后觸發(fā)執(zhí)行即可完成期望的運維變更任務,從而實現(xiàn)高效、穩(wěn)定、安全的智能運維。


    2.6.1.全場景實現(xiàn)自動災備切換

    ? ? ? ? 通過一鍵啟停的應用控制和場景觸發(fā),簡化人工操作,實現(xiàn)快速災備切換。保障在遇到系統(tǒng)故障、業(yè)務崩潰等災難時,自動將源端業(yè)務切換到備端數(shù)據(jù)中心,從而保障業(yè)務的連續(xù)性,實現(xiàn)業(yè)務的高可用。

    2.6.2.靈活編排,多運維場景支持

    ? ? ? ? 自動化運維編排,可實現(xiàn)完全根據(jù)用戶場景,定制化設計運維劇本,真正將運維任務托管至平臺,解放人力。

    • 開發(fā)環(huán)境自動化,如軟件代碼自動化更新、自動化編譯、自動化打包、自動化發(fā)布預警生產(chǎn)環(huán)境。
    • 應用發(fā)布自動化,如服務自動化升級、軟件自動化部署等。
    • 故障自愈能力,如網(wǎng)口異常自動關閉、磁盤爆滿自動清理、非法設備入侵阻斷、CPU空間不足自動重啟等。
    • 定時服務重啟,如在工作日每天晚上定時關閉應用,每天早上自動重啟應用等。
    • 智能批量設備管控,如批量設備策略執(zhí)行,當設備的配置狀態(tài)不一時,能夠基于當前設備自身的狀態(tài)自動決策適合于本設備的管控操作等。
    • 定期設備健康狀況自檢,如定期設備健康狀態(tài)自檢、服務運行狀態(tài)自檢等。
    • 基于HTTP接口自動化,如基于HTTP接口的工單自動化、審批自動化、業(yè)務自動化等。
    • 高可用服務自動切換,如主備數(shù)據(jù)庫運行狀況自檢異常自動切換,服務運行狀態(tài)檢查主備切換等。
    • 虛擬化、云服務資源自動化擴容,如在虛擬化環(huán)境資源不足時自動化根據(jù)實際情況進行擴容。
    • 日常運維自動化,如自動化定期執(zhí)行批處理cmd\sh腳本、自動化定期數(shù)據(jù)清洗、自動化定期環(huán)境檢查并導出報表等。

    2.6.3.積累形成運維知識庫

    ? ? ? ? 在數(shù)據(jù)中心日常網(wǎng)絡運維服務中,重復的故障和請求約占到70%,只有30%的故障真正需要專業(yè)人員來解決,知識經(jīng)驗對提升重復工作的效率起到了至關重要的作用。

    ? ? ? ? 通過智和網(wǎng)管平臺自動化運維的能力,將只能有專家處理的各類操作和判斷轉化為可存在于平臺內(nèi)的流程,形成可保留可復用的運維知識,減少因誤操作帶來的損失,保障運維效率。以規(guī)范的流程進行運維作業(yè),保障關鍵數(shù)據(jù)的完整合規(guī)。

    2.7.全網(wǎng)帶寬、流量監(jiān)控與回溯分析

    ? ? ? ? 方案基于海量流量數(shù)據(jù)的存儲挖掘,實現(xiàn)對網(wǎng)絡流量的偵測分析。通過網(wǎng)絡流量分析技術,采集、分析、存儲所有網(wǎng)絡流量,回溯分析數(shù)據(jù)包特征、異常網(wǎng)絡行為,以多維數(shù)據(jù)分析和深度挖掘為手段,實現(xiàn)數(shù)據(jù)包層面的流量追蹤,發(fā)現(xiàn)潛伏于網(wǎng)絡中的未知攻擊。


    ? ? ? ? 方案支持大容量、長時間存儲流量數(shù)據(jù),長期實時保存原始數(shù)據(jù)包。通過高效的數(shù)據(jù)檢索,實現(xiàn)流量數(shù)據(jù)的快速回溯。對已發(fā)生的流量行為進行回溯分析,迅速定位異常流量,對其進行挖掘、分析、取證,實現(xiàn)多維根因追溯,為迅速定位問題發(fā)生原因提供更分析依據(jù),同時為網(wǎng)絡安全提供強有力的數(shù)據(jù)分析保障。

    2.8.業(yè)務可用性管理

    ? ? ? ? 本方案以保障業(yè)務可用性為基礎,通過對承載業(yè)務的IT基礎設施構建真實的業(yè)務模型。

    ? ? ? ? 方案通過構建業(yè)務系統(tǒng)與部門、IT資源及關鍵指標的關聯(lián)關系,整合前端、應用、后臺任務、外部服務、數(shù)據(jù)庫及基礎設施,直觀呈現(xiàn)面向服務的業(yè)務系統(tǒng)體系架構;通過影響傳遞,準確反映設備異常對核心業(yè)務、用戶造成的影響和威脅,并對造成業(yè)務影響的故障進行實時告警,快速查明導致業(yè)務中斷的故障源,幫助運維人員做出及時響應,保障業(yè)務連續(xù)性。

    業(yè)務系統(tǒng)示意圖

    2.8.1.業(yè)務可用性撥測分析

    ? ? ? ? 針對業(yè)務應用性能與用戶體驗進行檢測分析,直觀、便捷地幫助運維人員對數(shù)據(jù)中心涉及的辦公系統(tǒng)、交易系統(tǒng)、支付系統(tǒng)、官網(wǎng)、手機APP系統(tǒng)等進行監(jiān)控,掌握業(yè)務的運行狀態(tài)和健康水平,了解業(yè)務動態(tài)變化趨勢,快速定位故障源,降低運營風險。

    業(yè)務看板示意圖

    2.8.2.業(yè)務瓶頸根因定位

    ? ? ? ? 方案實現(xiàn)完整全鏈路調(diào)用鏈追蹤,包含詳細的調(diào)用鏈訪問路徑和性能等訪問信息,以及相關的各類請求參數(shù)等業(yè)務數(shù)據(jù)指標,為故障定位、根因分析提供詳盡的參考數(shù)據(jù)。

    業(yè)務拓撲示意圖

    ? ? ? ? 通過業(yè)務數(shù)據(jù)可視化能力,既可集中呈現(xiàn)業(yè)務數(shù)據(jù)的用戶體驗狀態(tài),也可以基于應用、設備實時監(jiān)控、呈現(xiàn)業(yè)務各節(jié)點的實時運行狀態(tài),包括用戶體驗、節(jié)點可用性、節(jié)點負載等狀態(tài)信息。基于自定義閾值自動監(jiān)測,異常指標自動觸發(fā)告警,快速定位業(yè)務瓶頸根因,并可根據(jù)用戶自愈策略,觸發(fā)自動運維實現(xiàn)故障自愈。

    2.9.可視化數(shù)據(jù)分析

    ? ? ? ? 利用圖形、圖表、圖表等易于理解的形式,提取和分析大量復雜的數(shù)據(jù)中心網(wǎng)絡中各類運維數(shù)據(jù),呈現(xiàn)分析結果,從而幫助運維人員在短時間內(nèi)更好地理解和獲得更多的信息,幫助運維部門能夠實時了解業(yè)務和其所依賴IT資源的運行狀況,以及提供系統(tǒng)運維和優(yōu)化的指示和依據(jù)。

    數(shù)據(jù)中心大屏示意圖

    2.9.1.多設備性能對比分析

    ? ? ? ? 方案支持選擇多個設備進行同維度性能數(shù)據(jù)分析,提供可視化性能對比視圖。如用戶獲知宿主機的CPU利用率逐漸增加,即可對其中的虛擬機性能進行對比分析,以定位高消耗的虛擬機,快速找到性能瓶頸節(jié)點。


    2.10.資產(chǎn)全生命周期監(jiān)管

    ? ? ? ? 對于數(shù)據(jù)中心的網(wǎng)絡資產(chǎn)管理,采取統(tǒng)一數(shù)據(jù)標準,對整體網(wǎng)絡資產(chǎn)進行梳理和調(diào)用,避免資產(chǎn)信息在運維系統(tǒng)和實物間的差異,減少網(wǎng)絡運維過程中信息不一致、數(shù)據(jù)不統(tǒng)一等問題通過平臺將資產(chǎn)實物與運維數(shù)據(jù)庫一一對應,解決網(wǎng)絡設備在日常運維過程中出現(xiàn)“脫管”或“半脫管”的問題,實現(xiàn)對整體數(shù)據(jù)中心網(wǎng)絡內(nèi)IP、ARP、MAC接口數(shù)據(jù),訪問控制信息,應用系統(tǒng)信息,網(wǎng)絡地址及性能容量、設備資產(chǎn)配置容量、機房布線容量信息的集中管理。


    2.11.定制化運維工單體系

    ? ? ? ? 通過方案實現(xiàn)運維工單“無紙化”,支持于設備和故障管理頁面快速創(chuàng)建工單,把控故障處理進度,通過工單平臺簡化故障處理流程,形成自動化故障處理機制,并在每個處理流程的節(jié)點上責任到人,實現(xiàn)在快速響應故障的同時,實現(xiàn)兼顧運維流程管控。

    ?

    第3章 自主研發(fā)安全可控 適配國產(chǎn)信創(chuàng)環(huán)境

    ? ? ? ? 信創(chuàng)產(chǎn)業(yè)包含了從IT底層的基礎軟硬件到上層應用軟件的全產(chǎn)業(yè)鏈的安全可控,涵蓋了應用軟件、信息安全、IT基礎設施、基礎軟件四個領域。其中,基礎軟件是信息系統(tǒng)更核心的部件,是保障信息系統(tǒng)安全的重要陣地和防線,其創(chuàng)新應用與自主可控關系到國家安全和利益,也是產(chǎn)業(yè)自主發(fā)展的基礎。


    ? ? ? ? 本方案支持部署運行在中標麒麟、銀河麒麟、紅旗Linux等國產(chǎn)操作系統(tǒng),支持在達夢、金倉、神州等國產(chǎn)數(shù)據(jù)庫進行數(shù)據(jù)存儲,通過東方通等國產(chǎn)中間件提供對外服務[8],支持龍芯、申威等國產(chǎn)CPU架構,并實現(xiàn)對國產(chǎn)化CPU、服務器、數(shù)據(jù)庫、中間件等IT軟硬件設備的綜合監(jiān)控與運維管理。

    第4章 雙機熱備,保障災備恢復

    ? ? ? ? 方案支持雙機熱備功能,平臺使用兩臺服務器,互相備份,共同執(zhí)行同一服務。當一臺服務器出現(xiàn)故障時,可以由另一臺服務器承擔服務任務,在不需要人工干預的情況下,自動保證系統(tǒng)能持續(xù)提供服務,在發(fā)生服務器故障時,可以保持系統(tǒng)的可用性。


    第5章 方案應用價值

    ? ? ? ? 通過部署智和信通無人值守的數(shù)據(jù)中心機房運維方案,對機房中的網(wǎng)絡設備、UPS電源、機房環(huán)境系統(tǒng)、供配電系統(tǒng)、空調(diào)系統(tǒng)、門禁系統(tǒng)、視頻監(jiān)控系統(tǒng)等進行監(jiān)管。將機房場景和虛擬數(shù)據(jù)進行結合,提高機房設備的管理、設施數(shù)據(jù)的直觀可視化。

    ? ? ? ? 通過簡明易懂操作界面,讓用戶能更輕松地掌握全局,高效地處理突發(fā)事件,從故障根源解決問題,做到數(shù)據(jù)中心機房管理的實時化,智能化、網(wǎng)絡化;使用戶實現(xiàn)方便,安全,可靠,準確,無人值守的數(shù)據(jù)中心機房管理。