? ? ? ? 企業(yè)數字化轉型以及5G、物聯網、云計算、人工智能等新業(yè)態(tài)帶動了數據中心的發(fā)展,在國家一體化大數據中心及“東數西算”節(jié)點布局的推動下,數據中心機房已成為各大企事業(yè)單位維持業(yè)務正常運營的重要組成部分,網絡設備、系統(tǒng)、業(yè)務應用數量與日俱增,規(guī)模逐漸擴大,一旦機房內的設備出現故障,將對數據處理、傳輸、存儲及整個業(yè)務構成威脅,若機房設備出現故障不能及時被發(fā)現、處理,不但會影響整個業(yè)務系統(tǒng)的正常運行,甚至可能使系統(tǒng)陷入癱瘓,造成嚴重后果和無法挽回的損失。
? ? ? ? 尤其對于銀行、稅務、證券、電信、電力、大型企業(yè)等企事業(yè)單位的機房,一旦系統(tǒng)發(fā)生故障,造成的損失更是不可估量,因此,數據中心機房實時監(jiān)控管理顯得更為重要。
第1章?IDC機房監(jiān)控內容
? ? ? ? 北京智和信通作為自研廠商,核心產品“智和網管平臺”,通過實時監(jiān)控、遠程配置等技術實現數據中心機房的自動檢測、自動報警、自動修復等功能,從而達到無需人工干預的機房運維狀態(tài),減少人為因素對設備運行的干擾,并通過形象化的虛擬場景和真實數據相結合,增強機房設備、設施數據的直觀可視性、提高其利用率。
? ? ? ? 對于機房各項設施的監(jiān)控是保障數據中心穩(wěn)定運行的重要環(huán)節(jié),其中涉及對機房環(huán)境、設備狀態(tài)、資源使用情況等多方面的實時監(jiān)測和分析預警。
第2章?IDC機房監(jiān)控指標
? ? ? ? 方案可對IDC機房內環(huán)境系統(tǒng)、動力系統(tǒng)、IT設備、安防系統(tǒng)進行實時監(jiān)控和運維,獲取最新運行狀態(tài)。目前,已適配溫濕度、水浸、煙感等傳感器和UPS、攝像頭、門禁設備等關鍵裝置,并內置多種監(jiān)控指標。更多監(jiān)控資源和指標也可通過靈活可配的模型庫進一步擴展適配。
? ? ? ? 方案支持用戶自定義擴展監(jiān)控對象、監(jiān)控點及監(jiān)控指標的方式,賦予用戶強大的適配能力,可自定義機房內各類子系統(tǒng)和設備的資源、故障監(jiān)視器、性能監(jiān)視器、TRAP監(jiān)視器等,極大地增強了平臺的靈活性和適應性,最大限度地實現對IDC機房的管理和維護。
第3章?IDC機房實時監(jiān)控
? ? ? ? 方案通過智能算法自動發(fā)現IDC機房中的各類設施,自動生成網絡拓撲,實時監(jiān)控各項運行指標,感知機房運作狀態(tài),獲取潛在威脅。
3.1.智能發(fā)現IDC機房中的各類設施
? ? ? ? 在網絡可達范圍內,自動獲取IDC機房中的各類設施的品牌、型號、監(jiān)控指標等信息,并獲取IT設備間的連接關系。將機房中的IT設備、溫濕度、漏水、電源、電流電壓、煙霧、紅外、UPS、視頻監(jiān)控、精密空調及門禁等在同一平臺、同一界面進行監(jiān)控。
3.2.2.5D機房、機柜拓撲呈現
? ? ? ? 以2.5D的形式呈現機房內部場景,并以不同顏色圖標展現機房內設備的實時狀態(tài)信息。
? ? ? ? 真實展示機柜及柜內設備狀態(tài),直觀呈現機柜總U位數,使用U位數以及剩余U位數。
3.3.實時監(jiān)控各項設施運行狀態(tài)
? ? ? ? 全面采集IT設備、溫濕度、漏水、電源、電流電壓、煙霧、紅外、UPS、視頻監(jiān)控、精密空調及門禁等的使用情況、運行狀態(tài)等核心指標信息,支持按照時間、資源、性能類型等多種維度,圖形、表格等多種形式展示IDC機房整體可用性、機柜容量、機房內設施和IT設備的運行性能等信息。
? ? ? ? 對實時、歷史性能數據進行統(tǒng)計分析,通過曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標變化。也可選擇機房內多個傳感器、IT設備進行同維度性能數據分析,提供可視化性能對比視圖。運維人員能隨時把握性能變化態(tài)勢,防患于未然。
3.4.無人值守的自動巡檢
? ? ? ? 根據用戶特定需求與場景,定制IDC機房巡檢策略,設定巡檢頻率、時間及范圍等參數。平臺無需人工干預,即可依據預設策略自動執(zhí)行巡檢操作,對IDC機房整體、環(huán)境系統(tǒng)、動力系統(tǒng)、IT設備、安防系統(tǒng)等的實時狀態(tài)進行巡查,涵蓋故障、性能指標,收集信息數據并對其健康情況進行分析,并自動生成詳盡的巡檢報告。
? ? ? ? 將以往依賴人工手動操作的日常巡檢轉變?yōu)樽詣踊?、定時執(zhí)行的巡檢策略,定期對IDC機房進行全面檢查,不僅有助于提前發(fā)現潛在問題并采取預防措施,從而保障機房的穩(wěn)定運行和高效管理,同時也能顯著降低人工巡檢所耗費的時間與人力成本。
第4章 告警與日志管理
? ? ? ? 充分利用積累的有效定障、排障經驗,打通基礎設施監(jiān)控、IP合規(guī)性監(jiān)測、流量透視、自動運維、運維工單等關聯數據,實現從告警檢測到排障恢復的全生命周期閉環(huán)管理。
4.1.日志與事件管理
? ? ? ? 主動接收IDC機房內各類設施生成的事件與日志,諸如服務器宕機、網絡設備斷鏈、溫度傳感器報警、濕度傳感器報警、UPS電池耗盡、電源配電柜異常、煙霧探測器報警以及攝像頭藍屏等。通過統(tǒng)一的存儲與解析處理機制,將上述事件及日志信息按照統(tǒng)一的標準化格式進行展示。并在檢測到關鍵事件或異常情況時,自動觸發(fā)告警機制,迅速通知相關人員,及時發(fā)現異常并精準定位問題根源。
4.2.智能告警管理
? ? ? ? 搭載多樣化的告警機制,并支持根據實際需求自定義配置告警閾值。用戶可根據設備型號、配置以及所承載的業(yè)務類型,靈活設置差異化的告警閾值,以滿足不同場景下的監(jiān)控需求。7×24小時不間斷監(jiān)控機房設備,實時監(jiān)測其性能指標。當設備性能指標達到或超過預設的預警閾值,自動觸發(fā)告警,提醒運維人員關注設備的運行狀態(tài)。
? ? ? ? 提供界面顏色變化、提示聲、光效閃爍、信息列表展示、Email、短信、釘釘、企業(yè)微信、個人微信等多種通知渠道,告警通知無延遲,告警渠道全覆蓋。告警通知實時性強,可實現無延遲送達,同時覆蓋所有主流通知渠道,以滿足不同用戶的多樣化需求,保障告警信息的及時傳達。
4.3.智能告警降噪
? ? ? ? 采用多種智能化告警降噪策略,包括自動去重、告警風暴抑制、關聯聚合、維護期時間屏蔽以及依賴關系屏蔽等。通過應用AI智能算法,對各類告警信息進行自動化壓縮與收斂處理,有效減少無效告警的數量,抑制告警風暴現象的發(fā)生。
? ? ? ? 在此基礎上,確保告警機制既能避免誤報,也能防止漏報,同時直接定位故障的根本原因,從而提升告警信息的準確性和有效性。
4.4.運維知識庫
? ? ? ? 將各類運維操作實踐及故障判斷經驗整合并轉化為平臺內部的知識資源,構建團隊知識庫,涵蓋知識的存儲、檢索、更新、維護及審核等環(huán)節(jié),通過分類管理運維工作中所需的文檔、操作指南、排障實踐、處置流程和配置信息等,實現知識的系統(tǒng)化管理。
第5章?運維數據分析與展示
? ? ? ? 通過直觀的圖表和圖形化手段清晰有效地將運維數據分析結果進行傳達,幫助用戶由宏觀和微觀更快地了解IDC機房運行現狀,做出更具時效性的決策。
5.1.統(tǒng)計報表
? ? ? ? 提供自定義運維數據報表功能,對機房運行數據進行深度挖掘與分析。用戶可根據自身需求靈活定義報表內容,實現運維數據的多樣化展現與統(tǒng)計分析。
通過生成可視化報告,將復雜數據轉化為直觀圖表和趨勢分析,從而提升運維數據的利用效率,為決策提供有力支持。
5.2.運維大屏
? ? ? ? 提供可視化數據分析能力及實時監(jiān)控畫面,通過大屏實時展示機房內各類設備(包括服務器、存儲設備、網絡設備、UPS、空調等)、系統(tǒng)(操作系統(tǒng)、數據庫、中間件等)以及機房環(huán)境(溫濕度、電力、水浸等)的運行狀態(tài)和關鍵性能指標。
? ? ? ? 運維人員能夠迅速掌握機房的整體運行狀況以及各類設備的實時狀態(tài)。例如,服務器的關鍵性能指標,包括CPU使用率、內存使用率、磁盤空間剩余量、網絡設備的端口流量、機房環(huán)境的溫濕度等。以動態(tài)圖表、實時流速圖、數字趨勢圖等形式,為運維人員提供了清晰、實時的數據支持,便于快速識別和處理潛在問題。
第6章?全場景自動化運維
? ? ? ? 將重復性且邏輯關系明確的運維操作,如變更管理、擴容操作、業(yè)務部署、監(jiān)控配置、故障恢復等,以組件化和策略化的形式托管至平臺中進行集中維護與管理。用戶可根據實際需求從策略庫中選擇相應的策略,以可視化拖拽的方式進行編排,快速裝配成完整的運維流程。通過觸發(fā)執(zhí)行,即可高效完成預期的運維變更任務,實現運維工作的自動化與標準化。
6.1.自動化運維──以故障自愈為例
? ? ? ? 以服務器實時監(jiān)控和日志、事件管理為基礎,動態(tài)發(fā)現網絡故障,智能判斷告警類型及級別,利用自動化故障診斷和修復能力,實現常規(guī)故障自動處置,特殊告警觸發(fā)升級與工單,最終實現故障恢復,減少人工干預,提高運維效率。
? ? ? ? 下面以服務器磁盤爆滿自動清理為例,介紹如何通過智和網管平臺實現服務器故障自愈。
效果要求:當服務器磁盤使用率超過90%時,觸發(fā)自動清理策略,釋放磁盤空間。
? ? ? ? 第一步:將需要管理的服務器納入平臺進行監(jiān)控,并將監(jiān)視器設置為磁盤使用率超過90%進行嚴重級別告警。
? ? ? ? 第二步:進入安管模塊的運維編排菜單,創(chuàng)建磁盤爆滿自動清理策略。根據真實排障過程,通過進行策略節(jié)點拖拽編排的方式規(guī)劃自愈流程。
? ? ? ? 第三步,配置觸發(fā)方式,運維編排支持手動觸發(fā)、定時觸發(fā)、告警觸發(fā)等方式,根據策略內容,我們選擇手動觸發(fā)的方式。
? ? ? ? 編排流程配置完成后,設備出現對應的嚴重級別告警后,立即觸發(fā)磁盤清理策略,自動執(zhí)行編排內的操作,對故障進行校驗和處置。并在執(zhí)行過程中,對每一步處置操作進行記錄形成日志,確保有跡可查。
6.2.配置備份、對比與恢復
? ? ? ? 支持配置文件批量備份、下載、周期性備份、查看等,對IDC機房內設備的多個備份文件進行對比。定期自動對服務器配置進行巡檢備份,并可進行對比分析,為用戶管理網絡做出合理的建議提供數據支撐,支持進行已備份配置間的對比分析和針對性的配置恢復。
第7章 機房資產全生命周期監(jiān)管
? ? ? ? 為解決IDC機房設備管理中的“脫管”或“半脫管”問題,方案采取統(tǒng)一數據標準,對機房資產進行全面梳理與調用。通過智和網管平臺,將資產實物與運維數據庫進行一一對應,實現對IDC機房內網絡設備、機柜、UPS、網絡地址、機房布線容量等信息的集中管理。
? ? ? ? 這一措施不僅提升了資產信息的準確性和完整性,還通過標準化管理流程,確保網絡設備的全生命周期得到有效監(jiān)控與維護。
第8章?方案應用價值
? ? ? ? 北京智和信通IDC機房運維方案通過智能化、自動化和可視化的手段,顯著提升了機房的運維效率、穩(wěn)定性和安全性,同時降低了運維成本和風險,為企業(yè)的業(yè)務連續(xù)性提供了有力保障。?
? ?面監(jiān)控與可視化管理
? ? ? ? 方案實現了對機房內網絡設備、UPS電源、環(huán)境系統(tǒng)、供配電系統(tǒng)、空調系統(tǒng)、門禁系統(tǒng)、視頻監(jiān)控系統(tǒng)等的全面監(jiān)管。通過形象化的虛擬場景與真實數據相結合,增強機房設備和設施數據的直觀可視性,幫助運維人員快速掌握系統(tǒng)運行狀態(tài)
? ?故障快速定位與自愈
? ? ? ? 通過智能告警機制和自動化運維功能,方案能夠快速定位故障根因,并觸發(fā)自動化修復流程,減少人工干預時間,降低業(yè)務中斷風險,保障業(yè)務的連續(xù)性。
? ?數據驅動與決策支持
? ? ? ? 通過對機房運行數據的實時采集與分析,方案生成可視化的報告和趨勢分析,為運維決策提供數據支撐,幫助優(yōu)化資源配置,提升整體運維效能。
? ?提升運維效率與穩(wěn)定性
? ? ? ? 通過自動化監(jiān)控和預警機制,實時機房中的IT設備、溫濕度、漏水、電源、電流電壓、煙霧、紅外、UPS、視頻監(jiān)控、精密空調及門禁等運行狀態(tài),及時發(fā)現并處理潛在問題,避免故障的發(fā)生或擴大,從而顯著提升機房的運行效率和穩(wěn)定性。
? ?降低運維成本與風險
? ? ? ? 通過自動化巡檢、智能告警、故障自愈、配置備份與恢復等功能,減少了人工運維的工作量,降低了運維成本,同時通過預防性維護和故障自愈能力,降低業(yè)務中斷的風險。