? ? ? ? 數(shù)字時代,政企業(yè)務(wù)上云已成為大勢所趨。雖然上云可為政企用戶帶來業(yè)務(wù)應(yīng)用部署調(diào)度更加靈活、資源利用率更高的優(yōu)點,但因云平臺建設(shè)處于不同的階段,且運轉(zhuǎn)過程中包含大量的、不同類型的業(yè)務(wù)系統(tǒng)和應(yīng)用場景,在整體云平臺的建設(shè)中往往會產(chǎn)生如公有云、私有云、信創(chuàng)云、非信創(chuàng)云等不同架構(gòu)、不同模式、不同廠商的云平臺。多云并存模式是應(yīng)對IT多元化的必然選擇,然后隨著其廣泛應(yīng)用,集中、統(tǒng)一的多云納管、混合云運維愈發(fā)凸顯其重要性。
第1章 多云納管、混合云運維的痛點
? ? ? ? 隨著企業(yè)業(yè)務(wù)規(guī)模擴大和復(fù)雜化及云計算、大數(shù)據(jù)等技術(shù)不斷發(fā)展,政企用戶希望通過上云加速其數(shù)字化轉(zhuǎn)型,而在基礎(chǔ)設(shè)施上云后,如何掌握平臺部署架構(gòu)?管理云上云下資源?掌握具體資源使用情況?如何進行日常運維巡檢?等等,都是用戶將面臨的難題。
面臨的具體難題如下:
第2章 一網(wǎng)多云下的智能運維方案
? ? ? ? 在數(shù)字化轉(zhuǎn)型、云原生的趨勢下,不同架構(gòu)、不同模式、不同廠商的云平臺已存在且將長期存在于政企的IT系統(tǒng)建設(shè)中。在復(fù)雜多云混合的環(huán)境下,用戶面臨資源整合統(tǒng)管的實際問題,嚴重影響業(yè)務(wù)敏捷運行和數(shù)字化健康持續(xù)發(fā)展。
? ? ? ? 北京智和信通一網(wǎng)多云智能運維方案,實現(xiàn)傳統(tǒng)數(shù)據(jù)中心、公有云、私有云、虛擬化等一體集中運維,自動化配置,對云上云下資源統(tǒng)一納管,云部署架構(gòu)可視化展現(xiàn),快速定位異常資源,將周期性、重復(fù)性的日常運維巡檢工作,轉(zhuǎn)化為依托平臺的自動化策略,以配置為核心、以服務(wù)為驅(qū)動,提升IT部門運維洞察力,幫助用戶更快速、更便捷、更安全地使用云。
2.1. 混合多云、異構(gòu)納管
? ? ? ? 方案對復(fù)雜的多云異構(gòu)環(huán)境、云上云下資源、信創(chuàng)云等進行管理,實現(xiàn)云下服務(wù)器、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、機房、機柜、專線、配件等設(shè)施,云上各類云服務(wù)器、云磁盤等云產(chǎn)品以及各類IP、NAT、DNS等資源的真正一站式運維,并支持對納管資源的快速擴展。自動監(jiān)測基礎(chǔ)設(shè)施及資源,其中包括云、混合云、容器、虛擬主機、網(wǎng)絡(luò)、服務(wù)器、存儲等。對進程、資源利用率、網(wǎng)絡(luò)使用量、性能、日志、事件進行監(jiān)測。
? ? ? ? 方案基于對私有云中的系統(tǒng)資源、租戶資源的監(jiān)控,實現(xiàn)云資源的生命周期管理,通過可視化運維編排,進行云管理策略預(yù)設(shè)配置、云策略批量/定時執(zhí)行、智能監(jiān)控巡檢。支持多云納管、持續(xù)監(jiān)控,對云的容量進行智能化分析,為容量優(yōu)化提供依據(jù)。
2.2. 全量觀測,統(tǒng)一運維
? ? ? ? 通過北京智和信通的混合云智能運維方案實現(xiàn)對多種類型、不同廠商的云平臺進行可視納管,統(tǒng)一運維,通過多云管理,梳理整體IT資源關(guān)聯(lián)關(guān)系,構(gòu)建云網(wǎng)絡(luò)統(tǒng)一視圖,實現(xiàn)網(wǎng)絡(luò)實現(xiàn)云資源、網(wǎng)絡(luò)設(shè)備、鏈接關(guān)系、IP等實時可視展示、動態(tài)數(shù)據(jù)更新、快速定位故障。
智和云上云下混合云架構(gòu)網(wǎng)絡(luò)拓撲示意圖
2.3. 虛擬資源統(tǒng)一管理
? ? ? ? 方案對虛擬化環(huán)境下的虛擬機、宿主機等進行全方位運維監(jiān)控,支持Exi5、KVM、Xen、Hyper-v等,監(jiān)測指標涵蓋物理機內(nèi)部虛擬化設(shè)備的電源、操作系統(tǒng)、CPU、內(nèi)存、磁盤等,更大化利用計算資源,保障虛擬化平臺運行穩(wěn)定。
2.4. 云網(wǎng)絡(luò)運行態(tài)勢感知
? ? ? ? 實時監(jiān)測并感知混合云網(wǎng)絡(luò)性能相關(guān)情況,覆蓋物理環(huán)境、虛假環(huán)境、云環(huán)境,采集設(shè)備資源、應(yīng)用、服務(wù)等性能信息,通過智能分析,多維度處理、分析、展示網(wǎng)絡(luò)基礎(chǔ)設(shè)施性能狀態(tài),實現(xiàn)全網(wǎng)態(tài)勢的“可觀、可管、可控”。
? ? ? ? 對智慧云上云下混合云架構(gòu)絡(luò)環(huán)境中的IT基礎(chǔ)設(shè)施進行實時監(jiān)控,獲取網(wǎng)絡(luò)更新運行態(tài)勢,監(jiān)控設(shè)備類型覆蓋:公有云、私有云、信創(chuàng)云等各類云平臺,服務(wù)器、交換機、路由器等網(wǎng)絡(luò)設(shè)備,防火墻、堡壘機等安全設(shè)備,數(shù)據(jù)庫,中間件,虛擬機,攝像頭以及其他聯(lián)網(wǎng)的IT設(shè)施。
2.5. 統(tǒng)一故障態(tài)勢感知
? ? ? ? 方案通過統(tǒng)一的故障管理中心,統(tǒng)一檢測、統(tǒng)一管理、統(tǒng)一分析云上云下混合云架構(gòu)中各種事件日志、設(shè)備故障、網(wǎng)絡(luò)異常、業(yè)務(wù)指標異常、流量異常等信息,快速感知網(wǎng)絡(luò)故障?;诠收夏P秃虯I算法分析故障原因,分析、壓縮、并歸關(guān)聯(lián)故障信息,降低故障風(fēng)暴,秒級定位故障位置,主動出擊快速排障,故障處置全流程展示。
? ? ? ? 幫助運維人員主動發(fā)現(xiàn)85%的潛在網(wǎng)絡(luò)問題,并識別根因和主動修復(fù),充分利用積累的有效定障、排障經(jīng)驗,打通告警中心、自動運維中心、工單中心等關(guān)聯(lián)數(shù)據(jù),實現(xiàn)從接收告警到故障恢復(fù)的全生命周期閉環(huán)管理。
2.6. 日志與事件管理
? ? ? ? 將事件和告警分離管理,接收設(shè)備/服務(wù)器主動發(fā)送的消息,集中處理后,及時地通知用戶,并可以通過集中的管理界面進行管理。接收設(shè)備/服務(wù)器主動發(fā)送的消息,更大地提高了管理的主動性,通過統(tǒng)一界面集中管理事件,降低了管理的難度。
2.7. 跨云自動化巡檢
? ? ? ? 傳統(tǒng)的人工巡檢,尤其是應(yīng)用巡檢,缺乏統(tǒng)一的規(guī)范、標準,導(dǎo)致巡檢的范圍和深度都存在一定的局限性,并且是基于人工的手工統(tǒng)計,工作效率比較低,同時耗費較大的人力資源。本方案依托平臺將以前依賴手工進行的日常巡檢轉(zhuǎn)換為自動化、定時執(zhí)行的巡檢策略,日常例行巡檢、節(jié)假日和重要事件前的巡檢均可自動化執(zhí)行。
2.8. 全網(wǎng)IP合規(guī)管理
? ? ? ? 對于云上云下的IP地址采取統(tǒng)一數(shù)據(jù)標準進行梳理和管理,分網(wǎng)段、端到端的規(guī)劃、部署、管理和監(jiān)控IP地址。通過多種合規(guī)性策略檢測全網(wǎng)MAC-IP的使用情況,實現(xiàn)從規(guī)劃、分配到使用、回收的IP地址全視角管理,提升IP信息準確性,真正IP地址集中化、自動化、規(guī)范化管控。
第3章 跨云端到端業(yè)務(wù)運維體系
? ? ? ? 隨著業(yè)務(wù)的不斷增長,基于云上云下混合云架構(gòu)的應(yīng)用系統(tǒng)也越來越多,如OA、Email、ERP等。對業(yè)務(wù)層級的監(jiān)控正逐漸成為日常運維巡檢的核心,如何維護云上云下混合云架構(gòu)的可靠穩(wěn)定,不中斷、不丟包、低延時、低抖動,以保障各項業(yè)務(wù)的穩(wěn)定,已成為占IT運維部門過60%份額的日常工作。
搭建可跨云的端到端業(yè)務(wù)運維體系,實現(xiàn)政企用戶業(yè)務(wù)系統(tǒng)運維管理的主動化和體系化,通過實時地監(jiān)測和分析發(fā)現(xiàn)系統(tǒng)潛在的問題和風(fēng)險,實現(xiàn)主動式運維管理,保障關(guān)鍵業(yè)務(wù)穩(wěn)定運行。
3.1. 業(yè)務(wù)全景可視化觀測
? ? ? ? 方案通過構(gòu)建業(yè)務(wù)系統(tǒng)與部門、IT資源及關(guān)鍵指標的關(guān)聯(lián)關(guān)系,整合前端、應(yīng)用、后臺任務(wù)、外部服務(wù)、數(shù)據(jù)庫及基礎(chǔ)設(shè)施,直觀呈現(xiàn)面向服務(wù)的業(yè)務(wù)系統(tǒng)體系架構(gòu);通過影響傳遞,準確反映設(shè)備異常對核心業(yè)務(wù)、用戶造成的影響和威脅,并對造成業(yè)務(wù)影響的故障進行實時告警,快速查明導(dǎo)致業(yè)務(wù)中斷的故障源,幫助運維人員做出及時響應(yīng),保障業(yè)務(wù)連續(xù)性。
3.2. 業(yè)務(wù)可用性撥測分析
? ? ? ? 針對業(yè)務(wù)應(yīng)用性能與用戶體驗進行檢測分析,無需安裝插件即可提供開箱即用的主動撥測試業(yè)務(wù)監(jiān)測。從前端用戶體驗、網(wǎng)絡(luò)延遲到后端業(yè)務(wù)服務(wù)和基礎(chǔ)架構(gòu),全棧溯源為用戶提供端到端完整全鏈路數(shù)據(jù)融合和關(guān)聯(lián)分析,為用戶快速發(fā)現(xiàn)業(yè)務(wù)性能瓶頸,提升用戶體驗奠定基礎(chǔ)。
3.3. 全量業(yè)務(wù)調(diào)用鏈追蹤
? ? ? ? 方案實現(xiàn)完整全鏈路調(diào)用鏈追蹤,包含詳細的調(diào)用鏈訪問路徑和性能等訪問信息,以及相關(guān)的各類請求參數(shù)等業(yè)務(wù)數(shù)據(jù)指標,為故障定位、根因分析提供詳盡的參考數(shù)據(jù)。
3.4. 業(yè)務(wù)瓶頸根因定位
? ? ? ? 方案通過業(yè)務(wù)數(shù)據(jù)可視化能力,既可集中呈現(xiàn)業(yè)務(wù)數(shù)據(jù)的用戶體驗狀態(tài),也可以基于應(yīng)用、設(shè)備實時監(jiān)控、呈現(xiàn)業(yè)務(wù)各節(jié)點的實時運行狀態(tài),包括用戶體驗、節(jié)點可用性、節(jié)點負載等狀態(tài)信息?;谧远x閾值自動監(jiān)測,異常指標自動觸發(fā)告警,快速定位業(yè)務(wù)瓶頸根因,并可根據(jù)用戶自愈策略,觸發(fā)自動運維實現(xiàn)故障自愈。
第4章 全場景可視化跨云運維編排
? ? ? ? 隨著政企用戶數(shù)字化、信息化建設(shè)發(fā)展而來的是越來越復(fù)雜的業(yè)務(wù)和越來越多樣化的需求,不斷擴展的應(yīng)用需要更加合理的運維模式來保障。傳統(tǒng)運維依賴人工進行,運維效率低,網(wǎng)絡(luò)配置管理易出錯,排障處置困難。
? ? ? ? 方案通過運維自動化將IT運維中涉及的服務(wù)、命令、操作、執(zhí)行組件化、策略化,將需要進行的運維服務(wù)、操作等以組件、策略的形式托管至平臺中進行維護和管理,通過簡單靈活的編排能力,使用者可以選擇業(yè)務(wù)場景所需的策略,通過可視化拖拽的編排方式進行組合,即可完成應(yīng)用場景端到端的圖形化編排。
4.1. 網(wǎng)絡(luò)變更、云平臺配置自動化
? ? ? ? 混合云架構(gòu)承載的業(yè)務(wù)經(jīng)常發(fā)生變更,在傳統(tǒng)云平臺管理模式中,配置變更、性能優(yōu)化等需求,均需通過運維工程師登錄云平臺手動執(zhí)行,將產(chǎn)生大量重復(fù)性的工作,不僅耗時還更大地增加了運維的工作量。
? ? ? ? 在安全合規(guī)的前提下,本方案將運維人員從整體的變更流程及變更內(nèi)容的準備中解脫出來,實現(xiàn)網(wǎng)絡(luò)變更、設(shè)備配置自動化,業(yè)務(wù)需求變更,通過平臺自動部署實現(xiàn),無需手工敲命令行,快速響應(yīng)需求變化。以“拖拉拽”的簡單操作讓“運維方案”真正自動化,實現(xiàn)業(yè)務(wù)應(yīng)用軟件自動部署、自動化升級等快速交付能力。
4.2. 人工運維與故障自愈結(jié)合
? ? ? ? 將人工運維與故障自愈結(jié)合,無需針對告警進行手動處置,只需預(yù)編排告警處理流程,平臺根據(jù)場景自動觸發(fā),實現(xiàn)故障自愈。降低甚至清除排障處置中的延遲時間,完成零延遲的IT運維。
? ? ? ? 通過實時發(fā)現(xiàn)告警,進行預(yù)診斷分析,判斷告警類型和級別,如果是一般告警,平臺進行自動恢復(fù),如果是嚴重復(fù)雜告警則通過告警通知、運維工單等形式通知運維管理人員,進行人工處理。同時,將只能由專家處理的各類操作和判斷轉(zhuǎn)化為可存在于平臺內(nèi)的流程,形成可保留可復(fù)用的運維知識。
4.3. 靈活編排,多場景支持
自動化運維編排,可實現(xiàn)完全根據(jù)用戶場景,定制化設(shè)計運維劇本,真正將運維任務(wù)托管至平臺,解放人力。
第5章 云監(jiān)管數(shù)據(jù)分析展示
? ? ? ? 混合云架構(gòu)中涉及的IT設(shè)施及各業(yè)務(wù)系統(tǒng)產(chǎn)生的海量數(shù)據(jù)無法得到深層次的應(yīng)用,管理者決策缺乏數(shù)據(jù)依據(jù),難以參考各類網(wǎng)絡(luò)業(yè)務(wù)指標、數(shù)據(jù)等實現(xiàn)對運行態(tài)勢、隱患風(fēng)險的實時掌控及運營管理。
? ? ? ? 為解決此難題,智和信通混合云智能運維方案對云監(jiān)管涉及的數(shù)據(jù)進行整合分析、分區(qū)域分層級地進行直觀的圖形、圖表、圖例等展示,從而幫助運維人員在短時間內(nèi)更好地理解和獲得更多的信息,幫助運維中心能夠?qū)崟r了解業(yè)務(wù)和其所依賴IT資源的運行狀況,以及提供系統(tǒng)運維和優(yōu)化的指示和依據(jù)。
第6章 更多協(xié)同運維能力
6.1. 云上云下資產(chǎn)整合管理
? ? ? ? 對于云上云下各類資產(chǎn)管理,采取統(tǒng)一數(shù)據(jù)標準進行梳理和調(diào)用,避免資產(chǎn)信息在運維系統(tǒng)和實物間的差異,減少網(wǎng)絡(luò)運維過程中信息不一致、數(shù)據(jù)不統(tǒng)一等問題通過平臺將資產(chǎn)實物與運維數(shù)據(jù)庫一一對應(yīng),解決網(wǎng)絡(luò)設(shè)備在日常運維過程中出現(xiàn)“脫管”或“半脫管”的問題。
? ? ? ? 建立健全資產(chǎn)臺賬,實現(xiàn)一機一檔,通過自定義多級資產(chǎn)分類,細化資產(chǎn)類別,實現(xiàn)物資資產(chǎn)、虛擬資產(chǎn)、云資產(chǎn)分類管控,通過在橫向上納管異構(gòu)云平臺,在縱向上理清異構(gòu)跨層級資產(chǎn)間的對應(yīng)關(guān)系,從根本上解決IT資源割裂、分散的問題,提高資產(chǎn)精細管理程度。
6.2. 運維工單無紙化流轉(zhuǎn)
? ? ? ? 通過方案實現(xiàn)運維工單“無紙化”,支持于設(shè)備和故障管理頁面快速創(chuàng)建工單,把控故障處理進度,通過工單平臺簡化故障處理流程,形成自動化故障處理機制,并在每個處理流程的節(jié)點上責(zé)任到人,實現(xiàn)在快速響應(yīng)故障的同時,實現(xiàn)兼顧運維流程管控。
6.3. 全網(wǎng)帶寬、流量透視
? ? ? ? 隨著政企用戶數(shù)字化轉(zhuǎn)型和上云的加速,其業(yè)務(wù)、應(yīng)用層出不窮,對網(wǎng)絡(luò)帶寬的需求越來越高。正常的業(yè)務(wù)需要良好的帶寬環(huán)境保障機制,避免被一些與業(yè)務(wù)無關(guān)的雜事干擾,影響工作效率。方案對混合云路網(wǎng)絡(luò)全局流量和帶寬實時監(jiān)控,將出入雙方向流量情況可視化展現(xiàn)。基于海量流量數(shù)據(jù)的存儲挖掘,統(tǒng)計分析流量峰值、谷值、流量趨勢、設(shè)備流量等數(shù)據(jù),為網(wǎng)絡(luò)流量管理提供數(shù)據(jù)支撐。
第7章 兼容信創(chuàng)國產(chǎn)生態(tài)
? ? ? ? 方案實現(xiàn)對國產(chǎn)云、信創(chuàng)云、國產(chǎn)服務(wù)器的統(tǒng)一納管,也支持在中標麒麟、銀河麒麟、紅旗Linux等國產(chǎn)操作系統(tǒng)上運行,支持在達夢、金倉、神州等國產(chǎn)數(shù)據(jù)庫進行數(shù)據(jù)存儲,通過東方通等國產(chǎn)中間件提供對外服務(wù),支持龍芯、申威等國產(chǎn)CPU架構(gòu),助力用戶業(yè)務(wù)應(yīng)用的國產(chǎn)化環(huán)境改造。在支撐用戶構(gòu)建信創(chuàng)環(huán)境的同時,也針對各類信創(chuàng)設(shè)備、服務(wù)組件等提供相應(yīng)的運維服務(wù),在降本增效的同時,促進政企用戶業(yè)務(wù)創(chuàng)新發(fā)展。
第8章 方案應(yīng)用價值
? ? ? ? 通過多云資源池、多云專線、物理服務(wù)器、虛擬機、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備等統(tǒng)一納管,實現(xiàn)用戶統(tǒng)一監(jiān)控、統(tǒng)一告警、統(tǒng)一運營,避免運維孤島。支持對任意云的接入納管,實現(xiàn)對異構(gòu)混合云的可觀測能力建設(shè),高效拉通異構(gòu)云環(huán)境下的監(jiān)控、配置、故障處置等運維能力。有效避免運維風(fēng)險,保障業(yè)務(wù)連接不中斷,通過自動化編排能力,避免在每個云平臺上進行重復(fù)操作,降低了運維復(fù)雜性,提升IT管理和運維效率,讓運維更簡單。