區域級全棧容災丨航天壹進制數據中心容災解決方案及實踐
數字時代,數據即資產,然而近年來關于數據中心災難事件層出不窮。2022年,谷歌和甲骨文公司位于倫敦的云數據中心出現故障,導致部分網站癱瘓;2021年,歐洲云計算巨頭OVH位于法國斯特拉斯堡的機房發生嚴重火災,其中一個數據中心被完全燒毀;2020年8月,澳洲電信Telstra位于英國倫敦的托管數據中心由于UPS故障引起火災……
隨著我國“東數西算”工程的啟動,數據中心作為數字化轉型發展的關鍵基礎設施,被提到了重要的地位。此前,國家層面就提出要高度重視數字經濟高質量發展,推動建設全國一體化的國家大數據中心協同創新體系,加快新型基礎設施建設布局。
與此同時,各類組織把應用、數據、系統集中處理,數據中心作為托管各種業務系統所需的服務器、存儲、網絡等基礎設施資源,其數據安全面臨的風險越來越高。災難性的突發事件發生時如何保障核心業務7x24小時不間斷運行,成為業務安全的首要問題。加上傳統數據中心運維集中、服務多樣,不僅具有新型的工作負載,還面臨著資源利用率低、切換業務時間長、切換數據易丟失、缺少演練等的挑戰,其業務連續性與災備保護建設需要重新定義。
基于此,航天壹進制建立統一架構、覆蓋不同用戶和不同災備訴求的軟性災備能力中心,并推出數據中心級容災解決方案,在真正發生災難時確保數據不丟失、業務不停機。
數據中心容災解決方案
區域級全棧容災的能力展現
數據中心災難事件通常包含運行故障事件、緊急突發事件、重大災難事件,為了應對不同程度的災難事件,增強組織韌性,航天壹進制經過前期災備需求分析,對災備指標分級、業務分類,通過全面的災備建設規劃,采用多層級容災技術提供覆蓋多場景的容災方案,廣泛滿足各類組織容災需求。
方案優勢:
·專業災備建設規劃:通過對用戶數據中心業務進行現狀調研、RA、BIA分析,得出信息系統RTO、RPO,綜合業務關注的多要素進行業務分類,根據災備指標分級、業務分類,結合“成本風險平衡原則”,進行災備策略規劃,對不同類別系統選擇合理的災備技術開展容災建設。
·多場景容災:廣泛覆蓋本地應急、同城雙活、異地主備和兩地三中心等。為預防數據中心內部緊急突發事件,比如運行故障、勒索病毒等,通過在本地構建應急容災區域,實現應用和數據庫的分鐘級接管;為預防區域級災難,通過在同城或異地構建跨區域災備中心,從數據層和應用層分別采用多種容災技術路線,實現面向關鍵應用與數據庫的“準雙活“容災,當區域級災難發生時,通過災備切換平臺實現快速容災切換。
·多層級容災:提供面向不同級別災難事件的多層級容災能力,通過應急容災技術實現業務的快速接管,解決數據中心內部緊急突發事件導致的業務中斷;通過網絡、應用負載均衡、數據庫復制、文件復制、存儲復制等技術實現跨區域數據中心容災,解決區域級災難事件導致的業務中斷。
·全流程災備切換:業務系統涉及應用、中間件、數據庫、網絡等眾多對象,用戶根據每個業務流以及實際切換需求通過災備管理平臺進行可視化自由編排。通過切換編排功能,以所見即所得的模式讓災備流程的配置更為自由高效。當災難事件發生時,通過災備管理平臺實現快速容災切換,滿足RTO指標要求。
·預案管理和容災演練:通過災備管理平臺進行場景預案構建、管理和更新,同時為了驗證預案的有效性,采用災備管理平臺開展日常容災演練,將容災演練進行平臺化管控,整個切換過程自動化完成,極大減少了人為干預,最大程度保障切換成功率,降低RTO。
典型行業案例
保障企業安全可靠運營的落地實踐
01 國內某政府機關
隨著各類業務的快速發展和業務體量的增長,使得機關總署及各地分支信息系統服務器架構變得非常復雜。國內某政府機關預建立南北雙中心,實現數據大集中和統一管控,并通過負載均衡實現南方區域訪問南數據中心,北方區域訪問北數據中心。航天壹進制為該客戶南北數據中心OA應用提供本地實時保護和應急接管建設,對核心數據庫提供數據備份與快速掛載建設,對文件數據、人大金倉、達夢、高斯等國產化數據庫以及華為云提供備份與應急恢復建設等,提高南北數據中心各系統安全防護等級與能力,避免災難或重大事故的發生。
02 國內某大型集團公司
隨著央企集團正在進行數字化轉型,應用和數據安全以及業務連續性需要得到保障,國內某大型集團公司亟待解決業務系統遷移的效率和風險問題,完成無縫系統數據遷移;且系統平臺獨立運行,未將下屬企業集中管控。航天壹進制為該客戶的本地兩數據中心采用一般數據定時備份,核心數據實時備份,核心應用應急接管和應急演練策略;異地數據中心采用數據級同步復制保護策略,分區域、分等級、分策略、分目標進行集中安全防護,保障數據安全不丟失,業務連續不間斷,也極大地降低災備運維難度和運維成本。
結語:航天壹進制數據中心容災解決方案的制定和實施對于保障企業的業務連續性和數據安全至關重要。通過全面的風險評估和需求分析,選擇適合的容災策略和建設容災設施,定期進行容災測試和演練,并健全數據保護安全措施,優化安全運行機制,可以有效減少數據中心故障的影響并保障企業的正常運營,提升安全保障能力的同時,為企業管理、科研生產等相關業務的穩定運營提供強有力的技術保障。