郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
2021年當地時間3月10日凌晨,一場大火燒毀了法國斯特拉斯堡OVHCloud的鋼結構SBG2數據中心,導致其托管的許多網站中某些數據永久丟失。當前,信息化的快速發(fā)展,世界各地的數據中心越來越多、越來越大,因火災而中斷服務將帶來巨大損失和影響,如何系統(tǒng)性地加強火災防范、減災處置工作,成為當前必須面對的一個重大問題。
1、火災概況
總部位于法國魯貝的法國獨角獸公司OVHCloud(前身為OVH),在全球擁有27個數據中心,OVH是歐洲最大的托管服務提供商,也是世界第三大托管服務提供商,其位于法國斯特拉斯堡的數據中心園區(qū),共包括SBG1、SBG2、SBG3和SBG4四棟數據中心建筑。根據該公司網站上的事件報告稱,大火在當地時間凌晨1點在SBG2內的一間房內發(fā)生。到凌晨4點左右,大火完全摧毀了OVH的SBG2數據中心,并波及摧毀了SBG1八個服務器機房中的四個房間。OVH創(chuàng)始人和董事長奧克塔夫·克拉巴(OctaveKlaba)在推特更新中表示,SBG3中的所有服務器均完好無損,SBG4不受大火影響。但這些數據中心均由于這次事件停止服務,處于離線狀態(tài)。
2、火災原因分析
火災一詞是由兩個字構成的,因火成災才能被稱作火災。所以我們分析火災原因的時候,不僅要分析起火原因,還要分析致災原因。大家都知道,火災重在預防,但是防什么?不僅僅要防火,還要防災!
首先是防火防災意識淡漠,這是數據中心火災頻發(fā)的最根本原因。例如某四大行總行數據中心的總經理就曾經指責手下分管副總經理部署火災防范工作是做無用功,他的觀點非常有代表性,這位總經理說我們數據中心用的都是難燃阻燃的材料,怎么可能著火?持這種觀點的人不在少數。甚至在出了這次OVH火災后,又有媒體說,把數據中心放到海底去,就不會發(fā)生火災了。如果真的是這樣,為什么各國海軍常有潛艇火災的報道?以為海底數據倉不存在氧氣就不會有火災,但是你知道不僅只有氧氣才可以助燃嗎?在極高能量密度的封閉空間,有誰能保證不會起火、甚至爆炸?一旦有了這種意識,自然就不會在防火防災上下功夫。
其次,數據中心設計上存在缺陷。數據中心的設計應確保數據中心在具備足夠高的可用性水平的基礎上,還要有足夠的韌性,確保數據中心在局部受損的情況下還能夠具備可接受的有限服務能力。數據中心的設計師缺乏防火防災意識,就會體現到數據中心設計上。例如他們以為GB50174數據中心設計規(guī)范中對A級數據中心不存在單點故障的原則要求與火災場景無關,防火的問題僅需要遵循防火規(guī)范的要求而不需要為數據中心進行專門的考慮。例如我在即將進入土建施工階段的一個業(yè)主要求建成全球一流數據中心的大型A級數據中心的設計圖紙上看到,雙路供電的兩路本該完全隔離的配電系統(tǒng)、UPS系統(tǒng)被設計進了同一個防火分區(qū),于是只要其中一臺設備起火,就會導致整個數據中心完全斷電,成為單點故障。
再次,建造瑕疵。例如我已經在不止一個數據中心看到,現場與圖紙防火分區(qū)不對應、消防點位不對應、防火分區(qū)與滅火鋼瓶不對應,甚至發(fā)現有的氣滅分區(qū)根本不存在氣體管路。
這些給后期運維團隊有效處置火險帶來了極大的不確定因素,并且通常不易發(fā)現不易驗證,核對費時費力。前面那位總經理又有經典言論:實際與圖紙不符是工程部門的責任,我們數據中心只需按圖操作,沒必要去核實。
最后,到了運維和使用階段,往往也因為意識淡漠,不重視消防工作,導致防不了火,防不了災,小火成災。比如前面提到的不去做核實工作,不能識別和控制風險;對動火作業(yè)的管理缺失,留下起火成災的隱患;放任包裝紙箱等易燃品進入關鍵區(qū)域并處于無人看管狀態(tài),留下了火勢擴大的隱患;為了維護作業(yè)方便,不及時關閉防火門,布線作業(yè)破壞防火封堵后不及時修復等導致防火分區(qū)失效;滅火器配備不足、滅火器送檢期間未補充替代滅火器,不會使用二氧化碳滅火器等,導致初起火險無法撲滅;過度依賴聯動滅火,不會手動操作;組織演練時只演不練,做表面文章,人員不熟悉預案,未驗證預案在夜間及節(jié)假日只有值班人員時的有效性,系統(tǒng)運行方式調整卻不及時更新預案等,導致預案在需要的時候不能使用……
更近一步,我們還應當引導客戶合理使用數據中心,引導客戶采取措施,減少因數據中心服務中斷給客戶帶來更大的損失。例如對于業(yè)務連續(xù)性要求高,難以接受業(yè)務中斷的客戶,我們應當引導客戶采用災備、多活等高可用方案,將其系統(tǒng)分布部署到有一定距離的不同地點的兩個或者更多的數據中心中;對于業(yè)務連續(xù)性要求不高,尚可接受一定程度的業(yè)務中斷,但業(yè)務數據價值高的客戶,應引導客戶進行數據備份并異地保存等。再例如數據中心場地資源分配使用時,可引導客戶按照業(yè)務系統(tǒng)重要性和業(yè)務連續(xù)性要求的不同合理分區(qū)部署,確保當數據中心部分受損,服務能力不足時,有條件優(yōu)先保障業(yè)務連續(xù)性要求高的重要業(yè)務系統(tǒng)的正常運行。而現實中,數據中心為了獲客,往往宣傳一個看似合理的虛高的可用性,使得客戶對單體數據中心抱有不切實際的奢望,使數據中心火災變成了一個牽扯眾多的系統(tǒng)性災難,對給客戶造成的損失和聲譽影響甩鍋給客戶:誰讓你不做好災備呢,數據丟了你賴誰!
凡此種種,都可能導致小火成災,小災變大難。這還僅僅枚舉了一部分,遠非火災原因的全部。
3、數據中心防范火災的戰(zhàn)略管理
隨著國家戰(zhàn)略的落地,數據中心在國民經濟中發(fā)揮越來越重要的關鍵作用,而進行更加全面的有效管理,將目前以風險管控和應急預案為主的防火防災管理,改變?yōu)橹塾跒楦餍袠I(yè),特別是對數據中心高度依賴的行業(yè),提供連續(xù)穩(wěn)定的支撐服務為目標的火災場景下的服務連續(xù)性管理,數據中心應制定詳盡的火災場景下的服務連續(xù)性計劃。做好以Reduce(減小)為目標,追求零火險、零災難和零中斷的風險管理與日常運營計劃;做好滿足快速滅火、減少傷亡、減少損失、業(yè)務連續(xù)、信息安全、環(huán)境影響等多方面目標要求的應急響應(Respond)和業(yè)務恢復計劃,確保數據中心設施資源能夠快速的恢復(Recover)到最低可接受的可用性水平,重續(xù)(Resume)數據中心服務;還要事先做好災后重建(Restore)計劃,確保數據中心有可用資源用于重建,盡快將數據中心服務水平返回(Return)到災前水平。