加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
這份數(shù)據(jù)中心災(zāi)難報(bào)告由兩部分構(gòu)成,該報(bào)告完全基于現(xiàn)實(shí)經(jīng)驗(yàn)。在報(bào)告的第一部分中(詳見《親歷火災(zāi):數(shù)據(jù)中心災(zāi)難恢復(fù)啟示錄》),管理人員一直工作到下午三點(diǎn),研究如何預(yù)防電氣火災(zāi),最后決定在數(shù)據(jù)中心中添加一個(gè)聲音報(bào)警和兩個(gè)分解總線。通過這份災(zāi)難恢復(fù)報(bào)告我們可以發(fā)現(xiàn)故障點(diǎn)以及如何避免云災(zāi)難。
整整花費(fèi)了一天喝半個(gè)晚上時(shí)間才在DR站點(diǎn)恢復(fù)了IR操作運(yùn)營,而這也僅僅是針對最高級別的優(yōu)先系統(tǒng)。有了便攜式空調(diào)設(shè)備、臨時(shí)通信和小型不間斷供電設(shè)備,我們就可以恢復(fù)手機(jī)通訊。需要花費(fèi)幾個(gè)星期的時(shí)間才能替換大型交換機(jī)燒毀的部件,但是,我們還是需要了解哪里出現(xiàn)了故障,以便杜絕再次發(fā)生此類事故。
以下使我們所發(fā)現(xiàn)的六個(gè)故障點(diǎn),然后我們在災(zāi)難恢復(fù)報(bào)告中做了記錄。
隱患點(diǎn)一:空調(diào)設(shè)備
盡管我們配備了多個(gè)空調(diào)設(shè)備,但是這些設(shè)備都公用一個(gè)接線總機(jī)。只有兩個(gè)冗余單元和一組不間斷供電設(shè)備(簡稱UPS)室單元的電源是分開的,設(shè)計(jì)師認(rèn)為這種思路是合乎邏輯的,但是,實(shí)際上這是否定了備用的想法。我們還未能夠正確設(shè)置總斷路器上的跳閘電流,工程師們和承包商還沒有調(diào)整好斷路器。因此,當(dāng)一臺空調(diào)設(shè)備遇到問題時(shí),主斷路器就會跳閘現(xiàn)象,而不是單個(gè)支路斷路器跳閘,這樣會造成80%的冷卻資源浪費(fèi)。紅外線掃描可以在接線總機(jī)中完成,但是只有一部分空調(diào)設(shè)備能夠運(yùn)行。未達(dá)到滿載,設(shè)備也不會溫度過高,因此,在測試過程中,我們也不會發(fā)現(xiàn)連接松動的現(xiàn)象。
第二個(gè)連線總機(jī)跟第一個(gè)連線總機(jī)一樣,在同一個(gè)電器柜中,這樣做的目的是滿足財(cái)務(wù)預(yù)算,因此,兩條電源總線是彼此相鄰的狀態(tài)。當(dāng)一個(gè)發(fā)生爆炸時(shí),也會同樣引爆第二個(gè),然后我們就什么也沒有了。
隱患點(diǎn)二:數(shù)據(jù)中心設(shè)計(jì)
在災(zāi)難恢復(fù)報(bào)告中,我們所要檢查的另外一個(gè)項(xiàng)目就是數(shù)據(jù)中心設(shè)計(jì)。因?yàn)椋慌_發(fā)電機(jī)要供整個(gè)大樓使用,轉(zhuǎn)換開關(guān)設(shè)置在地下室、接線總機(jī)的上方。并沒有感知到即將發(fā)生的電源故障,但是被毀壞的接線總機(jī)卻會阻止我們。共用一個(gè)發(fā)電機(jī),我們本應(yīng)該設(shè)置多個(gè)自動交換機(jī)提供數(shù)據(jù)中心內(nèi)數(shù)據(jù)轉(zhuǎn)換。用這種方式,如果將電源引入到數(shù)據(jù)中心中,且建筑內(nèi)其他設(shè)備未受影響,那么,發(fā)電機(jī)便會開始工作,數(shù)據(jù)中心也會恢復(fù)緊急電源的使用。
我們反對電氣室與數(shù)據(jù)中心相鄰過近,因?yàn),我們不希望電氣涉及到?jì)算環(huán)境中。我們曾忽視了這一點(diǎn)。電氣室空調(diào)設(shè)備運(yùn)行正常,數(shù)據(jù)中心中設(shè)備停止運(yùn)行,此時(shí),電氣室會產(chǎn)生正壓。當(dāng)門打開時(shí),爆炸所產(chǎn)生的熱量和煙霧會隨之發(fā)散。
隱患點(diǎn)三:煙霧探測器的問題
早期的預(yù)警煙霧探測器會立即識別危險(xiǎn),而且還可以控制氣體滅火,雖然其設(shè)置方式并非正確。因此,發(fā)現(xiàn)危險(xiǎn)源時(shí)該探測器并不是發(fā)出警報(bào),而是根據(jù)它感應(yīng)到的煙霧,觸發(fā)其釋放氣體的功能。煙霧顆粒同樣可以污染其他正常運(yùn)行設(shè)備的過濾器。唯一一個(gè)好消息是,與兩個(gè)備用設(shè)備一樣,電氣室內(nèi)的空調(diào)設(shè)備都在同一個(gè)電路上,因此,可以繼續(xù)運(yùn)行。沒有制冷設(shè)備,UPS會迅速升溫,然后關(guān)閉之前的計(jì)算機(jī)房。UPS應(yīng)該走旁路,維護(hù)主機(jī)電源,但是,測試中我們卻發(fā)現(xiàn),旁路連接出現(xiàn)錯(cuò)誤。只有一臺空調(diào)設(shè)備,受到損害的可能性非常大。
隱患點(diǎn)四:優(yōu)先等級
UPS可以通過網(wǎng)絡(luò)進(jìn)行按序服務(wù)關(guān)系,但是,由于存在優(yōu)先等級問題,這個(gè)想法一直也沒有實(shí)現(xiàn)。我們還了解到,其實(shí)并不需要Emergency Power Off按鈕,因此,也不會存在“高架活動地板”,不需要使用任何限制。工程師們指出了該行業(yè)一些非常危險(xiǎn)的按鈕,“因?yàn)槊恳粋(gè)數(shù)據(jù)中心都會有一個(gè)危險(xiǎn)按鈕,”但是其中并不包含任何防護(hù)按鈕,防止其被過早使用。
數(shù)據(jù)中心管理人員將會面臨無數(shù)個(gè)挑戰(zhàn)任務(wù)。我們要學(xué)會如何能夠?qū)⑦@些實(shí)際過程中會接觸到的任務(wù)進(jìn)行優(yōu)先等級排列。
隱患點(diǎn)五:DCIM報(bào)警
當(dāng)我問到,數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(簡稱DCIM)工具會提醒我主要警告,但是唯一的局限就是ASHRAE的允許溫度,這個(gè)溫度限制高于數(shù)據(jù)中心的實(shí)際冷卻溫度。由于冷卻溫度的設(shè)定是建立在之前的推薦溫度值的基礎(chǔ)上,而且要比推薦溫度更低,因此,在還未出發(fā)報(bào)警之前就已經(jīng)宣告失敗了,我們還需要花費(fèi)很多時(shí)間來進(jìn)行救災(zāi)搶修。
DCIM還會顯示出,我們所設(shè)置的10個(gè)空調(diào)設(shè)備中有8個(gè)都宣布設(shè)置失敗,同時(shí)也陳述了失敗的原因和影響因素,我們沒有為DCIM系統(tǒng)購買機(jī)械設(shè)備模塊,因此,當(dāng)冷卻單元裝置失靈時(shí)并沒有發(fā)出警告提示。這一點(diǎn)也會被記錄到災(zāi)難恢復(fù)報(bào)告中。
隱患點(diǎn)六:缺乏訓(xùn)練和標(biāo)準(zhǔn)
實(shí)際工作中,我們需要進(jìn)行多次DCIM培訓(xùn),GUI非常復(fù)雜,會提供許多詳細(xì)的數(shù)據(jù),使我們辨識起來非常困難。我們嘗試重新對GUI進(jìn)行修訂,這樣,我們可以看得更加清晰明了,但是,其可配置性卻非常低。
IT應(yīng)該包含在重要系統(tǒng)的選擇范圍內(nèi),在購買之前,進(jìn)行同類測試,明確如何衡量其他軟件。
我們非常清楚地知道,這并不屬于III級事故,正規(guī)認(rèn)證將會披露這些漏洞。公司避免了許多承包備份和DR站點(diǎn)所引起的麻煩,因此,開發(fā)和測試計(jì)劃的失敗原因在于我們自己。作為災(zāi)難恢復(fù)報(bào)告中的一部分,我們花費(fèi)了許多時(shí)間、非常認(rèn)真的審閱了DR站點(diǎn)合同,并且根據(jù)審閱過程中發(fā)現(xiàn)的問題提出了一些改善建議。在制定DR計(jì)劃時(shí),我們也獲得了一些幫助,通過轉(zhuǎn)接操作,現(xiàn)在我們可以一年進(jìn)行兩次測驗(yàn)工作。